【观隅】数据集管理与可视化平台-NABCD分析

时间:2020-12-17 22:31:00
项目 内容
这个作业属于哪个课程 2021春季软件工程(罗杰 任健)
这个作业的要求在哪里 团队项目-初次邂逅,需求分析

项目介绍

观隅 数据集管理与可视化平台(取“观一隅而知全局”之意),一款数据集管理与可视化软件,可以对常见深度学习数据集进行筛选、可视化以及结构解析。可以方便深度学习新手快速入门,也可以通过对数据集内容的直观展示辅助模型的设计与优化。

NABCD分析

N (Need 需求)

  • 深度学习近年来被大量应用。目前网上有各种领域各种各样的数据集,数据集的格式具有多样性,不方便使用者直接查看
  • 初次接触某领域的深度学习任务时,用户需要通过观察数据集来了解任务的输入输出,从而对任务建立起直观的理解
  • 对数据集的可视化可以加速用户后续的模型开发过程,观察模型在数据集上表现不好的部分,可以相应地改进自己的设计,加速开发进程

A (Approach 做法)

  • 常见深度学习数据集的可视化

    • 对于简单的带标签的分类数据,展示数据(不同形式)以及数据对应的标签
    • 对于图像分割、物体识别等数据,用颜色覆盖层标注图像的分割结果和物体位置,同时标注物体内容
    • 对于视频数据,动态用颜色覆盖层等方式标志出目标
    • 对于音频数据,在时间轴上展示数据中被标记的区域
    • 对于文本数据,用不同颜色分割不同的被标记成份
  • 数据集文件结构的可视化解析

    • 解析文件的结构
    • 对于某些没有DataLoader的数据集,提供示例代码生成
  • 数据集内容的筛选和搜索

    • 用户可以选出自己感兴趣的目标标签并查看结果,例如从MNIST数据集中找出所有标注为1的图像
    • 在NLP相关的数据集里,用户可以查找相关的数据内容,例如从IMDB数据库中找到存在某个词的数据及其标注
  • 数据集的筛选和搜索

  • 为了方便用户直观体验一些基础的公共数据集,在服务器上搭建网站提供主流数据集的管理与可视化服务

  • 考虑到数据隐私和网络性能等原因,允许在用户主机端运行Web服务器提供管理(类似TensorBoard),用户可在浏览器中打开本机的数据集进行可视化和管理

B (Benefit 好处)

  • 用户可以通过本平台对某个或某类数据集形成直观认识
  • 用户可以通过本平台快速筛选出某领域的数据集
  • 用户可以通过本平台对某个数据集中的数据进行快速筛选,并以可视化的方式对这部分数据的特征进行了解
  • 用户可以将服务部署在本地,对于本地的涉密数据集也可以可视化

C (Competitors 竞争)

目前,尚没有完整的针对大量数据集的示例

现在能在互联网上找到的,关于数据集格式内容的信息,主要来源有以下两点

  1. 数据集发布者提供说明文档,和数据集内容示例
  2. 各类博客作者自己总结有关数据集

第一类内容权威但零散,第二类内容的时效性和权威性都堪忧。此外,二者都并不支持以较便捷的方式查看数据集的指定部分内容,这正是本产品的机会和优势。

D (Delivery 交付)

  • 本产品目标用户为初步接触深度学习的高校学生、接触深度学习新领域的高校研究生和科技公司研究员;我们希望从北航的参加冯如杯、选修方法论的同学切入,逐步拓展到研一、研二学长学姐等人群

  • 通过微信朋友圈,QQ空间等个人渠道推广;在方法论等引导学生入门深度学习的课程群进行推广

软件发布与用户量估计

我们希望通过网站的形式发布软件,网站提供经典数据集的可视化服务和可供本地部署的客户端的下载方式。

预估发布一周后,网页端用户量约有200人,下载部署用户人次约有20人次。

宣传视频

https://bhpan.buaa.edu.cn:443/link/09297EE2B35E9C79F8F5C7197069DF62