在2022年北京冬奥会来临之际,为助推花样滑冰运动的普及与发展,北京智源人工智能研究院正式发布花样滑冰数据集Figure Skating Dataset (FSD-10),旨在解决目前视频研究数据集缺乏人体运动特性、深度视频学习模型正确率低等问题。数据集项目由大连理工大学刘胜蓝副教授和智源青年科学家、清华大学助理教授黄高主持完成。
尽管目前主流的视频研究数据集很多,规模也很大,如视频识别:Kinetics, Moments in Time, UCF101等,视频分割:Breakfast, Epic Kitchens, 50salads等。但以上数据集都缺乏人体运动的特性(Kinetics等有部分运动特性,但不够专业,类别也很有限)。如UCF101选取子集,裁剪掉人像,留下场景,准确率下降不多[1],这说明该视频并不太关注人的运动,也无法体现视频分析的特性。
数据集Figure Skating Dataset (FSD-10)旨在通过花样滑冰研究人体的运动。在花样滑冰运动中,人体姿态和运动轨迹相较于其他运动呈现复杂性强、类别多的特点,对于研究视频中的人体动态是非常好的素材。
在花样滑冰评分中,专家对所有动作类型的评判正确率大于99%。然而,在数据集选取10类上测试,深度的视频学习模型只能达到80%-90%的正确率。一个关注运动数据集的提出对于视频模型的提出至关重要,且对评估当前视频学习模型是十分有必要与紧迫的,所以这次数据集的发布有助于让更多的人们认识到人体运动在视频识别中的重要地位。
下面分别介绍数据集的内容、特征、具体示例、应用前景等方面。
一、数据集内容:
原始资料,专业分割与标记
本数据集通过收集2017-2018年ISU世界花样滑冰大奖赛、ISU世界花样滑冰锦标赛和四大洲花样滑冰锦标赛等花样滑冰职业比赛视频作为原始视频材料,由专业人员对大约80个小时视频进行手工的分割与标记,并从中构建了细粒度动作数据集。
本数据集包含3070个视频片段,片段长度从3秒到30秒不等,运动的过程中相机保持在运动员身上的聚焦。该数据集每一个片段都包含了丰富的信息,这些信息包括动作的开始帧、起跳帧、落地帧、结束帧、动作基础分值、表现分值、以及运动员的相关信息包括运动员姓名、性别、年龄、教练及动作音乐等。
数据集共有197个类别,共有跳跃、旋转、步法3个大类。该数据集的主要特点包括:环境背景一致,动作高速、复杂且评判规范标准。
该数据集支持四种子任务类型,细粒度动作分类任务,动作评分任务,短时分割(关键帧提取)任务,长时分割任务:
细粒度动作分类:视频截取一个花样滑冰中的技术动作,网络模型判别其动作类型。
动作评分任务:视频截取一个花样滑冰中的技术动作,网络模型评估其表现分值。
短时分割任务:视频截取一个单次跳跃任务(例如3Axel跳跃),网络模型判别其关键的动作节点(包括起跳时刻和落冰时刻)。
长时分割任务:视频截取一个选手完整的滑冰段落(该段落可能是*滑12个动作或是短节目7个动作),网络模型判别该选手过程中每一个动作的开始和结束。
二、数据集的特征和应用示例
近两年行业中体育运动相关的数据集有奥运会运动[2]、跳水等7个运动[3]、花样滑冰[4]总分的评估等,这些数据集仅有评分的任务,更值得注意的是其中花样滑冰总分的评估[3]并不合理,国际滑联每年的规则都会改变,且有很多因素影响总分的评定;而本数据集评估方面,评估的是单个动作的GOE(动作质量得分),由专家打分,排除了其他因素干扰。
此外,本数据集与其他数据集相比还有如下特征:
与场景和物无关,排除其他因素的干扰;
动作类型多,此版本的数据类别为197类。理论上,花样滑冰动作类别超过500类,这是其他运动难以达到的;
数据质量高,专家标注,数据准确,专业性强;
支持多任务,可以研究运动的分类、多粒度的分割(长分割和短分割/关键帧提取)、动作得分以及音乐和滑冰的配合度。
下面,我们来看一下本数据集的应用示例:
1. 旋转种类和质量:花样滑冰的旋转基本动作共有3种(UprightSpin、SitSpin和CamelSpin),加上旋转质量(速度,周数等)的定级,以及联合换足(ChCombo)、进入方式(跳进Fly)等不同,合计有数十种旋转类别。旋转有人体姿态变化复杂,速度、周数不一带来的帧数差异大等特征;且跳跃动作的空中姿态也为旋转形式,容易混淆。因此,旋转的细粒度分割、分类和识别过程中的模型构建都是极有挑战性的任务,尤其是在利用深度学习模型进行动作识别时,帧数不同带来的影响更为突出。
2.旋转的艺术:示例为花滑的旋转女王Lucinda Ruh在2000 World Pro上的旋转动作,旋转的速度、流畅性、合乐性以及艺术感极佳。肢体动作包括手势都与音乐配合的非常好,创作出了数十种与音乐相合的旋转动作。因此,花样滑冰中的动作与音乐配合,旋转种类的识别以及节目内容的质量,如何让机器和人一样学会“欣赏”,都是极有挑战性的任务。
3. 跳跃种类:花样滑冰的跳跃动作共有六种(视频2:4种,分别为:Axel,Salchow,Flip,Loop; 视频3:2种,分别为:Lutz, Toeloop)。没有领域知识的人很难看出六种跳跃动作的区别,尤其在高速运动的情况下。一个跳跃动作可以分为预备→起跳→空中旋转→落冰四个阶段(这四个阶段即为细粒度分割)。这四个视频中,仅可通过起跳阶段的一些帧能够区分出来。因此,视频的细粒度分割准确度对分类和评估显得尤为重要。示例视频分别为3Axel+1Loop+3Salchow和3Flip+3Loop四种跳跃的组合,没有专业花样滑冰的知识,很难辨别。另外,右侧这位选手为顺时针跳跃选手,左侧为逆时针跳跃选手,同一动作不同时间方向用刃和姿态均不同;另外,不同跳跃动作和不同周数可以组合,目前出现的跳跃动作(组合)已近200类。因此,动作识别在多方面都有很强的挑战性。
4. 跳跃质量:示例视频均为勾手四周跳接外点三周(4Lutz+3Toeloop)。然而,左侧选手有上手的姿态(GOE:2.53),Lutz跳跃这个动作的质量执行分(GOE)会较没有上手的右侧选手(GOE:1.83)高一些。但最后总的GOE加分还取决于:准备动作的进入,起跳和空中旋转的姿态,落冰的质量。因此,想判断动作质量得分是一项很有挑战性的任务。
三、数据集的应用前景和注意事项
本数据集应用范围广泛,且对花样滑冰运动的提升、普及与传播具有一定价值:
1. 人体运动是视频的重要研究问题,通常在很多领域都有应用,如体育运动分析、运动康复、人的环境行为分析、认知心理学中的肢体情绪分析、影视合成等;
2. 在北京冬奥会来临之际,可以通过数据集尝试花样滑冰领域的自动解说,有利于花样滑冰运动的普及和传播;
3. 本数据集中对动作的超细粒度分析,有利于提高运动员的训练效率和水平。
需要请读者们注意的是,本数据集Figure Skating Dataset (FSD-10)具体的使用方法我们会在数据集官网上给出详细的说明文档。目前数据集已形成论文并将上传至arxiv[5]。此外,目前197类的数据集,很多类别尚有待于进一步完善,所以,我们正在将数据集更新到2.0版本,它不仅将会增加类别,其可用的视频量更会有大规模的增加,敬请大家保持关注我们的2.0版本更新。
发布许可
FSD-10数据集仅用于非商业的学术用途。任何使用FSD-10数据集的研究人员应遵守以下许可:
视频标注
FSD-10数据集中的所有动作、序列分割标注属于大连理工大学 Human Perception Computing(HPC)实验室,并根据 Creative Commons Attribution 4.0 License授权。
视频材料
HPC实验室不拥有视频原始材料的版权。数据集的使用者应接受国际滑联(ISU)版权的全部责任,包括但不限于使用者从数据集创建、编辑受版权保护的视频的任何副本。使用者不得散布所有视频。如果侵犯视频版权,我们将立即删除视频。
要使用FSD-10数据集,请阅读并同意上述许可。使用FSD-10数据集的任何人都应遵守许可证。
数据集网页
本数据集已在智源数据开放研究中心网站发布,网页地址为:http://open.baai.ac.cn/skating-data-set
数据集下载
数据集分为人体运动序列分割和人体运动动作识别两个子任务。下载链接如下:
分割数据集链接:http://pan.dlut.edu.cn/share?id=h6zjqcsu77jg
分类数据集链接:http://pan.dlut.edu.cn/share?id=h58jcssu7u7u
本数据集由大连理工大学刘胜蓝副教授和清华大学黄高博士发布,请联系作者[email protected]获取下载密码。
参考文献
[1]Yun He, Soma Shirakabe, Yutaka Satoh, and Hirokatsu Kataoka. Human Action Recognition without Human. In European Conference on Computer Vision, pages 11–17. Springer, 2016.
[2]Xu, Parmar, Paritosh, and Brendan Tran Morris. Learning to Score Olympic Events. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017.
[3]Parmar, Paritosh, and Brendan Morris. Action Quality Assessment Across Multiple Actions. IEEE Winter Conference on Applications of Computer Vision. IEEE, 2019.
[4]Chengming, et al. Learning to Score Figure Skating Sport Videos. IEEE Transactions on Circuits and Systems for Video Technology, 2019.
[5]Liu Shenglan, Liu Xiang, Huang Gao et al. FSD-10: A Dataset for Competitive Sports Content Analysis. Arxiv, 2020.
与6位图灵奖得主和100多位专家
共同探讨人工智能的下一个十年
长按下图,内行盛会,首次免费注册