CLEF/eRsik 2017
/content/pdf/10.1007%2F978-3-319-65813-1_30.pdf
该数据集由887个Reddit用户组成,分为抑郁症患者(positive)和正常人(negative)两类。
每个用户的文本按时间顺序排列,并被分成10个chunk。其中chunk1包括最旧的10%的消息,chunk2包括第二个最旧的10%的信息,依此类推。
RSDD
/abs/1709.01848
该数据集来源于公开可用的Reddit帖子,其中包含超过9,000名自曝抑郁症诊断用户与超过107,000名匹配的对照用户。
数据采用JSON格式,每行是代表一个用户的数组,标签字段包括用户的标签(control或depression),posts字段包含(timestamp,untokenized post)对。