文件名称:word-benchmarks:内在词嵌入评估的基准
文件大小:2.98MB
文件格式:ZIP
更新时间:2024-05-30 14:45:17
nlp benchmark natural-language-processing word2vec word-embeddings
内在评估词嵌入的基准 开发已停止,项目已 1.单词语义相似度 此方法基于以下思想:可以通过对这些单词之间的实际语义距离(例如,以连续间隔{0,1定义的杯子与杯子之间的距离)进行人类启发式判断,来评估嵌入空间中单词之间的距离}为0.8,因为这些词是同义词,但并非完全相同)。 为评估者提供了一组单词对,并要求他们评估每对单词的相似度。 这些对之间的距离也收集在单词嵌入空间中,并比较两个获得的距离集。 它们越相似,嵌入效果就越好 SimVerb-3500 ,通过语义相似性评估的3500对动词(这意味着相关但不相似的对具有较低的评分),评分范围为0到4。 MEN (Marco,Elia和Nam的缩写),通过语义相关性评估了3000对,其离散范围为0到50。 RW (稀有单词的缩写),通过语义相似性从0到10的等级对2 034对出现率低的单词(稀有单词)进行评估。 SimLex-999对999
【文件预览】:
word-benchmarks-master
----word-similarity()
--------monolingual()
--------cross-lingual()
----word-categorization()
--------monolingual()
----semantic-relation()
--------monolingual()
----README.md(7KB)
----outlier-detection()
--------monolingual()
----word-analogy()
--------monolingual()