文件名称:SQuAD:建立斯坦福问答数据集的质量检查系统
文件大小:9.23MB
文件格式:ZIP
更新时间:2024-03-31 09:32:36
系统开源
队 为斯坦福问答数据集建立质量保证体系( ) 请阅读此博客以获取详细信息: : 第一个文件create_emb.ipynb负责为训练数据集的Wikipedia文章中的所有句子和问题创建一个嵌入句子的字典。 第二个文件unsupervised.ipynb使用句子嵌入来计算句子和问题之间的距离,基于欧几里得和余弦相似度。 最后,它从距问题最短距离的每个段落中提取设置。 目前,它们的准确度分别为45%和63%。 最后一个文件将此问题视为监督学习问题,其中我拟合多项逻辑回归,随机森林和xgboost并创建20个特征-(2个特征代表一个句子的余弦距离和欧几里得。我将每个段落限制为10个句子)。 目标变量是具有正确答案的句子ID。 所以我有10个标签。 目前,这分别提供了63%,65%和69%的准确性。 未来工作:使用RNN获得确切答案
【文件预览】:
SQuAD-master
----models.py(32KB)
----data()
--------dev-v1.1.json(4.63MB)
--------train-v1.1.json(28.89MB)
----create_emb.ipynb(599KB)
----unsupervised.ipynb(54KB)
----InferSent()
--------models.py(32KB)
--------__pycache__()
--------train_nli.py(11KB)
--------LICENSE(19KB)
--------.DS_Store(10KB)
--------dataset()
--------.gitignore(83B)
--------.ipynb_checkpoints()
--------README.md(6KB)
--------encoder()
--------mutils.py(2KB)
--------data.py(3KB)
----README.md(1KB)
----supervised.ipynb(87KB)