文件名称:duolingoSLAM:2018 Duolingo第二语言习得建模(SLAM)共享任务(http
文件大小:9.27MB
文件格式:ZIP
更新时间:2024-06-05 00:58:12
JupyterNotebook
Duolingo在第二语言习得建模方面的共同任务 该存储库包含用于在运行第二名(西班牙语到英语)和第三名(英语到西班牙语和法语到英语)的。 描述我们的方法的论文可以在找到。 采集数据 从下载并解压缩到“数据”文件夹中 运行模型 要预处理数据,请在每个数据文件上运行reprocess_syntax.py 。 有关设置Google SyntaxNet的更多详细信息,请参见文件的文档字符串。 然后运行translate_frequency.py生成外部字频特征。 然后,该模型可以进行培训,制作的预测dev利用集lightgbm_dev.py或在test使用set lightgbm_script.py 。 可以使用--lang和--users标志来控制接受培训的语言( en_es , fr_en , es_en或all )以及接受培训的用户数量。 可以使用average_models.py脚本
【文件预览】:
duolingoSLAM-master
----graph_lesions.r(859B)
----lightgbm_dev.py(5KB)
----starter_code()
--------baseline.py(13KB)
--------eval.py(6KB)
--------README.md(1KB)
----average_models.py(599B)
----processing.py(19KB)
----notebooks()
--------exploration_alex.ipynb(589B)
----feature_explorer.ipynb(1.7MB)
----model_script.py(3KB)
----reprocess_syntax.py(7KB)
----translate_frequency.py(7KB)
----doc()
--------naaclhlt2018-poster()
--------papers.md(455B)
--------naaclhlt2018-latex()
----translate_frequency.ipynb(133KB)
----README.md(2KB)
----data()
--------en_es_rootwordfeats.txt(72KB)
--------13428_2013_348_MOESM1_ESM.xlsx(1.67MB)
--------fr_en_wordwordfeats.txt(101KB)
--------es_en_wordwordfeats.txt(135KB)
--------AoA_51715_words.csv(3.36MB)
--------.gitkeep(0B)
--------lesions.csv(292B)
--------~$AoA_51715_words.xlsx(171B)
--------es_en_rootwordfeats.txt(81KB)
--------fr_en_rootwordfeats.txt(64KB)
--------AoA_51715_words.xlsx(4.05MB)
--------en_es_wordwordfeats.txt(104KB)
----preprocess_to_pickle.py(2KB)
----.gitignore(71B)
----run_lesion.py(7KB)
----lightgbm_script.py(5KB)