文件名称:cs224:ITMO大学的“计算语言学”作业
文件大小:2.28MB
文件格式:ZIP
更新时间:2024-04-19 20:24:17
JupyterNotebook
计算语言学 该课程由Chernysheva Anastasiia Vladimirovna 教授 此回购旨在发布我对课程任务的解决方案 检查以查看第一学期的最终任务 整个课程都是俄语 作业状态表 № 标题 档案文件 地位 点数 1个 收集数据 已验证 10/10 2个 常用表达 正在检查中 3 列夫距离 和 正在检查中 4 POS标记 和 正在检查中 5 待定30.03.2021 每个任务的完整描述 所有评论都用俄语,因为该课程用俄语讲究。 收集数据该任务的目的是使用Python从不同来源(例如vk.com组,Wikipedia等)收集200多个文档(总计超过10000个单词)。我决定照原样使用Wikipedia API我第一次使用它的经验。 该任务的文件是: 在文件中,您可以检查注释以了解我的逐步操作。 正则表达式此任务的目的是熟悉Python正则表达式。 任务分
【文件预览】:
cs224-main
----corpus.json(502KB)
----pos_ratios.csv(29KB)
----task3_ui.py(3KB)
----task4.py(3KB)
----task3.py(5KB)
----task1()
--------task1.py(1KB)
----task2.ipynb(76KB)
----titanic_data.json(565KB)
----corpus_as_dict.json(511KB)
----unique_norms_in_corpus.json(102KB)
----lectures()
--------2_Regular_Expressions.ipynb(55KB)
--------2.1_Python_Strings.ipynb(186KB)
--------Классификация_текстов.ipynb(797KB)
--------5_Text_Vectorization.ipynb(398KB)
--------Морфологический_анализ.ipynb(488KB)
--------3,4_Edit_Distance_+_pymorphy2.ipynb(183KB)
--------1_Data_Collection.ipynb(431KB)
----task4_stat.ipynb(401KB)
----corpus_as_dict_of_norms_and_pos.json(905KB)
----README.md(4KB)
----corpus_as_dict_of_norms.json(573KB)
----each_token_appearance.json(664KB)