文件名称:Diss-Code-Review:查看代码上的GV
文件大小:3.14MB
文件格式:ZIP
更新时间:2024-04-30 23:10:31
Python
Diss代码审查 查看代码上的GV。 首先,这是Teil 1: Das Finden der Content Words 。 以后将使用它来创建几乎准备就绪的查找表。 循环表包含一个命令行工具,可在编写RDF时为您提供支持(即,它为大多数常用选项提供了现成的解决方案)。 此外,创建用于注释和KWIC的对象。 然后再计算一个RDF。 如何使用: python3 create_list_of_content_words.py (如有必要,请事先从corpus文件夹中删除一些文件,以便没有太多数据。 第1部分:查找内容词 读取所有可能的文本并将其标记为语料库(CLTK_Latin)。 还会从中创建一袋文字,但不会被(!)词法化。 原因是某些HAB源数据已在转录中接收到所有可能的特殊字符-如果您现在不只是想扔掉它们,则必须记录所有这些特殊形式(稍后再介绍)。 如果基本停用词列表尚不存在,
【文件预览】:
Diss-Code-Review-main
----stop_word_list.txt(55KB)
----content_words.txt(136KB)
----create_list_of_content_words.py(2KB)
----corpus()
--------1620-septimana.txt(568KB)
--------1617-atalanta.txt(302KB)
--------1617-examen.txt(99KB)
--------1616-lusus.txt(126KB)
--------1624-ulysses.txt(37KB)
--------1622-cantilenae.txt(33KB)
--------tripus-transl.txt(252KB)
--------1617-symbola.txt(1.17MB)
--------1621-civitas.txt(193KB)
--------1596-Theses_de_epilepsia.txt(35KB)
--------1619-volucri.txt(167KB)
--------1614-arcana.txt(615KB)
--------symbola.txt(1.21MB)
--------1619-verumInventum.txt(250KB)
--------1618-viatorium.txt(223KB)
--------1617-iocus.txt(78KB)
--------1609-coelidonia.txt(169KB)
--------1617-silentium.txt(214KB)
--------1618-themis.txt(166KB)
--------1616-deCirculo.txt(103KB)
--------rest()
----README.md(3KB)
----working-code()
--------content_words.txt(48KB)
--------Sarahs_helper_functions.py(33KB)
--------ToDosLogger.py(1KB)