构件:用于文本预处理的构件

时间:2024-03-11 00:57:27
【文件属性】:

文件名称:构件:用于文本预处理的构件

文件大小:21KB

文件格式:ZIP

更新时间:2024-03-11 00:57:27

Python

建筑模块 以下是我们在文本语料库实验室中使用的语料库工具的列表。 它们旨在作为通用的构建基块,允许我们在不同流程之间进行转换。 每个工具都应视为独立工具,并且包括代码( ~/code )和文档( ~/docs )。 ~/code所有工具的合并的requirements.txt文件。 该文档将包括有关代码用途以及如何运行代码的说明。 先决条件 所有脚本均遵循我们的标准和指令。 剧本 所有脚本命令均以PowerShell语法显示。 如果您使用其他外壳程序,则语法会有所不同。 在任何脚本的前面添加-O “优化”模式运行它。 在某些情况下,这可以提高50%,但可以防止出错。 如果运行中有错误,请除去-O ,捕获错误,然后提交。 一个JSON文件文件夹为一个JSONL文件。 一个TXT文件文件夹为一个JSONL文件。 通过仅保留一些元素,JSONL文件转换为较小的JSONL文件。 TXT


【文件预览】:
building-blocks-master
----docs()
--------extract_itxt_from_jsonl.md(2KB)
--------flatten_corpus.md(1KB)
--------combine_txt_to_jsonl.md(969B)
--------extract_csv_from_jsonl.md(854B)
--------extract_json_from_jsonl.md(1011B)
--------extract_txt_from_jsonl.md(1KB)
--------combine_json_to_jsonl.md(927B)
--------convert_jsonl.md(846B)
----LICENSE(1KB)
----code()
--------convert_jsonl.py(3KB)
--------utils.py(2KB)
--------combine_json_to_jsonl.py(3KB)
--------extract_txt_from_jsonl.py(4KB)
--------extract_json_from_jsonl.py(3KB)
--------flatten_corpus.py(5KB)
--------combine_txt_to_jsonl.py(3KB)
--------requirements.txt(77B)
--------extract_csv_from_jsonl.py(4KB)
--------extract_itxt_from_jsonl.py(6KB)
----.gitignore(47B)
----README.md(2KB)
----.gitattributes(12B)

网友评论