文件名称:practical-nlp:《实用自然语言处理(O'Reilly)》一书的注释和测试
文件大小:326KB
文件格式:ZIP
更新时间:2024-04-02 11:52:52
实用自然语言处理 《实用自然语言处理(O'Reilly)》一书的注释和测试 第一部分。基础 NLP管道 数据采集 文字清理 - Unicode normalization - Spell correction - Keyboard errors (fat finger) - OCR errors - Which character to replace first? - keyboard - inner key's first - ??? (statistically) - OCR - ?? (statistically, depending on the source docs) 前处理 - Text -> [Sentence Tokenization] -> Sentences - Sentence - Lowercasting - Removal
【文件预览】:
practical-nlp-main
----img()
--------information-extraction-nlp-pipeline.png(79KB)
--------poor-classifier-performance.png(57KB)
--------no-data-training-pipeline.png(119KB)
--------generic-nlp-pipeline.png(76KB)
----.gitignore(2KB)
----README.md(12KB)