【文件属性】:
文件名称:practical-nlp:《实用自然语言处理(O'Reilly)》一书的注释和测试
文件大小:326KB
文件格式:ZIP
更新时间:2021-03-13 18:06:12
实用自然语言处理
《实用自然语言处理(O'Reilly)》一书的注释和测试
第一部分。基础
NLP管道
数据采集
文字清理
- Unicode normalization
- Spell correction
- Keyboard errors (fat finger)
- OCR errors
- Which character to replace first?
- keyboard
- inner key's first
- ??? (statistically)
- OCR
- ?? (statistically, depending on the source docs)
前处理
- Text -> [Sentence Tokenization] -> Sentences
- Sentence
- Lowercasting
- Removal
【文件预览】:
practical-nlp-main
----img()
--------information-extraction-nlp-pipeline.png(79KB)
--------poor-classifier-performance.png(57KB)
--------no-data-training-pipeline.png(119KB)
--------generic-nlp-pipeline.png(76KB)
----.gitignore(2KB)
----README.md(12KB)