文件名称:bert_for_corrector:基于bert进行中文文本纠错
文件大小:17.04MB
文件格式:ZIP
更新时间:2024-04-09 23:07:48
Python
BERT模型具有遮罩功能的正确错误字符 实在抱歉,之前做项目比较急,然后没有完全上传完文件,导致大家使用受阻,替换更新有人提醒该模型,近期发生,特意将奉上,提取码为:hhxx另外其中某些得文件也有发表,安心食用。 使用说明 保存预训练模型在数据文件夹下├──数据│├──bert_config.json │├──config.json │├──pytorch_model.bin │└──vocab.txt ├──bert_corrector.py ├──config.py ├──logger.py ├──Forecast_mask.py ├──README.md └──text_utils.py 运行bert_corrector.py可以进行bert_corrector.py 。 python bert_corrector.py 运行'predict_mask.py'可以直接观察用[m
【文件预览】:
bert_for_corrector-master
----utils()
--------tokenizer.py(3KB)
--------math_utils.py(2KB)
--------text_utils.py(5KB)
--------zh_wiki.py(140KB)
--------logger.py(1KB)
--------langconv.py(8KB)
--------get_file.py(12KB)
----config.py(2KB)
----bert_corrector.py(4KB)
----text_utils.py(5KB)
----detector.py(16KB)
----requirements.txt(79B)
----README.md(2KB)
----corrector.py(11KB)
----data()
--------common_char_set.txt(14KB)
--------word_freq.txt(8.19MB)
--------stopwords.txt(9KB)
--------kenlm()
--------custom_confusion.txt(25KB)
--------bert_models()
--------place_name.txt(626KB)
--------person_name.txt(159KB)
--------custom_word_freq.txt(455B)
--------same_pinyin.txt(193KB)
--------same_stroke.txt(7KB)
----run_lm_finetuning.py(27KB)
----logger.py(1KB)
----langconv.py(8KB)
----predict_mask.py(1KB)