CORAP:基于深度学习的拼写校正器项目

时间:2024-06-01 07:15:46
【文件属性】:

文件名称:CORAP:基于深度学习的拼写校正器项目

文件大小:75.7MB

文件格式:ZIP

更新时间:2024-06-01 07:15:46

Python

工作正在进行中 ! 该存储库尚未完成,下面提到的功能不一定全部可用! CORAP(学徒改正法) 基于深度学习的拼写校正。 这是我在蒙特利尔理工大学的克劳德·库洛姆贝(Claude Coulombe)的监督下为米歇尔·加格农教授所做的项目。 我于2018年1月开始工作,于2018年5月停止工作。 该项目的目的是建立一个基于深度学习的程序,以纠正与OCR噪声(手写文本)有关的拼写错误。 克劳德·库洛姆贝(Claude Coulombe)的工作需要这样做,因此,我不得不将其构建为可用的工具,而不是简单地显示有趣的结果和学习成绩。 灵感 由于我一开始对深度学习一无所知,所以我决定从别人的代码开始,学习它,然后修改它以满足我的特定要求。 在此向撰写的约翰霍普金斯大学团队表示极大的感谢,并感谢阪口圭介先生花了时间回答我的问题! 我拿走了他们的代码,只是简单地添加/修改了我一直需要的东西。


【文件预览】:
CORAP-master
----train.py(9KB)
----models()
--------vocab.pkl(115KB)
--------last_model.h5(79.05MB)
--------id2vocab.pkl(115KB)
----results()
--------model_92%.result(2KB)
--------Model_82%.result(2KB)
--------lines_train_j-NO_n-OCR_u-650_batch-20.result(745B)
----binarize.py(10KB)
----noise_generator.py(1KB)
----predict.py(5KB)
----README.md(5KB)
----correct.py(3KB)
----correction.txt(0B)
----data()
--------ptb.test.txt(293KB)
--------errors.txt(475B)
--------ptb.train.txt(4.8MB)
--------vocab.pkl(120KB)
--------source.txt(455B)
--------SHORT.ptb.train.txt(250KB)
--------movie_lines_cleaned_v2.txt(16.33MB)
--------SHORT.ptb.test.txt(607B)
--------id2vocab.pkl(120KB)
--------ptb.valid.txt(206KB)
----.gitignore(27B)
----constants.py(1KB)

网友评论