chinese_wordseg_keras:基于深度学习的中文分词尝试

时间:2024-06-02 09:54:07
【文件属性】:

文件名称:chinese_wordseg_keras:基于深度学习的中文分词尝试

文件大小:18KB

文件格式:ZIP

更新时间:2024-06-02 09:54:07

基于深度学习的中文分词尝试 使用的数据是参考资料中的中文分词资源,即Bakeoff中微软研究院的中文语料库,它的训练文本带有每个字的标注(BEMS),同时带有测试文本和测试脚本。此外使用了补充的语料库,即sogou新闻语料库,不带字标注,但可用来学习字向量。 使用的工具是python中的gensim库和keras库,gensim可用于学习词向量,keras是基于theano的深度学习库。在本例中只使用了普通的MLP方法。 整体工作的步骤如下: 步骤1:使用sogou的语料库建立初始的字向量,向量维度为100,迭代50次。 步骤2:读入有标注的训练语料库,处理成keras需要的数据格式。 步骤3:根据训练数据建模,使用左右各3个字做为上下文,7*100个神经元为输入层,隐藏层为100,输出层为4,神经网络结构为[700->100->4],总共进行了约50次迭代。 步骤4:读入无标注的测试语料


【文件预览】:
chinese_wordseg_keras-master
----keras_word_seg.ipynb(309KB)
----README.md(2KB)

网友评论