chinese_wordseg_keras:基于深度学习的中文分词尝试下载

【文件属性】：

文件名称：chinese_wordseg_keras:基于深度学习的中文分词尝试

文件大小：18KB

文件格式：ZIP

更新时间：2024-06-02 09:54:07

基于深度学习的中文分词尝试使用的数据是参考资料中的中文分词资源，即Bakeoff中微软研究院的中文语料库，它的训练文本带有每个字的标注（BEMS），同时带有测试文本和测试脚本。此外使用了补充的语料库，即sogou新闻语料库，不带字标注，但可用来学习字向量。使用的工具是python中的gensim库和keras库，gensim可用于学习词向量，keras是基于theano的深度学习库。在本例中只使用了普通的MLP方法。整体工作的步骤如下：步骤1：使用sogou的语料库建立初始的字向量，向量维度为100，迭代50次。步骤2：读入有标注的训练语料库，处理成keras需要的数据格式。步骤3：根据训练数据建模，使用左右各3个字做为上下文，7*100个神经元为输入层，隐藏层为100，输出层为4，神经网络结构为[700->100->4]，总共进行了约50次迭代。步骤4：读入无标注的测试语料

立即下载

【文件预览】：
chinese_wordseg_keras-master
----keras_word_seg.ipynb(309KB)
----README.md(2KB)

秒客网

chinese_wordseg_keras:基于深度学习的中文分词尝试

网友评论

相关文章