GATE中文自然语言处理系列之三

时间:2018-01-25 16:08:26
【文件属性】:

文件名称:GATE中文自然语言处理系列之三

文件大小:163KB

文件格式:DOCX

更新时间:2018-01-25 16:08:26

gate

中文分句也是自然语言处理的基础之一,一般来说,中文中每个句子都表达了一个完整的意思。GATE的ANNIE提供了一个ANNIE Sentence Split资源,可以用于划分英文句子,但对中文的划分效果很不好(整篇文章分成了一个句子)。 GATE提供了两种句子划分的方法:基于JAPE规则和基于正则表达式,分别对应于类gate.creole.splitter. SentenceSplitter和gate.creole.splitter.RegexSentenceSplitter。本文先来讲述如何基于JAPE规则进行中文句子划分


网友评论