https://cloud.tencent.com/developer/article/1426107
本文简绍了 HanLP 的使用方法,HanLP 是一系列模型与算法组成的 NLP 工具包,由大快搜索主导并完全开源,目前支持很多功能,项目主要是 Java 的,也支持 python,本文详细简绍 pyhanlp 的使用方法。
01 简介
HanLP 是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP 主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。
Github 地址:
https://github.com/hankcs/HanLP
官网:
http://hanlp.linrunsoft.com/
02 实战
1. 安装
2. 分词和词性标注
3.依存句法分析
4.关键词提取
5.摘要提取
6. 感知机词法分析器
7. 中国人名识别
8. 音译人名识别
9. 短语提取
10. 拼音转换
11. 繁简转换
代码已上传:
HanLP工具Demo
安装:pip install pyhanlp
In [3]:
from pyhanlp import *
Using local c:\users\yuquanle\anaconda3\envs\nlpcoure\lib\site-packages\pyhanlp\static\data-for-1.7.0.zip, ignore http://hanlp.linrunsoft.com/release/data-for-1.7.0.zip
Extracting data.zip...
1.分词和词性标注
In [7]:
sentence = "我爱自然语言处理技术!"
s_hanlp = HanLP.segment(sentence)
for term in s_hanlp:
print(term.word, term.nature)
我 rr 爱 v 自然语言处理 nz 技术 n ! w
2.依存句法分析
In [10]:
s_dep = HanLP.parseDependency(sentence)
print(s_dep)
1 我 我 r r _ 2 主谓关系 _ _
2 爱 爱 v v _ 0 核心关系 _ _
3 自然语言处理 自然语言处理 v v _ 4 定中关系 _ _
4 技术 技术 n n _ 2 动宾关系 _ _
5 ! ! wp w _ 2 标点符号 _ _
3.关键词提取
In [11]:
document = u\'\'\'
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
\'\'\'
In [17]:
doc_keyword = HanLP.extractKeyword(document, 3)
for word in doc_keyword:
print(word)
研究 自然语言 自然语言处理
4.摘要抽取
In [18]:
doc_keysentence = HanLP.extractSummary(document, 3)
for key_sentence in doc_keysentence:
print(key_sentence)
自然语言处理并不是一般地研究自然语言 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
5.感知机词法分析器
In [19]:
PerceptronLexicalAnalyzer = JClass(\'com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer\')
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
[上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
6.中国人名识别
In [28]:
NER = HanLP.newSegment().enableNameRecognize(True)
p_name = NER.seg(\'王国强、高峰、汪洋、张朝阳光着头、韩寒、小四\')
print(p_name)
[王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]
7.音译人名识别
In [30]:
sentence = \'微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人\'
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)
[微软/ntc, 的/ude1, 比尔盖茨/nrf, 、/w, Facebook/nx, 的/ude1, 扎克伯格/nrf, 跟/p, 桑德博格/nrf, 、/w, 亚马逊/nrf, 的/ude1, 贝索斯/nrf, 、/w, 苹果/nf, 的/ude1, 库克/nrf, ,/w, 这些/rz, 硅谷/ns, 的/ude1, 科技/n, 人/n]
8.短语提取
In [31]:
phraseList = HanLP.extractPhrase(document, 3)
print(phraseList)
[计算机科学, 中的重要, 之间自然语言]
9.拼音转换
In [37]:
s = \'重载不是重任\'
pinyinList = HanLP.convertToPinyinList(s)
for pinyin in pinyinList:
print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
chong 2 chong2 chóng
zai 3 zai3 zǎi
bu 2 bu2 bú
shi 4 shi4 shì
zhong 4 zhong4 zhòng
ren 4 ren4 rèn
声母、韵母
In [41]:
for pinyin in pinyinList:
print(pinyin.getShengmu(), pinyin.getYunmu())
ch ong z ai b u sh i zh ong r en
10.繁简转换
In [44]:
Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
print(Jianti)
print(Fanti)
我爱自然语言处理技术! 我愛自然語言處理技術!
本文分享自微信公众号 - 人工智能头条(AI_Thinker),作者:yuquanle
原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。
原始发表时间:2019-05-09