作者:炼己者
本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!
1. 入门阶段
直接做文本分类这个项目,具体的思路很简单。把原始文本变成向量,然后调用sklearn库里的分类算法,就可以实现文本分类了!
如何把文本转换为文本向量呢?看这篇文章即可,手把手地教你把中文文本变成向量(附代码)
尽量地去理解代码,代码的实现思路,以后遇到类似问题能不能转换成相应的数据格式,继续用这些代码操作。
2.发展阶段
完整的实现文本分类这个项目之后不要骄傲,以为自己很厉害了,可以纵横NLP界了。接下来你要开始有体系地去学习
我还是推荐视频为主,书籍为辅,毕竟我们是小白,直接看书会很容易放弃的。需要有好的e老师带我们飞!
第一个视频教程,宗成庆教授的视频教程,建议书和视频一起来。
书籍也是宗成庆教授的著作
第二个视频教程,是炼数成金的教程,里面的课程目录是这样的
两个视频教程你可以网上搜索,也可以关注公众号:ZhangyhPico
回复关键字 自然语言处理入门 ,便可以领取资源
经典书籍我推荐《python自然语言处理》 以及 《数学之美》这两本书
《python自然语言处理》这本书很适合我们小白来读,作者感觉就是以我们小白的角度来写的。里面主要是处理英文数据的,你可以试着用书里的方法来操作中文数据,这样你会更好的落实和理解书中的代码。
《数学之美》这本书我感觉就是在说自然语言处理方向的技术原理,可以拿来做科普。比如你想做什么算法了,可以先拿这本书读一读,对你要用到的算法有个初步了解
3.成长阶段
到了这个阶段你的理论知识基本完备,至少不那么迷茫了。接下来你可以开始做项目,读论文了。当然没事儿的时候还要多多翻阅这两本经典之作,基本做机器学习方向就不能忽略这两本书了。李航的《统计学习方法》,周志华的西瓜书《机器学习》。
1)项目
做项目的话你肯定要有数据,中文的数据不好找,这里有一份关于中文数据的汇总,可以参考一下。
中文文本语料库整理
项目有很多,比如命名实体识别,实体关系抽取,知识图谱等等。
命名实体识别系列你可以参考这里的博客操作,中文命名实体识别总结
知识图谱这个项目很大,要做的东西很多。你可以先把理论知识备好,再去操作
理论知识依旧建议看视频,视频教程是小象学院的。可以关注公众号:ZhangyhPico
,回复关键字知识图谱,即可领取视频教程
2)论文
自然语言处理方向的论文资料可以看这篇博客,里面会教你怎么找论文
初学者如何查阅自然语言处理(NLP)领域学术资料
到了这里,入门是肯定入门了,后续发展就看你自己了。没事儿读读论文,做做比赛,悠哉游哉!!!
欢迎扫码关注