使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

欢迎添加华为云小助手微信（微信号：HWCloud002 或 HWCloud003），输入关键字“加群”，加入华为云线上技术讨论群；输入关键字“最新活动”，获取华为云最新特惠促销。华为云诸多技术大咖、特惠活动等你来撩！

文本分析

很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！

第一次听到这个词就乐了，一个**“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看github。

19K的star，5000+fork你就知道它多受欢迎了！让我们先来学学jieba**。

jieba介绍

jieba的github上readme写的非常详细，如果大家喜欢可以去仔细学习：jieba gihub地址。这里挑我们代码需要用到的地方讲解下…

安装： pip install jieba

以下内容引用自jieba github

“结巴”中文分词：做最好的 Python 中文分词组件

分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例

# encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式

print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式

print(", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

设置解析词语

add_word(word, freq=None, tag=None) 添加词语

比如上面的实力，我们想将中国科学院作为一个整体让jieba分析，那么我们可以jieba.add_word(‘中国科学院’)

jieba.load_userdict(file_name) 用户可以自定义分词字典

如果我们有成套的字典来提升词语识别，可以创建一个文本，将这些词语存储在文本中。具体格式如下：

词语、词频（可省略）、词性（可省略）

创新办 3 i

云计算 5

凱特琳 nz

台中

关键字抽取

刚才看到分词，不管我们是使用哪种方式，最终获得的都是迭代器或者的表，那我们如果想无脑输出词频权重较高的top多少次，如何做？

使用import jieba.analyse

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight 为是否一并返回关键词权重值，默认值为 False

allowPOS 仅包括指定词性的词，默认值为空，即不筛选

jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

但这种统计过于无脑，更多的情况下，还是要我们自己来配置…

分析什么？

说过了如何分词，获取词频。可我们没有数据，到底该分析什么？分析python书籍未免太过逗比，所以嘛还是分析点有意思的东西吧！前几天看新闻中国的玄幻小说，在老外的眼里简直就是至宝，什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身，在我们看来俗到掉渣的剧情，老外看到都觉得是神来之笔！那么今天我们就来分析一部修仙小说吧…个人比较喜欢净无痕的书，绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧，貌似它已经拍成电视剧了。怎么获取全本内容？之前写的文章使用Python开发小说下载器，不再为下载小说而发愁就派上用场了，2000+章的小说全本下载。话说刚开始用写好的工具是，平均1秒3章，最近很多朋友反馈工具很慢，进来自己用了下两三秒才一章，难道跟我有关系？还是收敛点的好…边写着文章，手机边下载着，总算完了：

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

那分析什么内容呢，太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁？让我们看看她俩的出场频率吧…

代码实现

只统计主角和两个女主，有些太过无趣，所以咱们多统计点词汇给50个吧…看看会有哪些：

# -*- coding: utf-8 -*-

# @Author   : 王翔

# @JianShu  : 清风Python

# @Date     : 2019/7/24 2:23

# @Software : PyCharm

# @version  ：Python 3.7.3

# @File     : DearestGirl.py

import jieba

class DearestGirl:

    ROLES = "秦问天 倾城 青儿"

    def __init__(self):

        self.result = dict()

    def add_key_word(self):

        for user in self.ROLES.split():

            jieba.add_word(user)

    def cut_word(self):

        data = open("太古神王全本.txt", encoding='utf-8').read()

        jieba_cut = jieba.cut(data)

        for word in jieba_cut:

            if word not in self.ROLES.split():

                continue

            else:

                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):

        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))

if __name__ == '__main__':

    main = DearestGirl()

    main.add_key_word()

    main.cut_word()

    main.sort_words()

output:

[('秦问天', 35182), ('倾城', 2085), ('青儿', 2028)]

这就懵逼了，这俩女主居然词频这相近，可再看看男主的词频…有一个问题呼之欲出，这部小说是一部男主自恋的小说，他最爱的是自己！通篇都是他…哈哈。

那么这样就完了？不行不行，既然词频都出来了，顺带生成一下词云呗…

wordcloud

今天上班苗妹子还问到了关于这个模块，当然得用用了…

最终代码如下：

# -*- coding: utf-8 -*-

# @Author   : 王翔

# @JianShu  : 清风Python

# @Date     : 2019/7/24 2:23

# @Software : PyCharm

# @version  ：Python 3.7.3

# @File     : DearestGirl.py

import jieba

from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS

import numpy as np

from PIL import Image

class DearestGirl:

    ROLES = "秦问天 倾城 青儿"

    def __init__(self):

        self.result = dict()

    def add_key_word(self):

        for user in self.ROLES.split():

            jieba.add_word(user)

    def cut_word(self):

        data = open("太古神王全本.txt", encoding='utf-8').read()

        jieba_cut = jieba.cut(data)

        for word in jieba_cut:

            if word not in self.ROLES.split():

                continue

            else:

                self.result[word] = self.result.get(word, 0) + 1

    def sort_words(self):

        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))

    def word_cloud(self):

        mask = np.array(Image.open('bk.png'))

        wc = WordCloud(

            font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式

            mask=mask,

            max_words=200,

            max_font_size=100

        )

        wc.generate_from_frequencies(self.result)

        image_colors = ImageColorGenerator(mask)

        wc.recolor(color_func=image_colors)

        wc.to_file('result.jpg')

if __name__ == '__main__':

    main = DearestGirl()

    main.add_key_word()

    main.cut_word()

    main.sort_words()

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

The End

OK,今天的内容就到这里，如果觉得内容对你有所帮助，欢迎点击文章右下角的“在看”。

期待你关注我的公众号**清风Python**，如果你觉得不错，希望能动动手指转发给你身边的朋友们。

来源：华为云社区征文作者：清风Python

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#的更多相关文章

使用Python开发小说下载器，不再为下载小说而发愁 &num;华为云·寻找黑马程序员&num;
需求分析免费的小说网比较多,我看的比较多的是笔趣阁.这个网站基本收费的章节刚更新,它就能同步更新,简直不要太叼.既然要批量下载小说,肯定要分析这个网站了- 在搜索栏输入地址后,发送post请求获取数 ...
大型情感剧集Selenium：6&lowbar;selenium中的免密登陆与cookie操作 &num;华为云·寻找黑马程序员&num;
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
黑马程序员----java基础笔记中（毕向东）
<p>------<a href="http://www.itheima.com" target="blank">Java培训.Andr ...
黑马程序员——【Java基础】——File类、Properties集合、IO包中的其他类
---------- android培训.java培训.期待与您交流! ---------- 一.File类 (一)概述 1.File类:文件和目录路径名的抽象表现形式 2.作用: (1)用来将文件或 ...
黑马程序员&lowbar; JAVA中的多线程
------- android培训.java培训.期待与您交流! ---------- 尽管线程对象的常用方法可以通过API文档来了解,但是有很多方法仅仅从API说明是无法详细了解的. 本来打算用一节 ...
黑马程序员—创建JDBC框架及原理分析
对于Java数据库的连接,由最初学习的每次全部手工代码,到后面的不断利用知识简化代码量:这是不断学习的过程,就像人类由原始社会的钻木取火到当代的文明,都是一步步过来的! 本文不从最开始的JDBC入门开 ...
Mybatis--课程中循序渐进的体会《黑马程序员&lowbar;Springmvc+Mybatis由浅入深全套视频教程video》
mybatis 刚开始是用最原始的方法开发了一个入门程序,(没有dao) 1.将数据源配置在SqlMapConfig.xml 2.写一个po类和映射文件User.xml(中的namespace=“名 ...
使用jieba分析小说人物出现次数
分析: 1. 读取小说,以读的形式打开 with open('文件名.txt','r',encoding='utf8') as f: str = f.read() 2. 切割小说 ret = jieb ...
黑马程序员 Java正则表达式，详解反斜线在Java中的作用
---------------------- ASP.Net+Android+IO开发S. .Net培训.期待与您交流! ---------------------- 在程序设计过程中,经常需要对获取 ...

随机推荐

springmvc 文件上传实现(不是服务器的)
1.spring使用了apache-commons下的上传组件,因此,我们需要引用2个jar包 1)apache-commons-fileupload.jar 2 ) apache-commons-i ...
Atitit&period;提升语言可读性原理与实践
Atitit.提升语言可读性原理与实践表1-1 语言评价标准和影响它们的语言特性1 1.3.1.2 正交性2 1.3.2.2 对抽象的支持3 1.3.2.3 表达性3 .6 语言设计中的权 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
STL——sort函数简介
参考:http://blog.csdn.net/s030501408/article/details/5329477 0)与C标准库qsort的比较:http://bbs.csdn.net/topic ...
第六讲：CPU虚拟化
虚拟化技术的分类主要有服务器虚拟化.存储虚拟化.网络虚拟化.应用虚拟化. 服务器虚拟化技术按照虚拟对象来分,可分为:CPU虚拟化.内存虚拟化.I/O虚拟化: 按照虚拟化程度可分为:全虚拟化.半虚拟化. ...
B&period; Order Book（Codeforces Round &num;317 )
B. Order Book time limit per test 2 seconds memory limit per test 256 megabytes input standard input ...
洛谷 [P1403] 约数研究
本题的思想很好,正难则反首先如果暴力枚举每个数的约数个数,一定会超时,那么我们就从约数的角度考虑,题目中问的是1~n的约数个数和,那么我们就枚举约数,看每个约数在1~n中出现过几次. #includ ...
Web运营手记
1.图片是给活人用户看的,相对来讲,文字是给搜索引擎看的.精华内容争取要在网站或者频道主页里面让人看到. 2.搜索引擎喜欢看的几种文字:页面标题.关键词元信息(只有Bing管点用).描述(descri ...
C++中find&lowbar;if
总结:find_if针对查找的对象中包含指针需要进行比较 find则更偏向于普通的数值或者字符比较两者都可以应用于自定义的类,只需在类中重载==运载符函数调用符()说白了其实就是代替函数指针,调用 ...
JAVA-JSP内置对象之out对象求得缓冲区使用大小
相关资料:<21天学通Java Web开发> out对象 out对象求得缓冲区使用大小1.通过out对象的getBufferSize()方法可以获得缓冲区的大小.2.通过getRemain ...