之前,写了这篇文章,用python提取全部群成员的发言时间,并简单做了下分析。先补充一下,针对特定单个群成员(这里以 小小白 为例)消息记录的获取。
代码比较简单,主要是正则表达式的书写。(附:聊天文件记录的导出请参考上面提到的文章)
代码如下:
#//
#从QQ聊天数据导出特定人发言的日期时间和发言内容 import re
import xlsxwriter # 小小白 这里代指你要获取数据的对象的昵称
# 方便起见,见数据导出的文件名也明明为此
workbook = xlsxwriter.Workbook('小小白.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', )
worksheet.set_column('B:B', )
worksheet.set_column('C:C', ) with open('高等数学.txt',encoding='utf-8') as f:
s = f.read()
# 正则,跨行匹配
pa = re.compile(r'^(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) 小小白\(小小白的QQ号\)\n(.*?)\n$',re.DOTALL+re.MULTILINE)
ma = re.findall(pa,s)
# print(len(ma))
for i in range(len(ma)):
# print(ma[i][])
date = ma[i][]
time = ma[i][]
word = ma[i][] worksheet.write(int(i),,date)
worksheet.write(int(i),,time)
worksheet.write(int(i),,word) workbook.close()
print("处理完毕,快去看看文件夹下面新建的.xlsx文件吧")
###########2016/10/18补更###############
小岛台风,待在宿舍无聊,就优化了之前分析QQ聊天记录的代码,综合上文和之前写的那篇文章,做了个私人订制。实现从聊天记录对特定人的发言信息进行提取,并用matplotlib作图,终于不想用excel...
代码比较简单,核心的提取都和之前的一样,这里直接贴出来:
import re
import matplotlib.pyplot as plt # 解决matplotlib显示中文的问题
import matplotlib as mpl
mpl.rcParams["font.sans-serif"] = ["Microsoft YaHei"]
mpl.rcParams['axes.unicode_minus'] = False # 获取24个时间段----->periods
# 用于之后时间的分段
def get_periods():
periods = []
for i in range(0,24):
# 这里的判断用于将类似的‘8’ 转化为 ‘08’ 便于和导出数据匹配
if i < 10:
i = '0'+str(i)
else:
i = str(i)
periods.append(i)
return periods '''
对QQ群而言的时间提取 # 获取聊天文件的“小时”数据
def get_times(filename):
with open(filename, encoding='utf-8') as f:
data = f.read()
# 例如20:50:52,要匹配其中的20
pa = re.compile(r"(\d\d):\d\d:\d\d")
times = re.findall(pa, data) return times
''' # 对每一个时间段进行计数
def classification(times,period):
num = 0
for time in times:
if time == period:
num += 1
period_time.append([period,num])
# print(period, '--->', num) # 作图 def plot_time(period_time,name):
time = []
num = []
for i in period_time:
time.append(i[0])
num.append(i[1])
time = time[6:24]+time[0:6]
num = num[6:24]+num[0:6]
# print(time,'\n',num)
labels = time
x = [i for i in range(0,24)]
plt.plot(num, 'g')
num_max = max(num)
plt.xticks(x,labels)
plt.axis([00, 24, 0, num_max*(1.2)])
plt.grid(True)
plt.title(name)
plt.ylabel('发言量')
plt.xlabel('时间')
plt.show() def get_person_data(filename,name,qqnumber):
person_data = {'date':[],'time':[],'word':[]}
with open(filename,encoding='utf-8') as f:
s = f.read()
# 正则,跨行匹配
pa = re.compile(r'^(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) '+name+r'\('+qqnumber+'\)\n(.*?)\n$',re.DOTALL+re.MULTILINE)
ma = re.findall(pa,s)
# print(len(ma))
for i in range(len(ma)):
# print(ma[i][0])
date = ma[i][0]
time = ma[i][1]
word = ma[i][2]
person_data['date'].append(date)
person_data['time'].append(time[0:2])
person_data['word'].append(word)
return person_data if __name__=="__main__":
filename = input('请输入聊天记录文件名:')
name = input('准备提取个人信息就绪,请输入要提取人的群名片:')
qqnumber = input('请输入要提取人的QQ号:')
period_time = []
person_data = get_person_data(filename,name,qqnumber)
times = person_data['time'] periods = get_periods()
for period in periods:
classification(times,period)
plot_time(period_time,name)
# print(person_data['word'])
关于matplotlib作图指定坐标标签的,看这里。
运行结果如下:
用python做些有意思的事——分析QQ聊天记录——私人订制的更多相关文章
-
用python做些有意思的事——分析QQ聊天记录
####################################### 已更新续集,戳这里. ######################################## 是这样的,有位学 ...
-
使用训练好的modle,做些有用的事(各层数据可视化)
---恢复内容开始--- 1. 加载必要的库: 2. 设置当前目录,判断模型是否训练好: 3. 利用提前训练好的模型,设置测试网络: 4. 加载测试图片,并显示: 5. 编写一个函数,将二进制的均值转 ...
-
安装 Kali Linux 后需要做的 20 件事
安装 Kali Linux 后需要做的 20 件事 本文含有我觉得有用的每一件事情.本文分为三大部分: 专门针对Kali用户 Kali Linux是来自Debian的一个特殊版本,Kali Linux ...
-
拿Proxy可以做哪些有意思的事儿
Proxy是什么 首先,我们要清楚,Proxy是什么意思,这个单词翻译过来,就是 代理.可以理解为,有一个很火的明星,开通了一个微博账号,这个账号非常活跃,回复粉丝.到处点赞之类的,但可能并不是真的由 ...
-
spring扩展点之三:Spring 的监听事件 ApplicationListener 和 ApplicationEvent 用法,在spring启动后做些事情
<spring扩展点之三:Spring 的监听事件 ApplicationListener 和 ApplicationEvent 用法,在spring启动后做些事情> <服务网关zu ...
-
JavaScript的Proxy可以做哪些有意思的事儿
摘要: 神奇而有趣的Proxy. 原文:拿Proxy可以做哪些有意思的事儿 作者:贾顺名 Fundebug经授权转载,版权归原作者所有. Proxy是什么 首先,我们要清楚,Proxy是什么意思,这个 ...
-
【转】用Python做股市量化策略投资数据分析
金融量化分析介绍 本文摘要; 金融量化分析介绍 1.什么是金融量化分析 2.金融量化分析可以干什么 3.为什么将python运用于金融 4.常用库简介 1.什么是金融量化分析 从标题中我们可以 ...
-
曹工说Redis源码(7)-- redis server 的周期执行任务,到底要做些啥
文章导航 Redis源码系列的初衷,是帮助我们更好地理解Redis,更懂Redis,而怎么才能懂,光看是不够的,建议跟着下面的这一篇,把环境搭建起来,后续可以自己阅读源码,或者跟着我这边一起阅读.由于 ...
-
python笔记之常用模块用法分析
python笔记之常用模块用法分析 内置模块(不用import就可以直接使用) 常用内置函数 help(obj) 在线帮助, obj可是任何类型 callable(obj) 查看一个obj是不是可以像 ...
随机推荐
-
Mysql中使用find_in_set函数查找字符串
mysql有个表的字段的存储是以逗号分隔的,如domain字段login.s01.yy.com,s01.yy.com,s02.yy.com.现在要查找s01.yy.com这个.我们用like查找好像不 ...
-
monkeyrunner之eclipse中运行monkeyrunner脚本之环境搭建(四)
monkeyrunner脚本使用Python语法编写,但它实际上是通过Jython来解释执行. Jython是Python的Java实现,它将Python代码解释成Java虚拟机上的字节码并执行,这种 ...
-
several生命周期
several生命周期 1. 实例化: 容器调用servlet创建servlet对象 2. 初始化: <init-param> <param-name> company < ...
-
Java [leetcode 30]Substring with Concatenation of All Words
题目描述: You are given a string, s, and a list of words, words, that are all of the same length. Find a ...
-
maya 写UI 用到的工具
import os cmds.window() scrollLayout = cmds.scrollLayout(w=150) cmds.gridLayout( numberOfColumns=30, ...
-
采用apicloud开发移动端项目心得体会
作为第一批吃螃蟹的,来说一说apicloud做移动端项目的一些体会. 刚开始接到项目,需要移动端开发两个项目,公司人员里面没有一个会原生android或者ios开发的,目前能出的技术也就是web,后端 ...
-
ECMA Script 6_Generator
Genertor 是一个普通函数,但是有两个特征: function 关键字 与 函数名之间有一个星号: 函数体内部使用 yield 表达式,定义不同的内部状态(yield 在英语里的意思就是“产出 ...
-
centos7 安装mysql--python模块出现EnvironmentError: mysql_config not found和error: command &#39;gcc&#39; failed with exit status 1
要想使python可以操作mysql 就需要MySQL-python驱动,它是python 操作mysql必不可少的模块. 下载地址:https://pypi.python.org/pypi/MySQ ...
-
20155311《网络对抗》Web安全基础实践
20155311<网络对抗>Web安全基础实践 基础问题回答 SQL注入攻击原理,如何防御? 原理:SQL注入攻击指的是通过构建特殊的输入作为参数传入Web应用程序,而这些输入大都是SQL ...
-
java学习笔记3--类与对象的基础
本文地址:http://www.cnblogs.com/archimedes/p/java-study-note3.html,转载请注明源地址. 1.面向对象的程序设计方法概述 面向对象的程序设计 与 ...