tf–idf算法解释及其python代码

时间:2022-08-26 13:19:59

tf–idf算法python代码实现

这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档

copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天不上班']

  由于中文需要分词,jieba分词是python里面比较好用的分词工具,所以选用jieba分词,文末是jieba的链接。首先对文档进行分词:

import jieba
copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天不上班']
copus= [[word for word in jieba.cut(doc)] for doc in copus]
print(copus)

  输出结果:

[['我', '正在', '学习', '计算机'], ['它', '正在', '吃饭'], ['我', '的', '书', '还', '在', '你', '那儿'], ['今天', '不', '上班']]

  文档变成我们想要的格式了,然后开始词频统计,计算tf值,这里用Counter类来把每篇文档都转换成词和词频的字典,其实就已经得到tf值了

tf = []
for doc in copus:
tf.append(Counter(doc))
print(tf)

  输出结果:

[Counter({'我': 1, '正在': 1, '学习': 1, '计算机': 1}), Counter({'它': 1, '正在': 1, '吃饭': 1}), Counter({'的': 1, '书': 1, '你': 1, '在': 1, '那儿': 1, '我': 1, '还': 1}), Counter({'今天': 1, '不': 1, '上班': 1})]

  计算idf值

import math
from collections import defaultdict
idf = defaultdict(int)
for doc in tf:
for word in doc:
idf[word] += 1
for word in idf:
idf[word] = math.log(len(idf)/(idf[word]+1))
print(idf)

  

输出结果:

defaultdict(<class 'int'>, {'的': 2.0149030205422647, '正在': 1.6094379124341003, '学习': 2.0149030205422647, '计算机': 2.0149030205422647, '今天': 2.0149030205422647, '书': 2.0149030205422647, '那儿': 2.0149030205422647, '它': 2.0149030205422647, '不': 2.0149030205422647, '在': 2.0149030205422647, '吃饭': 2.0149030205422647, '我': 1.6094379124341003, '你': 2.0149030205422647, '还': 2.0149030205422647, '上班': 2.0149030205422647})

  

剩下的事情就很简单了,只需要把tf和idf相乘就可以了。

下面是一个tfidf的实现代码

from collections import Counter,defaultdict
import jieba
import math def file2list(file):
'''
把文件转换成列表,并对数据进行简单的预处理
'''
with open(file) as f:
corpus = f.readlines()
corpus = [[word.replace('\n','') for word in jieba.cut(line)] for line in corpus if line.strip()]
return corpus
#c = file2list('E:\hei.txt')
def get_tf(corpus):
return [Counter(doc) for doc in corpus]#用Counter函数把每篇文档转换成词和词频的字典
def get_idf(tf_dict):
idf = defaultdict(int)
for doc in tf_dict:
for word in doc:
idf[word] += 1
for word in idf:
idf[word] = math.log(len(idf)/(idf[word]+1))#idf的公式
return idf def get_tfidf(doc_id,file):
'''doc_id是语料库中文档的id,file是txt的路径'''
corpus = file2list(file)
tf = get_tf(corpus)
idf = get_idf(tf)
if doc_id > len(tf):
print("doc_id should smaller than %i"%len(tf))
else:
id_tf= tf[doc_id-1]
for word in id_tf:
id_tf[word] = id_tf[word]*idf[word]#计算tfidf值
print(id_tf)

  

  

  

tf–idf算法解释及其python代码的更多相关文章

  1. tf–idf算法解释及其python代码实现&lpar;上&rpar;

    tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...

  2. tf–idf算法解释及其python代码实现&lpar;下&rpar;

    tf–idf算法python代码实现 这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...

  3. Elasticsearch由浅入深(十)搜索引擎:相关度评分 TF&amp&semi;IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据

    相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...

  4. 55&period;TF&sol;IDF算法

    主要知识点: TF/IDF算法介绍 查看es计算_source的过程及各词条的分数 查看一个document是如何被匹配到的         一.算法介绍 relevance score算法,简单来说 ...

  5. 神经网络BP算法C和python代码

    上面只显示代码. 详BP原理和神经网络的相关知识,请参阅:神经网络和反向传播算法推导 首先是前向传播的计算: 输入: 首先为正整数 n.m.p.t,分别代表特征个数.训练样本个数.隐藏层神经元个数.输 ...

  6. 光照问题之常见算法比较&lpar;附Python代码&rpar;

    一.灰度世界算法 ① 算法原理 灰度世界算法以灰度世界假设为基础,该假设认为:对于一幅有着大量色彩变化的图像,R,G,B三个分量的平均值趋于同一灰度值Gray.从物理意义上讲,灰色世界法假设自然界景物 ...

  7. KNN算法原理(python代码实现)

    kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...

  8. 25&period;TF&IDF算法以及向量空间模型算法

    主要知识点: boolean model IF/IDF vector space model     一.boolean model     在es做各种搜索进行打分排序时,会先用boolean mo ...

  9. kNN算法基本原理与Python代码实践

    kNN是一种常见的监督学习方法.工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k ...

随机推荐

  1. Lambda 表达式(C&num; 编程指南) 微软microsoft官方说明

    Visual Studio 2013 其他版本 Lambda 表达式是一种可用于创建委托或表达式目录树类型的匿名函数. 通过使用 lambda 表达式,可以写入可作为参数传递或作为函数调用值返回的本地 ...

  2. VC&plus;&plus;中操作XML(MFC、SDK)转

    [转]VC++中操作XML(MFC.SDK) XML在Win32程序方面应该没有在Web方面应用得多,很多Win32程序也只是用XML来存存配置信息而已,而且没有足够的好处的话还不如用ini.VC++ ...

  3. Unity3D多人协作开发环境搭建

    多人协作 说到多人协作开发,大家都会想到要使用版本控制工具来管理项目,当然最常用的要数SVN和Git了,但是SVN管理Unity3D项目的确有一些不尽人意的地方. 比如:两个人修改了同一个场景,SVN ...

  4. ACM1228&lowbar;STL的应用

    #include<iostream> #include<string> #include<map> using namespace std; map<stri ...

  5. Debian编译内核

    转自 yuzibo博客 http://yuzibo.github.io/DebianBuildKernel.html 最终成功一次了 之前又一次编译了好多次.可惜没有一次成功的,说实话.借助Debia ...

  6. 忽然想到:QProcess的Read功能太强,如果有什么搞不定的,可以调用外部程序 good

    这样就可以用其它语言来无限扩展它的功能了,比如golang,比如Delphi

  7. Linux中涉及到计算优先级及其他问题

    比如计算矩形周长: a= b= echo `expr \* $((a+b))` 1.expr外要使用反引号,且expr只支持整数计算,如果涉及到浮点数计算要采用下面方法 2.优先计算a+b时,要使用双 ...

  8. Docker基础-容器操作

    1.创建容器 1.新建容器 可以使用docker create命令新建一个容器. [root@linux-node1 ~]# docker create -it ubuntu:latest ffc90 ...

  9. centos安装redis并设置开机启动

    1.通过yum安装: yum install redis 2.设置redis.conf中daemonize为yes.设置密码: requirepass 3.安装完后的启动脚本是完善的,/etc/ini ...

  10. Python中的str与bytes之间的转换的三种方法

    # bytes object b = b"example" # str object s = "example" # str to bytes sb = byt ...