如何求一个文本和一个主题的相关度?大家有什么好的算法吗?请大家教教我

时间:2021-11-04 20:00:28
比如我现在的主题关键字是 “c语言”,有一个待分析的文本。如何判断这个文本是否和c语言相关度呢?
我现在唯一能想到的就是对文本进行分词,然后统计“c语言”在文本中出现的此时,除以总词数,得到相关度的值。
但这个办法不太好,请高手赐教更好的方法呀,最好是好理解的。

5 个解决方案

#1


文本中的内容都是对书的介绍:
txt1:
《The C Programming Language》不仅在C与C++语言界,而且在整个程序设计语言教学与研究界都是耳熟能详的经典著作。最主要的两点原因是: 
  其一,这部著作自第1版问世后就一直深受广大读者欢迎,畅销不衰,是计算机学术界与教育界著书立说的重要参考文献。可以说,几乎所有的程序设计语言著作以及C与C++著作的作者都把这部著作作为参考文献。早在20年前我国就翻译出版过这部著作的第1版。 
  其二,这部著作的原作者之一Dennis M. Ritchie是C语言的设计者,这样就保证了在著作中能完整、准确地体现与描述C语言的设计思想。本书讲述的程序设计方法以及各种语言成分的细节与用法具有权威性,这很有利于读者把握C语言的精髓。 

txt2:
 《面向模式的软件架构.第5卷,模式与模式语言》共分3 部分,首先介绍了单个模式,详细阐述了过去累积的关于如何描述和应用模式的诸多见解,接着探究了模式之间的关系,从组织的角度说明了各个模式的领域,最后介绍了如何将模式和模式语言相结合。
   《面向模式的软件架构.第5卷,模式与模式语言》适合软件架构师和开发人员阅读。 


#2


有做过文本相关度判断的大侠帮帮忙呀。在线等了。

#3


字符串匹配吧。匹配次数多的热度高。

#4


引用 3 楼  的回复:
字符串匹配吧。匹配次数多的热度高。


哦这个我倒是没想到。

#5


多增加几个tag,至于哪些tag那就只能个人观点了。

做个权值,最后再比较吧。

权值计算可能繁琐了些,如果不考虑特殊癖好,可以都设为1

#1


文本中的内容都是对书的介绍:
txt1:
《The C Programming Language》不仅在C与C++语言界,而且在整个程序设计语言教学与研究界都是耳熟能详的经典著作。最主要的两点原因是: 
  其一,这部著作自第1版问世后就一直深受广大读者欢迎,畅销不衰,是计算机学术界与教育界著书立说的重要参考文献。可以说,几乎所有的程序设计语言著作以及C与C++著作的作者都把这部著作作为参考文献。早在20年前我国就翻译出版过这部著作的第1版。 
  其二,这部著作的原作者之一Dennis M. Ritchie是C语言的设计者,这样就保证了在著作中能完整、准确地体现与描述C语言的设计思想。本书讲述的程序设计方法以及各种语言成分的细节与用法具有权威性,这很有利于读者把握C语言的精髓。 

txt2:
 《面向模式的软件架构.第5卷,模式与模式语言》共分3 部分,首先介绍了单个模式,详细阐述了过去累积的关于如何描述和应用模式的诸多见解,接着探究了模式之间的关系,从组织的角度说明了各个模式的领域,最后介绍了如何将模式和模式语言相结合。
   《面向模式的软件架构.第5卷,模式与模式语言》适合软件架构师和开发人员阅读。 


#2


有做过文本相关度判断的大侠帮帮忙呀。在线等了。

#3


字符串匹配吧。匹配次数多的热度高。

#4


引用 3 楼  的回复:
字符串匹配吧。匹配次数多的热度高。


哦这个我倒是没想到。

#5


多增加几个tag,至于哪些tag那就只能个人观点了。

做个权值,最后再比较吧。

权值计算可能繁琐了些,如果不考虑特殊癖好,可以都设为1