谷歌师兄的leetcode刷题笔记-nlp:无印良品

时间:2024-07-20 01:56:06
【文件属性】:

文件名称:谷歌师兄的leetcode刷题笔记-nlp:无印良品

文件大小:835KB

文件格式:ZIP

更新时间:2024-07-20 01:56:06

系统开源

谷歌师兄的leetcode刷题笔记目录 存储库 该存储库的目的是分析 BERT 和 Word2Vec 语言模型。 我们利用余弦相似度、欧几里得距离以及词移动距离 (WMD) 作为度量来量化句子和单词之间的相似度。 我们还展示了 BERT 上下文嵌入的一些应用。 获取两个文档,可能包含许多句子,对它们进行预处理,为每个标记找到相应的词向量(使用 Word2Vec 嵌入),计算两个文档中存在的所有标记之间的(欧几里德)距离,以及每个唯一单词的频率在每个文件中。 最后,它计算两个文档之间的 WMD。 您还可以选择绘制诸如最佳传输矩阵之类的图。 大多数图都依赖于 bmd.py,它是 WMD 到 BERT 嵌入的实现,可应要求提供,包含TensorFlow 2.0 _ Keras _ google-research/bert ,支持加载原始pre-trained weights . 先决条件 项目是使用 Python 3.6 和 Google Cloud/Colab 创建的。 用于 Word2Vec 嵌入。 要运行此项目,请安装以下内容: $!pip install stop-words $!p


【文件预览】:
nlp-master
----readme_movie_refdoc.txt(1KB)
----github_plots()
--------bmd_imshow2.png(22KB)
--------context Bert.png(41KB)
--------bmd_context_pca.png(46KB)
--------human_rate_euc.png(175KB)
--------Sent_histogram.png(131KB)
--------bmd_imshow1.png(65KB)
--------non_context Bert.png(48KB)
--------movieplotS.png(50KB)
--------wmd_imshow.png(34KB)
--------bmd_nocontext_pca.png(55KB)
--------non_context w2v.png(41KB)
--------movieplotP.png(49KB)
--------wmd_pca.png(41KB)
--------wmd_imshow1.png(65KB)
----movie_plot.py(6KB)
----wmd_plot.py(11KB)
----get_human_rate_bert_w2v_cos_euc_data.py(8KB)
----PCA_plots_withcontext_bert_w2v.py(5KB)
----PCA_plots_nocontext_bert_w2v.py(6KB)
----README.md(6KB)
----sentence_examples_file.py(4KB)
----plot_human_rate_euc.py(3KB)

网友评论