文件名称:PythonObjectLM:用 Cython 快速训练的对象语言模型的 Python 实现
文件大小:2.3MB
文件格式:ZIP
更新时间:2024-07-13 00:02:22
Python
对象语言模型 文档和单词的语言模型。 使用多类和二元标签作为目标,使用 softmax 和 sigmoid 激活,以文档向量和词向量作为输入训练 1 个隐藏层前馈神经网络。 文档和单词都通过反向传播进行训练。 单词在所有文档之间共享,而文档向量存在于它们自己的嵌入中。 该神经网络的图形如下所示: 观察到文档之间的欧几里德距离在所有标签上都具有模糊搜索特性。 使用 T-SNE,我们可以在此处可视化西雅图餐厅的这些嵌入: 和 用法 这里我们初始化一个模型,该模型使用窗口中单词的向量和与文档(餐厅)对应的特殊对象向量来执行分类。 通过梯度下降,我们可以更新词向量和对象向量,以便对象向量获得与提供给我们的标签/目标(在本例中为 Yelp 类别、定价和评级标签)的某种关系。 我们首先准备数据集(这里没什么特别的,只是一些迭代器魔法): from objectlm import Object
【文件预览】:
PythonObjectLM-master
----images()
--------objectlm_graph.png(104KB)
--------embedding.png(117KB)
--------computation_time.pdf(18KB)
--------spicy.png(133KB)
--------consensus_stats.pdf(13KB)
----computation_time_plot.py(918B)
----train_sparkfun_model.py(4KB)
----saves()
--------example_sets.pkz(243KB)
--------sparkfun()
----Sparkfun Parse.ipynb(12KB)
----ObjectLM Bilinear.ipynb(624KB)
----ObjectLM vs Humans.ipynb(64KB)
----.gitignore(628B)
----ObjectLM - Mechanical Turk Results.ipynb(330KB)
----Covariance over a tree.ipynb(3.32MB)
----objectlm()
--------hierarchical_observation.py(9KB)
--------__init__.py(29KB)
--------bilinear_form.pyx(6KB)
--------train_model.pyx(39KB)
--------compare_cython_numpy_theano.py(5KB)
----README.md(6KB)
----ObjectLM.ipynb(229KB)
----train_model.py(3KB)
----utils()
--------plsa_model.py(1KB)
--------pvdm_model.py(632B)
--------__init__.py(5KB)
--------covariance.py(3KB)
--------svm_model.py(2KB)
----Covariance over Yelp Dataset.ipynb(797KB)
----personality()
--------personality.py(2KB)
--------__init__.py(593B)
--------mtc.py(4KB)
--------example_set.py(7KB)
--------experiment.py(3KB)
----mturk()
--------form.html(3KB)
--------form.js(1KB)
--------form.css(2KB)
----sparkfun()
--------predictive_model.py(10KB)
--------dataset.py(4KB)
--------product.py(315B)
--------__init__.py(251B)
--------scraping.py(2KB)
----get_sparkfun_model_performance.py(2KB)