文件名称:高级机器学习:该项目是我的作业提交清华高级机器学习的班级
文件大小:207KB
文件格式:ZIP
更新时间:2024-03-09 17:19:46
Python
先进的机器学习 该项目是我的作业在哪里提交的课是清华高级机器学习。 作业_2 相关代码和具体的报告说明见name-disambiguation文件夹 名字歧义同名消歧 同名消歧是一个具有挑战性的问题,由于数据的杂乱以及同名情景十分复杂,要快速且准确的解决同名消歧问题还有很大的障碍。 论文的冷启动消歧 工作描述 给定一堆拥有同名作者的论文,要求返回一组论文聚类,因为一个聚类内部的论文都是一个人的,不同聚类间的论文论文不属于一个人。最终目的是识别出那些同名作者的论文属于同一个人。 尖端 可以把问题看成成对论文集的聚类任务,对于某个待消歧管的人名,先提取出论文的特征向量,然后计算出论文之间的相似度矩阵。最后根据相似度矩阵利用聚类算法将论文划分成不同的簇,每一个簇代表一个作者的论文集。 主要难点在于如何提取论文的特征向量,以及采用另外的聚类算法进行聚类。 文本特征如何提取:TF-IDF,图表征的学
【文件预览】:
Advanced-machine-learning-master
----homework_6()
--------gat.py(3KB)
--------train.py(10KB)
--------gcn.py(2KB)
--------gcn_layers.py(1KB)
--------pscn.py(3KB)
--------utils.py(884B)
--------gat_layers.py(4KB)
--------gcn.sh(437B)
--------data_loader.py(6KB)
--------pscn.sh(473B)
--------gat.sh(449B)
----.DS_Store(8KB)
----MineRL Competition()
--------.DS_Store(6KB)
--------competition_submission_template()
----README.md(7KB)
----homework_7()
--------GraphSGAN.py(10KB)
--------FeatureGraphDataset.py(4KB)
--------Nets.py(2KB)
--------functional.py(2KB)
--------data_loader.py(2KB)
----homework_8()
--------process_train.py(3KB)
--------hotpot_evaluate_v1.py(4KB)
--------.DS_Store(6KB)
--------train.py(8KB)
--------data.py(13KB)
--------utils.py(11KB)
--------model.py(16KB)
--------cogqa.py(12KB)
--------read_fullwiki.py(1KB)
----name-disambiguation()
--------analysis_data.py(14KB)
--------report.md(3KB)
--------train_word2vec.py(3KB)
--------test.ipynb(33KB)
--------images()
--------name_disambiguation.ipynb(0B)
--------name_disambiguation_train.py(4KB)
--------utils.py(14KB)
--------name_disambiguation_valid.py(4KB)
--------name_disambiguation_test.py(4KB)
--------utils.ipynb(0B)