文件名称:DataRank:基于主动学习的DataRank算法
文件大小:9.1MB
文件格式:ZIP
更新时间:2024-05-28 19:05:24
MATLAB
bioCADDIE 在这个项目中,我们将为生物医学数据集创建一个搜索引擎。 这个想法是在搜索引擎后面创建一个推荐系统,以提高搜索和推荐的效率。 粗略地说,该主题涉及几个不重要的任务:(离线)推荐系统具有几个组成部分: 1-索引:在这一部分中,我们创建一个语料库,即两部分式的纸张数据集图,该图显示了哪篇论文引用了哪些数据集用于机器学习。 这涉及挖掘全文,以直接和间接引用数据集。 2-度量学习:学习数据集和论文的相似性度量:如果我们了解论文和数据集的主题,我们可以更有意义和抽象地进行这种相似性度量。 使用主题模型,我们可以有一个混合成员模型(每个论文或数据集都包含所有主题,但概率不同)。 有了这个主题,我们可以使用Mesh和UMLS在主题之间找到潜在的(图形)结构。 有了这个图和主题,我们可以轻松地计算出论文之间,主题之间以及主题与论文之间的相似度。 3-推荐系统:使用用户的点击数据和