文件名称:dataset-search
文件大小:39.2MB
文件格式:ZIP
更新时间:2024-04-28 19:17:12
Python
资料集搜寻 概要 在此存储库中,我们提供了数据集搜索引擎的源代码。 网络上有大量且不断增长的数据集。 提供了数据集搜索引擎(例如和来搜索数据集。 这些数据集搜索引擎主要使用多面搜索或关键字搜索。 但是,现有的关键字或分面搜索不适合非常具体和全面的查询(例如,给出研究问题的描述)。 另外,这些系统依赖于数据集的元数据,因此取决于所提供的元数据的可用性和质量。 我们提出了一种新的数据集搜索方法,该方法依赖于文本分类模型,该模型可以预测用户输入的相关数据集。 用户输入是描述用户调查的研究问题的文本。 受过训练的分类器会根据输入的文本预测给定存储库中索引的所有相关数据集。 预测数据集对用户问题描述的相关性进行排序和排序。 建筑学 如上图所示,实际的数据集搜索引擎基于文本分类模型,该模型在previos步骤中进行了训练。 因此,将创建一个包含科学问题描述(论文摘要或引文上下文)和相应数据集的火
【文件预览】:
dataset-search-main
----dataset-search-schema.png(128KB)
----classification-models()
--------fasttext_classifier_evaluation(3KB)
--------basic_evaluation.py(3KB)
--------transformerxl_evaluation.py(20KB)
--------doc2vec_evaluation.py(20KB)
--------tfidf_evaluation.py(23KB)
--------fasttext_evaluation.py(20KB)
--------bert_finetuning_classifier_evaluation.py(8KB)
--------scibert_evaluation.py(20KB)
----additional_investigation()
--------evaluation_time_sorted_gnb_model.py(3KB)
--------tfidf_sampling_evaluation.py(6KB)
--------cross_validation.py(4KB)
--------transformerxl_sampling_evaluation.py(5KB)
--------doc2vec_sampling_evaluation.py(5KB)
--------evaluation_time_sorted_svm_model.py(3KB)
--------scibert_sampling_evaluation.py(5KB)
--------fasttext_sampling_evaluation.py(5KB)
----helpers()
--------evaluation.py(6KB)
--------preprocessing.py(6KB)
--------similarity_metrics.py(2KB)
----README.md(4KB)
----data()
--------Citation_New_Database.7z(13.23MB)
--------Abstracts_Metadata.txt(3.95MB)
--------Dataset_Titles.txt(33KB)
--------Abstracts_New_Database.7z(23.98MB)
--------DSKG_FINAL_TABELLENFORM.csv(1.06MB)
----evaluation_results()
--------Final_Offline_Evaluation.xlsx(12KB)
--------Final_Online_Evaluation.xlsx(97KB)