multimodal-dataset:用于生成多模式CAFA基准测试集的代码和最少数据下载

【文件属性】：

文件名称：multimodal-dataset:用于生成多模式CAFA基准测试集的代码和最少数据

文件大小：28.77MB

文件格式：ZIP

更新时间：2024-03-30 07:16:36

Python

多峰数据集代码，用于生成多模式基准测试集的最少数据。 1.选择样本进行培训，测试，验证阈值序列同一性，以避免基于同源性的过度拟合。为此，从获得.fasta格式的一组带注释的序列，并将其聚类（使用cdhit ），直到某个序列同一性阈值（例如40％）。聚类后，由每个聚类中的质心组成的蛋白质集即为完整数据集。这些蛋白质在.fasta的输出.fasta文件中cdhit 。将该数据集适当地划分为训练集，验证集和保持集。请记住，如果保持集是预先确定的，则必须删除其聚类中包含测试集成员的所有质心。这可以通过群集文件转换成一个相当容易做到.json使用scripts/convert_clstr_to_json.py并打开一个交互式python与重心会议.fasta文件和.json列表文件，并测试集列表。 2.下载结构，提取坐标中的序列中只有一个子集在具有关联的结构。可以通过将U

立即下载

【文件预览】：
multimodal-dataset-master
----.gitignore(66B)
----README.md(4KB)
----.gitmodules(113B)
----scripts()
--------useful_scripts()
--------read_gaf.py(5KB)
--------download_swissmodel.py(1KB)
--------align_fasta_to_ids.py(1KB)
--------form_mkdmap_commands.py(1KB)
--------form_download_swissmodel_commands.py(882B)
--------convert_clstr_file_to_json.py(1KB)
----requirements.txt(39B)
----data()
--------annots()
--------swissmod40()
--------swissmod40.clstr.json(5.02MB)
--------nontest_entries.dat(376KB)
--------swissmod40.all.fasta(13.25MB)
--------test_entries.dat(24KB)
--------swissmod40.train.fasta(11.54MB)
--------nontest_entries.chainless.dat(292KB)
--------all_entries.dat(316KB)
--------swissmod40.clstr(13.74MB)

秒客网

multimodal-dataset:用于生成多模式CAFA基准测试集的代码和最少数据

网友评论

相关文章