dna-k-mer:深圳杯 数学建模 B题

时间:2024-06-27 15:48:54
【文件属性】:

文件名称:dna-k-mer:深圳杯 数学建模 B题

文件大小:37.47MB

文件格式:ZIP

更新时间:2024-06-27 15:48:54

Java

2015 深圳杯 数学建模 B题 随便帮同学做做 TAT,测试数据不全,只有一半50w行 题干: 给定一个DNA序列,这个系列只含有4个字母ATCG 如 S =“CTGTACTGTAT”。 给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA), 然后从S的第二个位置, 取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer 。 如对序列S来说,所有5-mer为{CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT} 通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。例如,对5 - mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。 问题 现在以文件形式给定 100万个 DNA序列,序列编号为1-1000


【文件预览】:
dna-k-mer-master
----B题.docx(19KB)
----题中涉及的数据.zip(37.45MB)
----bench.md(140B)
----src()
--------main()
----README.md(2KB)
----pom.xml(2KB)
----.gitignore(45B)

网友评论