文件名称:FindTelomeres:用于在FASTA文件中查找端粒重复序列(TTAGGGCCCTAA)的python脚本
文件大小:34KB
文件格式:ZIP
更新时间:2024-03-10 11:47:25
telomeres Python
这个脚本做什么? 这是用于在FASTA文件中查找端粒重复序列(TTAGGG / CCCTAA)的工具。 该脚本不做什么? 它只会在序列的开头和结尾寻找端粒。 它仅查找TTAGGG / CCCTAA重复序列的变体。 它是如何做到的? 它以FASTA文件作为输入,并逐一遍历其中的序列。 在每个序列的开头和结尾,它都会忽略N(未知碱基)。 对于每个序列,它将查看前(最后)50个核苷酸,并评估端粒重复覆盖了该序列的多少。 这是故意灵活的,以允许测序错误和端粒基序的序列/长度变化。 更具体地说,如果前50个核苷酸中至少有50%被端粒重复序列覆盖,则将其称为端粒。 在大多数情况下,默认设置50%(-c /-cutoff)和50 nts(-w /-window)似乎效果很好。 一些端粒可能很短,或者与典型的TTAGGG / CCCTAA基序不同。 使用这些参数,它们很可能会被恢复。 但是,可以
【文件预览】:
FindTelomeres-master
----README.md(2KB)
----LICENSE(34KB)
----test.fasta(62KB)
----FindTelomeres.py(5KB)