电子科技大学生物信息学重点

一：

简答：研究内容：

n 数据管理层面上：开发、设计一系列相关的工具，能够方便有效的获取、管理以及使用各种类型的数据和信息。

n 算法开发层面上：开发新的算法及统计学的方法来揭示大规模数据之间的联系。

n 研究对象层面上：分析和解释各种类型的生物学数据，包括核酸、氨基酸序列、蛋白质功能结构域以及蛋白质三级结构等。

二十世纪五十年代，为储备期
二十世纪六十至七十年代，为萌芽期。
二十世纪八十年代，为形成期。
1990s，高速发展期

二：

界（kingdom）门（phylum）纲（class）目（order）科（family）属（genus）种（species）

四大“模式生物”：酵母、线虫、果蝇、小鼠

大肠杆菌：460万bp,秀丽线虫9.7Mbp,果蝇1.8亿bp 拟南芥1.0×10⁸ bp 小鼠30亿水稻4．3亿bp （要记住那个比那个大/小？）

四种：小分子：单糖、双糖，脂肪酸，核苷酸，氨基酸

蛋白质的空间结构

一级结构(primary structure)

多肽链中氨基酸数目、种类和线性排列顺序

二级结构(secondary structure)

氢键形成a-螺旋(a -helix)

链间形成b-折叠(b-sheet)

三级结构(tertiary structure)

肽链进一步沿多方向盘绕成紧密的近似球状结构

四级结构(quaternary structure)

具有特定构象的肽链进一步结合，并在空间相互作用

1870年，F. Miescher从脓细胞的核中分离，由于呈酸性，故命名为核酸。

中心法则开始：DNA——RNA

三-

1、检索方法：

（1）追溯法：通过已知文献后附有的参考文献中提供的线索来查找文献。

（2）常用法：利用各种检索工具来查找文献。

（3）循环法：是将常用法和追溯法交替使用的一种综合文献检索方法。

（4）浏览法：是从本专业期刊或其它类型的原始文献中直接查阅文献资料。

3、检索过程：

l （1）分析研究课题

l （2）制定检索策略

l （3）查找文献线索

l （4）获得原始文献

1. PubMed的特性

n PubMed is NCBI gateway to MEDLINE

n 收录了70多个国家4600多种主要生物医学期刊的摘要和部分全文。

n 最早的文献可追溯至20世纪50年代。最新的文献几乎就在此时此刻。

n 部分出版商通过PubMed提供文献的全文（链接），而这些全文中有些是可以免费登录的。据统计，NCBI目前共有130多种期刊约10万篇的免费全文。

1. 鸟枪法（ Shot-gun sequencing）

¡ 方法：借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序，再根据序列间的重叠关系进行计算机排序与组装，确定它们在基因组中的位置。

¡ 适用范围：主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。

¡ 优点：速度快、简单易行、成本低

¡ 缺点：

¡ 序列的拼接组装比较困难，尤其是在重复序列多的区域难度更大。

¡ 受文库随机性和测序覆盖度的影响，某些区域间会有较大的空洞（GAP）。

¡ 由于缺少基因组的物理图谱，有些序列难以定位，成为游离片段。

2. 克隆重叠群法(clone contig sequencing)

¡ 方法：先将染色体打成比较大的片段(几十-几百Kb)，利用分子标记将这些大片段排成重叠的克隆群，分别测序后拼装。需要绘制物理图谱，以鸟枪法为基础。

¡ 适用范围：较大的、更复杂的基因组。

Short-gun Clone contig

不需背景信息构建克隆群

(遗传、物理图谱)

时间短需要几年的时间

得到的是草图(Draft) 得到精细图谱

原核基因组较大的基因组

成本低成本高

四、数据提交-单机版软件：Sequin是独立的程序，由NCBI（美国国家生物情报中心）开发，用来向三大核酸数据库GenBank， EMBL，DDBJ 查询与提交序列数据。

核酸数据库分级：

在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。

二级数据库的形式：大多以web界面为基础，具有文字信息、表格、图形、图表等方式显示数据库内容；

一级数据库与二级数据库之间并无明确的界限。

五

主要的blast程序

程序名	查询序列	数据库	搜索方法
Blastn	核酸	核酸	核酸序列搜索逐一核酸数据库中的序列
Blastp	蛋白质	蛋白质	蛋白质序列搜索逐一蛋白质数据库中的序列
Blastx	核酸	蛋白质	核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。
Tblastn	蛋白质	核酸	蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。
TBlastx	核酸	核酸	核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。

T表示翻译；n表示核酸； p表示蛋白； x表示交叉

点阵分析：

寻找序列间可能的性状对位排列
寻找蛋白质、DNA序列中正向或反向重复
预测RNA中自补区域
优点：可以找到两个序列间所有可能的残基匹配
简单、易懂
直观、整体性强

点阵法的序列比对：寻找两条序列的最佳比对，实际上就是寻找在矩阵标记图中找非重叠平行斜线最长的组合。

最短路经问题:算法求解:

从起点到终点逐层计算

简答：系统发育树的构建步骤

1、特征数据选取：

基因、个体、群体或物种的信息

常用的方法：多序列比对

2、构建距离数据或相似性数据：

涉及的则是成对基因、个体、群体或物种的信息。

3、选择建树方法以及替代模型：

目前主要有三种：距离法、最大简约法、最大似然法

4、构建进化树：

拓扑结构的判别（从大量的拓扑结构中搜寻、判别）

5、进化树评估：

与实际进化的比较

七：序列预测，常用的检验指标

1. 灵敏度 (Sensitivity, Sn): 对于真实的数据，能够预测成“真”的比例是多少；

2. 特异性 (Specificity, Sp):对于阴性的数据，能够预测成“假”的比例是多少；

3. 准确性 (Accuracy, Ac):对于整个数据集(包括阳性和阴性数据)，预测总共的准确比例是多少；

4. 马修相关系数(Mathew correlation coefficient, MCC):当阳性数据的数量与阴性数据的数量差别较大时，能够更为公平的反映预测能力，值域[-1,1];

1. 样本/检验数据：阳性数据(P)，阴性数据(N);

a. 阳性数据(P)：真实的，被实验所证实的数据；

b. 阴性数据(N)：被实验所证明为无功能的数据；

2. 对于预测结果的评测，定义：

a. 真阳性 (TP): 阳性数据中被预测为阳性的数据；

b. 假阳性 (FP): 阴性数据中被预测为阳性的数据；

c. 真阴性 (TN): 阴性数据中被预测为阴性的数据；

d. 假阴性 (FN): 阳性数据中被预测为阴性的数据

作业：碱基：为什么是四个碱基？为什么是三联体编码？为什么密码表是这样排列的？

1.在16种可以配对形成DNA的核苷碱基中，为何只有A、T、G、C组成了生物体的基因组字母表？研究人员一直认为这是因为最初生命形成的原始环境中就只有这4种碱基。但爱尔兰都柏林的Trinity学院的Dónall Mac却认为，这4种碱基的选择是最小化错误策略的具体表现.

2.三个碱基成为一组决定一个氨基酸。（举个例子：鸟嘌呤－胞嘧啶－胞嘧啶这三个碱基组成的信息叫\'甘氨酸\'的氨基酸放在那个位置的指令。）当把四个碱基（鸟嘌呤、胞嘧啶、腺嘧啶、胸腺嘧啶）做成由三个碱基组成的碱基对时，则能够组成的碱基对总共有4×4×4=64种。即能够指令64种氨基酸。我们身体的氨基酸总共有二十多种，这说明由三个碱基组成的碱基对可充分地向人体所有氨基酸作出指令。

3.互不相同的四个碱基，即四块不同的"砖"三个合成一组，由一组找出一个氨基酸，数百个氨基酸连接，才能形成一个蛋白质。蛋白质是氨基酸以碱基互补配对方式连接成的物质。我们体内有二十多种氨基酸，正是藉着这二十多种氨基酸的组合，地球上的所有动物和植物的模样和性质都有些不同，即使同样的人，长像和体质也不同。二十个氨基酸合成一个特定蛋白质的概率是多少。假设17个氨基酸，按着不同的方式排列，能排多少种呢？17×16×15×……3×2×1＝？超过355兆种。那么形成其中一种方式的概率为355兆分之一。

基因组：人与人为什么长的不一样？那些“垃圾”DNA为什么会留下来？人类是怎样进化来的？人与鼠的基因组差别很小，但为什么物种间差异这样大？

1.因为每个人的遗传基因不相同，并且在DNA复制转录的过程中还会发生基因突变，而且每个人生活环境不同，这些也会影响基因的表达，所以人和人长得不一样。

2、那些“垃圾”基因在不同的环境下表达效果不同。也有有利的表达方式。

3.人类是由猿猴进化而来。

4、基因的选择性表达可能导致无中间的差异，因为人类社会和鼠的社会方式不同，这会影响基因的表达

蛋白质：相同的氨基酸序列有相同的结构吗？每个氨基酸在蛋白质中的贡献都是相同的吗？蛋白质算不算遗传物质呢？为什么蛋白质在生物学中是这样的重要？蛋白质是怎样运动的呢？

1、相同的氨基酸序列有相同得结构，也有不同的结构。空间各异性导致了表达不一样。

2、不同，不同的蛋白质每个氨基酸所占比例不同，氨基酸贡献也都不一样。R基一般不同。

3、遗传物质主要指DNA和RNA，但对朊病毒来说，蛋白质是其遗传物质。

4、蛋白质是基因体现的直接物质，蛋白质是生命活动的主要承担者。

5、胞呑和胞吐

网络：现在的数学方法能解决多少网络问题？表型与蛋白的关系是怎样的？每个人蛋白基本相同，为什么表型却不一样？

1、数学贯彻在各个行业，网络的运行都需要数学来维持。

2、蛋白相同表型不一定相同，表型相同，蛋白结构不一定相同。

3、影响表型的因素很多。蛋白质的空间结构，组合方式，以及外界环境不同，所以表型不一样

电子科技大学生物信息学 重点 - wangchuang