【基因调控网络】基因调控网络及其模型

时间:2024-11-17 07:37:51

基因调控网络及其模型

  • 概述
  • 基因调控网络模型
    • 布尔网络模型
    • 有向图模型
    • 线性组合模型
    • 加权矩阵模型
    • 互信息关联模型
    • 常微分方程模型
    • 模型的评估
    • 小结
  • 基因调控机制
    • 1. 基因的转录调控
      • 1. 顺式调控-顺式作用元件:
      • 2. 反式调控-反式作用元件
    • 2. 基因的转录后调控
    • 3. 基因的翻译后调控
  • 基序和模块
    • 1. 基序——网络的关系单元
    • 2. 模块——网络的结构单元
  • 基因调控网络数据库
    • 1. 常用的生物网络分析与可视化软件
    • 2. 常用基因芯片数据库
    • 3. CHiP-on-Chip数据库
    • 4. miRNA调控关系数据库
  • 参考资料:

概述

基因调控网络是21世纪生物学研究的一个重要课题,其研究的主要内容有:①每个网络节点的功能;②基因网络结构;③复杂性层次上的动力学机制和行为;④在细胞和组织层次从基因到信号路径等各种问题。

近年来,科学家发现传统遗传学假说是错误的,逐渐重视研究遗传网络。对于大型遗传网络的全局模型来说,要想知道一个生物体的所有细节和准确建立对应的模型几乎是不可能的,更多的是研究遗传网络的一般性质,即从分子水平认识细胞组织的功能。

基因调控网络模型

基因调控网络(GRN,gene regulatory network)大致上是由四个部分组成:①一个细胞中相互联系的若干DNA片段组成,②间接地与RNA和蛋白质表达产生相互作用,③还有与其物质相互作用,④调控基因转录或mRNA速率。

一般来说,每个mRNA分子可生成一个或一类特异的蛋白质。

在某些情况下,蛋白质可以①积聚在细胞外壁或细胞内,②组成特定的结构,③具有功能。其他情况下,蛋白质可以①生成酶并催化各种生物化学反应,②某些蛋白质具有激活其他基因的功能。
蛋白质的作用
单细胞生物体的GRN可以应对外部环境变化,使其在特定时间内适应所处环境得以生存。例如酵母细胞发现自己处于糖溶液时,激活一些基因产生酶,以便将糖分解为乙醇。此过程与酿酒类似,可使酵母细胞得以存活并获得繁殖后代所需要的能量,提高其生存能力。
基因调控关系
基因表达的研究大致分为两类:

  1. 对GRN结构和动力学机制分析识别
  2. 对生物体基因整体表达水平的实验数据进行归纳整理

前者涉及网络动力学理论的应用,后者采用各种统计和聚类方法

基因的表达是可控制及多层次的,主要有4个调控层次,通常是用上一层此的基因产物来调控下一层次基因的表达。基因的表达过程如下:
基因的表达过程
从生物网络的观点来看,GRN包括以下6种控制节点:

  1. DNA转录控制
  2. DNA处理控制
  3. mRNA输运控制
  4. mRNA降解控制
  5. mRNA翻译控制
  6. 蛋白质活性控制
    生物控制层面

在生物体的每一个细胞种,GRN是DNA、mRNA和蛋白质之间的相互作用网络,各细胞的GRN基本上都是相同的。
基因调控网络的基本结构
GRN的节点是:基因、蛋白质、其相应的mRNA、蛋白质与蛋白质的复合物。GRN的节点随时间的变化过程可以用一个函数来描述,并可利用对输入的各种运算的组合来建立这种函数。这些函数可以描述细胞内的信息处理过程,决定细胞的行为,各种GRN在结构上可能有所不同,但其有一般的结构示意图。
基因调控的动力学机制
通过基因调控数据可以构建基因转录调控网络。基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。根据转录因子是促进还是抑制受控基因的表达,调控网络种的边可以分为正调控和负调控。

常见的GRN模型包括:随机模型、有向图、常微分方程、布尔网络、连接模型、人工神经网络、贝叶斯网络、基于规则的模型、基于信息论的模型。

布尔网络模型

系统生物学(systems biology):是研究一个生物系统种所有组成成分(基因、mRNA和蛋白质等)的构成,以及在特定条件下这些组成成分间的相互关系的学科,而生物网络由于生物系统很好描述,正逐渐成为系统生物学研究种的主要研究对象。

网络,即图论中的图,由节点和连接节点之间的边构成。在生物分子网络中,生物分子作为节点,而生物分子之间的物理遗传以及调控等多种相互作用为边,因此它可以从系统层面上描述复杂的生命现象,以及系统中的相互作用、调控和动态行为等特性。

目前,生物网络的研究主要分为两类:正向工程和逆向工程。其中正向工程,主要是利用已有的生物知识设计生物网络(也就是合成生物学),或者是构建量化模型来解释生物系统工作的机制。生物网络的逆向工程研究主要是利用高通量的生物数据构建生物网络。这些数据一般都具有高噪声和假阳性等特点。因此,如何利用这些高通量的生物数据来构建精确的生物分子网络是关键。

DNA微阵列的广泛应用提供了海量的基因表达谱数据,即细胞内的mRNA的相对或绝对数量,反映了基因转录的调控机制,而基因转录在基因表达环节中起着非常重要的作用。

基因在转录过程中,转录因子(蛋白质)与DNA的结合以激活基因的转录,而基因的表达产生有可能是转录因子,它又能激活或抑制其他基因的转录,如此继续下去,就形成一个基因调控路径(gene regulatory pathway)。

一条路径中的基因在表达水平上存在某种相关性,例如受同一个转录因子调控的基因往往是共表达的,这些生物学原理可以用于指导基因调控路径的构建。

从表达谱数据出发,可以建立基因相互作用的网络模型,这种方法也被称为逆向工程(reverse engineering)。最常见的基因调控网络模型是:

  • Boolean网络
  • 连续模型
  • 线性组合模型
  • 加权矩阵模型
  • 互信息关联模型
    布尔网络模型
    布尔网络模型:是刻画基因调控网络一种最简单的模型。在布尔网络中,每个基因所处的状态或者是“开”或者是“关”。状态“开”表示一个基因转录表达形成基因产物;状态“关”则代表一个基因未转录。
    基因之间的相互作用关系由布尔表达式来表示,即基因之间的作用关系由逻辑算子 and or 和 not刻画。例如:
    逻辑表达式
    上图读作“如果A基因表达,并且B基因不表达,则C基因表达”
    以有向图 G = ( V , F ) G=(V,F) G=(V,F)表示布尔网络,其中V是图的节点集合,每个节点代表一个基因,或者代表一个环境刺激。环境刺激可以是任何相关的生物、物理或化学因素,但不是基因或基因的产物,它影响调控网络。而F是有向边的集合,每条边代表基因之间的相互作用关系。上例所对应的网络如下图所示:
    布尔网络模型
  • 当一个节点代表基因时,该节点与一个稳定的表达水平相联系,表示对应基因产物的数量。如果一个节点代表环境因素,则节点的值对应于环境刺激量。各节点的值或者时“1”,或者是“0”,分别表示“高水平”和“低水平”。
  • 网络中各个基因状态的集合成为整个系统的状态,当系统从一个状态转换到另一个状态时,每个基因根据其连接输入(相当于调控基因的状态)以及布尔规则确定其下一时刻的状态是否是“开”或“关”。
  • 布尔规则以“真值表”的形式表示。
    布尔网络真值表
    一个简单的布尔网络模型

转录调控网络最简单的模型就是布尔网络模型,布尔网络模型最早由Kauffman于1969年引入的。布尔网络从初始状态开始,经过一系列状态转换,最后到达系统的稳定状态。从不同的初始状态出发,布尔网络会到达不同的终止稳定状态,而这些不同的终止状态对应于细胞相对稳定的生化状态。

  • 如果在布尔网络的一个稳定状态下,所有基因的状态不变,则称该稳态是“点吸引子”;
  • 如果网络的一个稳态是多个状态的周期切换,则称该稳态为“动态吸引子”,此时网络系统处于相对稳定状态。

具体来说,稳定状态分两种情况,一是单稳态,即系统状态不再改变。如图(a) 所示,系统从状态( 1 ,0 ,0 )出发,经过一系列中间状态,到达单稳定状态以后,系统一直驻留在状态( 0 ,0 ,0 )。另一种稳定状态是所谓多稳态,即系统状态没有绝对稳定,只是相对稳定,系统在若干个状态之间循环往复。如图(b) 所示,系统达到相对稳定,在状态( 0 ,0 ,1 )和状态( 1 ,1 ,0 )之间切换。
布尔网络模型状态转换图
借助于机器学习或者其它智能训练的方法可以构建一个具体的布尔网络,即根据基因表达的实验数据建立待研究的基因之间的相互作用关系,确定每个基因的连接输入(或调控输入),并且为每个基因生成布尔表达式,或者形成网络系统的状态转换表。对于复杂的网络,在网络构造过程中,其搜索空间非常大,需要利用先验知识或合理的假设,以减小搜索空间,有效地构造布尔网络。

布尔网络模型简单,便于计算,但是由于它是一种离散的数学模型,不能很好地反映细胞中基因表达的实际情况,如,布尔网络不能反映各个基因表达的数值差异,不考虑各种基因作用大小的区别等。而在连续网络模型中,各个基因的表达数值是连续的,并且以具体的数值表示一个基因对其它基因的影响。

布尔网络在基因调控网络中的主要应用体现在如下几个方面:

  1. 对特殊的基因调控系统建立模型,比如果蝇胚胎形成和内皮组织周期;
  2. 研究调控网络的进化动力学;
  3. 根据基因表达数据推断基因调控网络;
  4. 组织和器官等形态建成的网络模型。

布尔网络模型有以下四个特点:
(1)每一个基因、输入及输出均是一个有向网络边线图;采用从一个节点到另一个节点的一个箭头表示两个节点之间具有因果关系。
(2)每个节点可以在“开”或“关”的两种状态之一。
(3)对于一个基因,“开”对应于基因表达;对于输入和输出,“开”对应于化学反应物质的产生;
(4)时间被看作是一系列离散的时间布。在每一个时间步,一个节点的新状态是其前一个状态的布尔函数,用箭头从节点前一状态指向新状态来表示。

有向图模型

利用有向图可建立直观的GRN模型
一个有向图模型示例
有向图可以定义为二元组<V,E>,其中V是节点的结合,E是边的集合。有向图的边可以表示多个基因之间的相互作用。为此,GRN的邮箱表可定义为三元组<i,j,s>,其中s表示节点i是否被节点j激活(s为+)或抑制(s为-)。
还可以用有向超图(Hyper graph)来描述基因表达的蛋白质合作调控过程。在此种图种的边可以定义为三元组<i,J,S>,其中J为节点i的一组调控基因的列表,S为该组基因调控i效果的列表。
用有向图表示的基因调控网络
下图C显示了用有向超图表示的GRN。在此图种,节点2分别受到节点1和3的抑制作用。(d)为节点集合V及有向边的三元组<i,J,S>。
用有向图和有向超图表示的基因调控网络

线性组合模型

线性组合模型是一种连续网络模型,在这种模型中,一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为:
X i ( t + δ t ) = ∑ j W i j X j ( t ) X_i(t+\delta t)=\sum_j W_{ij}X_j(t) Xi(t+δt)=jWijXj(t)
其中, X i ( t + δ t ) X_i(t+\delta t) Xi(t+δt)是基因i在 t + δ t t+\delta t t+δt时刻的表达水平, X j ( t ) X_j(t) Xj(t)是基因j在t时刻的表达水平,而 W i j W_{ij} Wij代表基因j的表达水平对基因i的影响,+值表示激活,-值表示抑制,0表示无影响。在这种基因相互关系表示形式中,还可以增加其它数据项,以逼近基因调控的实际情况。例如,可以增加一个常数项,反映一个基因在没有其它调控输入下的活化水平。

将上述表达式转换为线性差分方程描述一个基因表达水平的变化趋势。这样,在给定一系列基因表达水平的实验数据之后,即给定每个基因的时间序列 X i ( t ) X_i(t) Xi(t) ,就可以利用最小二乘法或者多重分析法求解整个系统的差分方程组,从而确定方程中的所有参数,即确定 w i j w_{ij} wij 。最终,利用差分方程分析各个基因的表达行为。实验结果表明,该模型能够较好地拟合基因表达实验数据。

然而,目前的测量均限于基因数远大于时间点数,故它们的解集不是唯一的,因而难有生物学意义。
一种解决方法是利用插值将方程组转化为满秩的,但这种方法不可避免地引入人为误差;
另一种方法是先将众多基因进行全局聚类,寻求类与类之间的调控网络,而类内的基因相互作用用其他知识或信息来辨认。

目前,常把具有相似表达谱的共表达基因归属一类,同类中的平均基因表达谱定义为代表此类的原型基因(prototype)的表达谱。
原型基因的调控网络形式上与之前相同,但参数不在是基因树,而是原型基因数(即聚类总数)。

逆向工程问题就是要寻求网络参数,使得用线性网络模型拟合原型基因表达时间序列的残差平方和达到最小,即
∑ t ∑ i [ X i ( t + δ t ) − ∑ j W i j X j ( t ) ] 2 = m i n \sum_t \sum_i [X_i(t+\delta t)-\sum_j W_{ij}X_j(t)]^2=min ti[Xi(t+δt)jWijXj(t)]2=min
当上述时间采样点是满秩或无缺值,则上式有解析解。当时间采样点中有缺值,则测量点不等间距,例如相隔两个 δ t \delta t δt需要将上式相关项改写。此时涉及的非线性组合方程没有解析解,但可用最优化方法,例如模拟退火遗传算法求解数值解。

实验表明,该模型能够比较好地拟合基因表达实验数据。Zhang等进一步发展了这种模型,用线性模型构建原型基因间的调控网络,再利用多元回归模型构建基因间调控网络,得到了更有意义的结果

加权矩阵模型

加权矩阵模型与线性组合模型相似,在该模型中,一个基因的表达值是其它基因表达值的函数。含有 n 个基因的基因表达状态用 n 维空间中的向量 u(t) 表示, u(t) 的每一个元素代表一个基因在时刻 t 的表达水平。以一个加权矩阵 W 表示基因之间的相互调控作用, W 的每一行代表一个基因的所有调控输入, w i j w_{ij} wij 代表基因 j 的表达水平对基因 i 的影响。在时刻 t ,基因 j 对基因 i 的净调控输入为 j 的表达水平(即 u j ( t ) u_j(t) uj(t) )乘以 j 对 i 的调控影响程度 W i j W_{ij} Wij 。基因 i 的总调控输入 r i ( t ) r_i(t) ri(t) 为:
r i ( t ) = ∑ j W i j u j ( t ) r_i(t)=\sum_j W_{ij}u_j(t) ri(t)=jWijuj(t)

这一形式与线性组合模型相似,若 W i j W_{ij} Wij为正值,则基因 j 激发基因 i 的表达,而负值表示基因 j 抑制基因 i 的表达, 0 表示基因 j 对基因 i 没有作用。与线性组合模型不同的是,基因 i 最终表达响应还需要经过一次非线性映射:
u i ( t + 1 ) = 1 1 + e − ( α i r i ( t ) + β i ) u_i(t+1)=\frac{1}{1+e^{-(\alpha_i r_i(t)+\beta_i)}} ui(t+1)=1+e(αiri(t)+βi)1
这种函数是神经网络中常用的 Sigmoid 函数,其中 α \alpha α β \beta β 是两个基因特异性常数,规定非线性映射函数曲线的位置和曲度。通过上式,计算出 t+1 时刻基因 i 的表达水平。在最初阶段,加权矩阵的值是未知的。但是可以利用机器学习方法,根据基因表达数据估计加权矩阵中各个元素的值。

对于这样的模型,可以利用成熟的线性代数方法和神经网络方法进行分析。实验表明,该模型具有稳定的周期和稳定的基因表达水平,与实际生物系统相一致。在这种模型中还可以加入新的变量,模拟环境条件变化对基因表达水平的影响。

互信息关联模型

互信息关联模型:用熵和互信息描述基因和基因的关联;一个基因表达模式A的熵是所含信息量的度量,其计算公式为:
H ( A ) = − ∑ i = 1 n P ( x i ) log ⁡ 2 ( P ( x i ) ) H(A)=-\sum_{i=1}^{n}{P(x_i)\log_2{(P(x_i))}} H(A)=i=1nP(xi)log2(P(xi))
其中, P ( x i ) P(x_i) P(xi)为基因表达值出现在区间 x i x_i xi的频率,n为表达水平的区间数目。熵越大,则基因表达水平越趋近于随机分布。

两个基因表达模式的互信息公式为:
M I ( A , B ) = H ( A ) + H ( B ) − H ( A , B ) MI(A,B)=H(A)+H(B)-H(A,B) MI(A,B)=H(A)+H(B)H(A,B)
互信息是一种两变量之间关系的度量。如果 M I ( A , B ) = 0 MI(A,B)=0 MI(A,B)=0,则表示两个基因表达不相关,反之 M I ( A , B ) MI(A,B) MI(A,B)越大,则两个基因越是非随机相关,它们之间的生物关系越密切。

互信息关联网络模型中的连接关系来自基因表达实验数据计算出的互信息与预先设定的阈值的比较。高于阈值的基因对之间被认为在生物学意义上存在关联。Butte等是较早用信息理论研究基因调控网络的。

计算互信息使用的是基因表达值在某一表达变化区间的概率(频率),而不是实际的表达值。因此可以避免因个别异常表达值造成的假关联,从而可以作为两个基因相互独立性的一个衡量指标。

常微分方程模型

常微分方程(ordinary differential equation, ODE)模型广泛应用于分析GRN的动力学机制。ODE可以模拟RNA、蛋白质等组成部分在调控过程中与时间有关的各种相互作用参数的变化。例如:用反应速率方程(reaction-rate equation)计算基因产物(蛋白质或mRNA)的生成速率:
d x i d t = f i ( x ) ( x i ≥ 0 , 0 ≤ i ≤ n ) \frac{dx_i}{dt}=f_i(x) ( x_i≥0,0≤i≤n) dtdxi=fi(x)xi00in
其中的向量: x = x 1 , . . . , x i , x n x={x_1,...,x_i,x_n} x=x1,...,xi,xn表示GRN中各节点的蛋白质、mRNA或者代谢产物的数量, f i f_i fi通常是一个非线性函数。设节点i的合成速率取决于蛋白质的数量 x i x_i xi

通过求解上述方程 d x i d t = 0 \frac{dx_i}{dt}=0 dtdxi=0的特定GRN节点i,可以得出一个或多个蛋白质及mRNA的浓度,它们在理论上是持续存在的(但不一定是稳定的)。
上述方程的稳定状态对应各种细胞类型,其振荡解也可能对应处于自然循环的细胞状态类型。这些数学稳定性通常可以反映接近衍生物临界点的程度,还可以反映对应的生化反应产物浓度分布的稳定性。
在方程中,临界点和交叉对应于细胞的临界状态,在此状态下微小的状态或参数摄动将使系统在几种稳定状态之间突变变化轨迹对应于生物路径的展开及短期生物时间的瞬变

20世纪,研究者们利用反应速率方程开发了很多模拟生物化学反应系统的数学工具,特别使代谢过程的模型。使用这些工具可以建立遗传调控过程的动力学模型。

模型的评估

  1. 推断强度
    推断强度是用以度量真实的基因调控网络权值矩阵 w 0 w_0 w0与被推断的矩阵 w 0 ^ \hat{w_0} w0^相似度的标准,表示为 P r ( w 0 , w 0 ^ ) = 0.5 ( 1 + ρ ( w 0 , w 0 ^ ) ) P_r(w_0,\hat{w_0})=0.5(1+\rho(w_0,\hat{w_0})) Pr(w0,w0^)=0.5(1+ρ(w0,w0^)),其中 ρ ( ) \rho() ρ()表示pearson产物瞬时相关。
  2. 预测强度
    预测强度是衡量预测准确性的指标。对给定的数据集 x 0 x_0 x0和其预测逼近 x 0 ^ \hat{x_0} x0^,预测强度表示为 P p = 1 ( 1 + E M S E ) P_p=\frac{1}{(1+E_{MSE})} Pp=(1+EMSE)1,其中 E M S E ( x 0 , x 0 ^ ) = 1 T N ∑ i , t ( x 0 ( i , t ) − x 0 ^ ( i , t ) ) 2 E_{MSE}(x_0,\hat{x_0})=\frac{1}{TN}\sum_{i,t}{(x_0(i,t)-\hat{x_0}(i,t))^2} EMSE(x0,x0^)=TN1i,t(x0(i,t)x0^(i,t))2。复杂度大的模型(非线性、大参数集)与简单网络模型(线性)相比,其预测强度大。
  3. 鲁棒性
    鲁棒性
  4. 一致性
    一致性是衡量基因调控网络模型的一个重要指标。造成基因调控网络不一致的原因主要有两个方面:
  • 维度问题,即网络的基因数远远大于测量的时间点数
  • 模型的预测强度超过了数据本身的复杂度
    一致性可以考虑通过从合理的模拟数据复原复杂功能网络的能力来衡量。
  1. 稳定性
    由于细胞内的能量储存总是有限的,因此可认为所有的基因调控网络都是稳定的。具体地,对任意有限的初始状态,预测表达水平对所有时间有界,则由具体调控网络权值矩阵参数化的模型稳定。
  2. 计算成本
    主要考虑其计算时间。

小结

(1)基因调控网络的复杂性:

  • 网络规模大
  • 细胞多组分参与调控网络
  • 调控的动态性
  • 基因调控网络的复杂性远远高于基因表达之间的相关性
  • 聚类分析不能揭示基因之间的因果关系

(2)目标

  • Which genes are expressed?
  • When and where in the organisms? To which extent?
  • Are there any universal laws?
  • Can we predict the evolution of the network?
  • How to predict the evolution of the network?

(3)网络模型的构建
途径——实验——建模——仿真
基因调控网络分析流程
网络建模方法之间的差异

基因调控机制

基因在转录过程中,转录因子与DNA结合能激活基因的转录过程,而基因的表达产物有可能是转录因子,它又能激活或抑制其他基因的转录,如此继续下去,就形成了一个基因调控路径。
基因转录调控
基因表达调控的研究是后基因组学时代的核心内容,也是系统生物学的主要研究内容。基因调控网络是研究细胞与分子生物学中各种关系的模型之一。

基因表达是由多级调控调节的。
基因的多级调控

1. 基因的转录调控

1. 顺式调控-顺式作用元件:

存在于基因旁侧序列中能影响基因表达的序列,它们的作用是参与基因表达的调控,本身不编码任何蛋白质,仅仅提供一个作用位点,要与反式作用因子相互作用而起作用
(1)启动子(Promoter)
启动子:真核基因启动子是RNA聚合酶结合位点周围的一组转录控制组件,至少包括一个转录起始点以及一个以上的功能组件。
启动子
(2)增强子(Enhancer)
增强子:指远离转录起始点、决定基因的时间、空间特异性,增强启动子转录活性的DNA序列。
增强子
(3)沉默子(Silencer)
沉默子:指帮助降低或关闭邻近基因表达活性的一段DNA顺式元件序列。参与基因表达的负调控

2. 反式调控-反式作用元件

参加基因表达调控的因子,它们与特异的靶基因的顺式元件结合起作用。编码反式作用因子的基因与被反式作用因子调控的靶序列(基因)不在同一染色体上。

  • RNA聚合酶(RNA polymerase)
  • 普遍性转录因子(General transcription factor)
  • 特异性转录因子(Specific transcription factor)
  • 种类多样的协调因子(Coregulatory factor)

(1)RNA聚合酶(RNA polymerase)
RNA聚合酶:是一种负责从DNA或RNA模板制造RNA的酶。
RNA聚合酶
(2)普遍性转录因子(General transcription factor)
它们结合在靶基因的启动子上,形成前起始复合物,启动基因的转录。
通用转录因子
(3)特异性转录因子(Specific transcription factor)
一类与靶基因启动子或增强子(或沉默子)特异性结合的转录因子,具有细胞及基因特异性,可以增强或抑制靶基因的转录。
特异性转录因子
转录因子
(4)种类多样的协调因子(Coregulatory factor)
改变局部染色质的构想(如组蛋白酰基转移酶和甲基转移酶),对基因转录的起始具有推动作用。
DNA甲基化

2. 基因的转录后调控

MicroRNAs是一种小的内源性非编码RNA分子,大约由21-25各核苷酸组成。这些小的miRNA通常靶向一个或多个mRNA,通过翻译水平的抑制或断裂靶标mRNAs而调节基因的表达。
基因的转录后调控
基因的转录后调控
对miRNA的调控关系主要包括miRNA对转录因子转录因子对miRNAmiRNA与靶基因之间的调控关系以及它们的组合调控网络
在转录后调控网络研究中,一般结合转录调控过程构建网络模型来分析转录后调控过程和调控重要通路的miRNA数量的增加,量化分析miRNA在基因表达中的调控作用是一个崭新的重要任务。

3. 基因的翻译后调控

无论是原核生物还是真核生物,翻译完成后,一些肽链能直接折叠成最终的活性形式,不需要加工修饰。然而,经常的情况是新生肽链需要加工修饰(称为翻译后加工或修饰)包括:

  • 切除部分肽段(蛋白酶)
  • 在特定氨基酸残基的侧链上添加一些基团(共价修饰)
  • 蛋白质折叠:肽链->二级->三级->更高级

(1)切除部分肽段(蛋白酶)
切除部分肽链
(2)在特定氨基酸残基的侧链上添加一些基团(共价修饰)
共价基团
(3)蛋白质折叠:肽链->二级->三级->更高级
蛋白质折叠
翻译后加工有两方面的目的:

  1. 功能需要
  2. 定向转运的需要(在真核生物中尤为复杂,合成的蛋白要定向运输到细胞质、质膜、各种细胞器,如叶绿体、线粒体、溶酶体、过氧化物酶体等)。

基序和模块

研究发现,基因调控网络具有重要的局部性质。其中包括Milo等人首次提出的网络模体(motif)概念。Shen-Orr等人研究表明,基因调控网络中的网络模体是细胞系统中最基本的功能模块,这些网络模体互相配合来实现各种生物过程。

一些文献中给出了定义网络模体的条件:在所对应的随机网络中出现次数远远小于在真实网络中出现的次数等,这些条件为网络模体的识别提供了重要依据。

目前研究较多的网络模体主要有:

  • 单输入模体(single input motifs)
  • 多输入模体(multi-input motifs)
  • 双扇形模体(bi-fan motif)
  • 双并行模体(bi-parallel motif)
  • 前馈环(feedforward loop)
  • 反馈环(feedback loop)

网络结构如下所示:
各种motif结构

  1. 基因转录调控网络motif
    反映了生物体行为功能的最小单位网络motif最初在细菌和酵母中发现的,更多地反映了基因调控网络的局部性质,能够从系统的水平研究转录调控关系。
  2. 不同生物体的基因转录调控网络包含相同类型的网络motif
    说明这些motif是基因正常表达的机制,也说明这些不同的生物体存在进化关系。

(1)motif又称为基序——网络的关系单元
一个复杂的基因调控网络是由成千上万的基因及其调控因子构成,它们彼此之间相互作用和调控关系构成网络的各种结构;实际上,基因调控网络的复杂性本质就是这些调控关系的复杂性。

1. 基序——网络的关系单元

研究发现各种关系种类的出现频率是非随机性的,某些特定的关系种类在网络中反复出现,形成网络的典型连接方式。
不同类型的网络具有不同的典型连接方式,研究者把这些特定的关系种类称为“网络基序(network motif)”,认为它们是一个网络的基本构造单元。
network motif


示例:大肠杆菌转录调控网络
该网络被认为是分析得最为透彻的网络模型之一,对该网络的研究发现,它涉及424个基因操纵子和577种相互作用,同时发现这个网络中最常出现的基序有三种:每一种基序都在控制基因表达中扮演着特定的角色。

第一种基序被称为前馈环(feedforward loop),即转录因子X作用于第2个转录因子Y,X和Y两个因子共同调控操纵子Z的表达,由此可以看出前馈环具有8种可能的类型。Alon在其专著里列出了前馈环的8种可能的类型。
这8种类型分为两个集合:相干和不相干。

  • 间接路径的符号是指所有间接路径上符合的乘积,比如两个负调控作用意味着最终是正调控;
  • 对于相干前馈环,间接路径与直接路径具有相同的符合;
  • 对于不相干前馈环,间接路径与直接路径具有相反的符合。
    前馈环的8种连接关系
    第二种是单输入模式(single input module),即一个转录因子控制一系列相关的操纵子。这种基序可以用一个信号控制所有相关的操纵子,使之产生同样的正调控反应或同样的负调控反应。
    第三种基序称为高重叠调控型(dense overlapping regulon)。大肠杆菌内近一半的操纵子都是建立在这种调控关系下,即一组转录因子对多个操纵子采用相互重叠的,密集的控制方式。
    单输入模式与高重叠模式

反馈环可以分成一致反馈环非一致反馈环两种。
反馈环结构

  • 在一致反馈环中,两种调控对靶目标具有同样的影响,或者都是激活,或者都是抑制。
  • 在非一致反馈环中,两种调控对靶目标的影响相反,其中一个为激活,另一个为抑制。

研究表明:一致反馈环在功能上可以使靶目标表达很快达到双稳态,也可以使瞬态信号修饰后成为一个不可逆的锁定状态。非一致反馈环的功能是对基因表达进行微调,从而使环的两个组成部分振荡表达。

同样的,前馈环也可以分为两种:一致前馈环和非一致前馈环。
前馈环结构
调控因子X可以直接或者通过调控因子Y间接地调控靶目标Z的表达。

  • 一致前馈环可以起到加强转录的作用,同时也起切换开关的作用,把起始信号转换为一个持久的细胞反应。
  • 而非一致前馈能加快信号检测的反应速度。
  • Kaplan等通过对大肠杆菌的研究发现非一致前馈环能够使基因表达对输入信号产生非单调依赖性
  • 最近研究表明,包括转录因子和miRNA的调控环不只是以个例的形式存在,而在基因组水平上是大量存在的。
  • 基因表达的相关和负相关性一直都是研究热点,Tsang等通过包含转录因子和miRNA的各种前馈环和反馈环的存在解释了基因表达的相关性和负相关性。
  • Shalgi等对人类基因组调控靶基因的miRNA-TF进行了研究,在实际人类基因组中miRNA-TF调控关系比随机选取的miRNA-TF调控关系的频率要高,表明在人类基因组中的确存在前馈环和反馈环。
  • Wang等对果蝇的miRNA的顺式调控元件进行了研究,通过整合miRNA靶目标的相互作用,对假定的调控反馈环进行了识别。
  • Martinez等对线虫的基因组进行了研究,整合了通过实验得到的TF-miRNA的调控网络和预测得到的miRNA-TF网络,得到了miRNA和TF相互作用反馈环,并发现这种反馈环的发现要比随机网络高得多,这表明反馈环为基因表达的一般调控机制

2. 模块——网络的结构单元

大生物分子,如蛋白质,之间常常发生非常紧密的相互作用,并形成具有明确空间形态的复合物,这种由许多分子相互结合形成的,有着稳定结构和功能的复合体称为模块(module)。

  • 基序:是从功能的角度来分析网络的构成,着眼于网络内各种成分之间连接的模式或关系;
  • 模块:注重从结构的角度来理解网络,寻找网络内由直接相互作用的成分构成的单元。

模块有两个显著的特征:

  1. 模块内的分子与分子间有些直接的相互作用;
  2. 模块与模块或模块与非模块之间有着清晰的边界。
    网络模块

基因调控网络数据库

1. 常用的生物网络分析与可视化软件

下表是常用的生物网络分析与可视化软件:
常用的生物网络分析与可视化软件
其中:

  • CentiScaPe是一款用来分析生物网络中心性参数的工具,同时可利用实验数据和网络拓扑识别功能相关的分子(网络节点)。另外还有一个特征就是有一款基于布尔逻辑的工具,可以利用不止一种的中心性参数来描述网络节点之间的拓扑相关性。Centiscape是目前唯一能同时计算多个中心值的Cytoscape插件。在Centiscape上,通过计算出中心值或者用从实验中得到的生物参数排序,能够从网络上得到关键节点。
    CentiScaPe

  • SNOW:是一款专门用来分析蛋白质相互作用网络的软件。根据用户提供的蛋白质列表,该软件可以自动利用蛋白质相互作用来分析蛋白质之间的关系,同时计算一些相关的网络参数以及这些参数的统计显著性。包括:连接性(connectivity)、介数(betweenness)、聚类系数(clustering coefficient)。同时也提供了网络可视化。

  • VisANT提供了一个生物网络分析的集成框架。该软件的特色之处在于能够挖掘和显示生物网络所提供的功能分级层次信息。另外,该工具可以可视化基因功能注释(Geno Ontology,GO)的分级结构。同时VisANT可以识别显著的GO注释富集和表达富集的基因模块,该软件可免费使用。
    VisANT

  • BioPAX软件是用来表示生物通路的一种数据交换格式。ChiBE是一个开源软件,用来多角度可视化和操作BioPAX生物通路模型。在ChiBE中,生物通路可以用多种现有的可视化工具来显示,包括化合物、细胞器和分子复合物。用户可以很容易地通过共同通路(pathway commons)查询和可视化生物通路,以及生物通路的分子表达谱。
    ChiBE

  • Cytoscape是一个开源软件,可以在一个统一的框架下将高通量的表达数据、分子状态和生物分子网络进行集成分析。还可以对各种分子组件和相互作用进行分析。Cytoscape由美国系统生物学研究所(Institute of Systems Biology)、加州大学圣地亚哥分校(University of California, San Diego)等4家单位和公司于2003年合作开发的一款致力于为用户提供免费开源的网络可视化和分析功能的软件。日常研究中所涉及的蛋白互作靶向调控基因共表达菌群互作等各类关系均可以通过Cytoscape实现可视化。另外,Cytoscape具有简单的网络发布和查询功能、结合表达谱数据、表型数据和分子状态等进行网络分析,结合功能注释等网络分析。Cytoscape的另一特色在于可以利用不同的插件进行生物网络分析,用户也可以自己开发需要的插件。这是目前最流行的生物网络绘图软件。
    Cytoscape

  • Pajek是一款专门用来可视化大规模网络的软件,在社交网络分析中应用广泛。Pajek可以操作几千甚至上百万的节点。被用来分析随机网络、网络分解等,优点在于网络可视化效果好,可视化选项较多,缺点是只针对Windows用户。
    Pajek

  • FANMOD软件:是一款有效识别生物网络中模体的工具,特别适合于大网络中大的模体。且具有很好的用户界面,可以将结果输出为多种格式。
    FANMOD

  • MEME是一个motif分析的工具箱,提供了多种相关工具,网址为/。根据分析目的和功能,将相关工具划分成了4大类别:Motif Discovery、Motif Enrichment、Motif Scanning、Motif Comparison
    MEME

  • WebLogo:WebLogo是一款经典的motif可视化软件,在很多的文章中都提到了使用该软件绘制motif的sequence logo。作为一个在线工具,其操作简单,易于使用,网址:/。
    WebLogo

  • POINeT是一款用来进行蛋白质相互作用查找、分析和可视化的软件。该工具可以将蛋白质相互作用和多个数据来源的组织特异性表达数据,同时该工具还可以结合文本信息来对蛋白质相互作用过滤。Paper:/articles/10.1186/1471-2105-10-114。网站地址:/

  • Osprey软件可以提供无向、有向和加权网络的二维可视化,不太适合大规模网络分析,但提供了很多网络分布选项以及多种网络节点分布方式,还可以利用基因功能注释对基因进行聚类。

  • BioLayout Express 3d是一款可以二维或者三位显示和聚类大规模网络的工具。可以利用基因表达数据对基因调控网络进行可视化和聚类。特别是采用了马尔可夫聚类算法使得网络聚类具有较高的精度。
    BioLayout Express 3d

2. 常用基因芯片数据库

基因芯片数据库
基因芯片数据库

3. CHiP-on-Chip数据库

CHiP-on-Chip数据库

4. miRNA调控关系数据库

miRNA调控关系数据库

参考资料:

  • 《分子生物网络分析》
  • /weixin_43569478/article/details/108079455
  • /weixin_43569478/article/details/108079025