BRAF蛋白F595S G615R突变的影响
目的:使用在线Webserver,分析突变对蛋白质表型、稳定性、结合亲和力的影响。
步骤:
1. 查找突变数据:选择癌症相关基因BRAF,从COSMIC数据库下载BARF错义突变数据。
2. 查找结构数据:进入PDB,搜索BRAF,下载BRAF蛋白质单体的结构pdb文件、以及BRAF与其他蛋白结合的复合物pdb文件。
3. 突变数据分析:使用R语言,统计突变相关位点,筛选出突变位点。
4. 使用SNPs3D、S3Ds GO、PolyPhen-2、PROVEAN、MutPred2、MutPred等Webserver,评估突变是否对蛋白质有损害或良性的影响。
5. 使用foldx、IMutant、DUET、NeEMO、MAESTRO、MuPro等Webserver,评估突变对蛋白质稳定性的影响
6. 使用MutaBind、BeAtMuSiC、ELASPIC评估突变对蛋白质结合亲和力的影响
一、COSMIC数据下载
进入COSMIC,搜索BRAF基因,查找突变信息,可以看出来,Mutation中99.11%为Missense substitution,选择Missense substitution,下载全部错义突变数据,共计50046条记录。
图表 1 突变类型分布
接下来,使用R语言,统计错义突变的分布,由饼状图可以发现,在93.8%的样本中,第600位缬氨酸(V)突变为谷氨酸(E),这暗示着V600E在全部的Missense mutation中有着很强的统计学意义。除此之外,突变种类也很多,达到177种,有着许多频率较低的罕见突变,而这些罕见突变对于BRAF的影响尚且没有特别深入的研究,由于尚且不清楚哪儿些突变对蛋白质,以下报告将对全部177种突变进行分析。
图表 2错义突变类型分布
二、pdb数据库调研(前一次作业结果)
进入pdb数据库,搜索BRAF蛋白,选取一个“BRAF蛋白+其他蛋白复合物”和一个BRAF蛋白质单体。蛋白质复合物需要完整蛋白,不能是肽段,而且均需要来源于人类。经过一系列仔细审查,最终选择编号“4MNE的BRAF+MEK1蛋白质复合物”以及“4WO5的BRAF蛋白质单体”。
三、突变对表型影响
为了更加全面综合地进行数据分析,有必要采用多种分析手段,并对结果进行整合。因此,实验之初,就将177种突变全部依次上传各种服务器,计算突变对表型的影响,使用如下六个服务器:SNPs3D、S3Ds GO、PolyPhen-2、PROVEAN、MutPred2、MutPred,将这六个服务器计算出来的结果:“良性突变or有害突变”作为新的特征。由于S3Ds GO计算时候会舍弃部分突变,导致后续分析数据不全,最后舍弃S3Ds GO计算结果; MutPred2计算后结果没有明确说明是良性突变or有害突变,最后也舍弃MutPred2计算结果;而SNPs3D自身会使用“PhD-SNP”、“PANTHER”、“SNPs&GO”方法;最终,进行这些取舍之后,共计使用6种方法:PolyPhen、Provean、Panther、PhD-SNP、MutPred、SNPs_GO。
为了整合多种方法的结构,定义新的特征(Feature):Harmful_Sum,这表明有多少个软件预测该突变是有害突变,Harmful_Sum=6表示这6个webserver都认为该突变有害。
接下来,对177种突变绘制Harmful_Sum条形图,Harmful_Sum值越高,在图上该突变条形越高,表明该突变更可能是有害突变。从图上可以看出不同方法预测为有害突变的比例各不相同,SNPs GO会将大部分的突变识别为有害突变;并且可以发现:594-597位的这一段区域的突变对蛋白质更可能有害。
图表 3 Harmful_Sum条形图
然后,标注不同位置所属区段,分别标注Activation Loop、Catalytic Loop、DFG Motif、P-Loop、MEK1结合、Raf结合区域,发现各个软件都预测有害的594-597这一段属于DFG Motif,DFG Motif对于BRAF“活性”与“非活性”转化非常重要。在非活性状态,F595占据着”nucleotide-binding pocket”,阻止ATP进入,降低酶活性,属于蛋白质结构中的关键部位。
图表 4 突变所属结构域
接下来,“分析突变对表型影响”与“突变所属蛋白质结构中部位”的关系。上传4MNE蛋白质复合体的pdb结构到“GETAREA”服务器,计算蛋白质各个氨基酸的溶剂可及面积,初步得到蛋白质的Inner,Outer区的分布。http://curie.utmb.edu/getarea.html
下图左为所有氨基酸“所属蛋白质结构的分布饼图”,可以看出来inner区和outer区各占1/3。
而如果对所有软件都预测是“有害突变”的位点做“所属蛋白质结构的分布饼图”,可以发现inner区的比例大大提高,超过50%,outer区的比例大大降低,只占10%。
图表 5突变所属蛋白质结构
不光如此,如果对inner区和outer区分别做Harmful_Sum的分布饼图,可以发现,Inner区有超过50%的突变是6个软件都预测为“有害突变”,而Outer区只有不到20%的突变是6个软件都预测为“有害突变”。(出现0.5是因为有的软件预测为benign
,possibly damaging
,probably damaging
三种结果,则加分方式为0 0.5 1)
图表 6 Inner区和Outer区打分饼图
至此,可以得出第一个结论,预测软件显示,Inner区的突变更容易对蛋白质结构造成有害的影响。
四、突变对蛋白质稳定性影响
接下来,将177个突变全部依次用python脚本上传至IMutant、DUET、NeEMO、MAESTRO、MuPro服务器,计算突变对蛋白质稳定性的影响ddG,同时本地使用foldx计算突变前后的ddG。由于MuPro只给出稳定性的“增加/减小”的定性结果,没有给出ddG的具体数值,因而在后续画图中并没有使用。由于DUET服务器 会使用“mCSM”“SDM”“DUET”三种计算方法,所以最后画图中会有7中方法计算的ddG。
对于177个突变计算出来的ddG绘制条形图(小于0表示降低稳定性),可以发现SDM方法与其他方法计算的结果一致性最差。经过调研发现,SDM方法是基于“已知3D结构的同源蛋白质”之间的氨基酸变化,转化成“替代概率表”来进行计算,可能是受限于目前蛋白质结构解析量不足,其精度有限;也可能是该方法特点就是不会将很多突变识别为“稳定性降低”,导致一致性较差。
同时可以发现F595S突变稳定性下降最多(理由1);而且在Uniprot中,也有关于F595突变致病的记录(理由2);从结构上来看,突变由带着一个大苯环的苯丙氨酸,变为结构上较小的丝氨酸,变化相对较大(理由3),再者,在非活性状态,F595占据着”nucleotide-binding pocket”,阻止ATP进入,降低酶活性,属于蛋白质结构中的关键部位(理由4);除此以外,F595处于蛋白质的Inner区,其突变可能对蛋白质结构破坏较大(理由5);并且在之前突变对蛋白质表型影响的分析中,F595S就被所有6个Web Server都认定为有害突变(理由6)。
基于以上理由,得出第二个 结论,F595S突变严重破坏蛋白质稳定性,有潜在的致病性。
图表 7突变对蛋白质稳定性的影响
图表 8 Uniprot相关记录
五、突变对蛋白质亲和性影响
然后,将177个突变全部依次用python脚本上传至ELASPIC、BeAtMuSiC服务器,选出亲和力变化最大的前十个突变(理由1),再筛选出在IBIS中显示的与MEK1的结合位点:G615R。
图表 9突变对蛋白质亲和力的影响
从结构可视化的突变中也可以看出来,G615R处于两者的结合位置。
图表 10 G615R位置
在MAPK信号通路中,Braf就是与MEK结合,引导下游的信号通路。(理由2)
图表 11 Braf信号通路
除此之外,MutaBind 服务器也显示ddG =1.02,结构更加不稳定;而且Chimera分析氢键网络,也显示氢键发生变化;从结构上,由甘氨酸变为碱性的精氨酸,酸碱性变化较大。(理由3)
综上所述,得出第三个结论,G615R突变影响Braf的氢键网络,导致与下游MEK1结合不稳定,进而紊乱信号通路。