寻找U2OS中表达的基因及其promoter并用于后续annotation

方法1.RNA-seq得到不同表达程度基因

方法2. 直接download U2OS_gene.csv https://cancer.sanger.ac.uk/cell_lines/download

最开始excel直接选用25%最高和25%最低，U2OS细胞共~16000基因，故复制前4000行的gene symbol并存为txt;

table browser下载'group:Genes and gene prediction; track:UCSC genes; outpu format:selected fileds from primary and related tables' then getoutput,如下图选择

寻找U2OS中表达的基因及其promoter并用于后续annotation

问题出现在grep -wFf 25%_most_highly_expressed_gene_name.txt hg19_geneid_genesymbol.txt > 25%_most_highly_expressed_geneid.txt总是没有输出

trouble shooting首先检查代码，自定义两个文件1.txt 2.txt然后 grep -wFf 1.txt 2.txt成功；

然后检查输入文件hg19_geneid_genesymbol.txt，自定义基因文件（随便选几个U2OS/non-U2OS基因 vi gene.txt）,grep -wFf gene.txt hg19_geneid_genesymbol.txt成功；

最后发现问题出在25%_most_highly_expressed_gene_name.txt，最开始得到这个文件是直接从csv中copy and paste，但csv是 comma delimited,所以复制事实上连,一起复制了

#$ head U2OS_genes.csv

寻找U2OS中表达的基因及其promoter并用于后续annotation

#$ head 25%_most_highly_expressed_gene_name.txt

寻找U2OS中表达的基因及其promoter并用于后续annotation

事实上在做grep的时候是“ ,MED6, ”，因此无法匹配 hg19_geneid_genesymbol.txt，这也是为什么grep 'MED6' hg19_geneid_genesymbol.txt 可以work的原因

寻找U2OS中表达的基因及其promoter并用于后续annotation

正确做法

#0.6是第4000个基因的zscore

awk -F',' '$5 > 0.6 {print $3}' U2OS_genes.csv > 25%_most_highly_expressed_gene_name.txt

0.6有点过低，做zscore散点图可发现用2更为合理

awk -F',' '$5 > 2 {print $3}' U2OS_genes.csv > highest_expressed_gene_name.txt

寻找U2OS中表达的基因及其promoter并用于后续annotation

更为准确的方法是用R quantile得到合适Z score筛选得到most_expressed 和 least_expressed

grep -wFf highest_expressed_genesym.txt gene_hg19.bed > highest_expressed_gene.bed

PS：head gene_hg19.bed

寻找U2OS中表达的基因及其promoter并用于后续annotation

一个基因有不同的cds

https://www.jianshu.com/p/cc5cd7053d6e

寻找U2OS中表达的基因及其promoter并用于后续annotation的更多相关文章

逆向知识第八讲,if语句在汇编中表达的方式
逆向知识第八讲,if语句在汇编中表达的方式一丶if else的最简单情况还原(无分支情况) 高级代码: #include "stdafx.h" int main(int argc ...
寻找数组中的第K大的元素，多种解法以及分析
遇到了一个很简单而有意思的问题,可以看出不同的算法策略对这个问题求解的优化过程.问题:寻找数组中的第K大的元素. 最简单的想法是直接进行排序,算法复杂度是O(N*logN).这么做很明显比较低效率,因 ...
利用Manacher算法寻找字符串中的最长回文序列（palindrome）
寻找字符串中的最长回文序列和所有回文序列(正向和反向一样的序列,如aba,abba等)算是挺早以前提出的算法问题了,最近再刷Leetcode算法题的时候遇到了一个(题目),所以就顺便写下. 如果用正反 ...
实现一个算法，寻找字符串中出现次数最少的、并且首次出现位置最前的字符如&quot&semi;cbaacfdeaebb&quot&semi;，符合要求的是&quot&semi;f&quot&semi;，因为他只出现了一次（次数最少）。并且比其他只出现一次的字符（如&quot&semi;d&quot&semi;）首次出现的位置最靠前。
实现一个算法,寻找字符串中出现次数最少的.并且首次出现位置最前的字符如"cbaacfdeaebb",符合要求的是"f",因为他只出现了一次(次数最少).并且比其 ...
[经典算法题]寻找数组中第K大的数的方法总结
[经典算法题]寻找数组中第K大的数的方法总结责任编辑:admin 日期:2012-11-26 字体:[大中小] 打印复制链接我要评论今天看算法分析是,看到一个这样的问题,就是在一堆数据 ...
寻找数组中第K大数
1.寻找数组中的第二大数 using System; using System.Collections.Generic; using System.Linq; using System.Text; u ...
C语言中表达n次方
C语言中表达n次方可以用pow函数. 函数原型:double pow(double x, double y) 功能:计算x^y的值返回值:计算结果举例: double a; a = p ...
Java实现蓝桥杯算法训练寻找数组中最大值
算法训练寻找数组中最大值时间限制:1.0s 内存限制:512.0MB 提交此题问题描述对于给定整数数组a[],寻找其中最大值,并返回下标. 输入格式整数数组a[],数组元素个数小于1等于10 ...
WPF：指定的命名连接在配置中找不到、非计划用于 EntityClient 提供程序或者无效的解决方法
文/嶽永鹏 WPF 数据绑定中绑定到ENTITY,如果把数据文件做成一个类库,在UI文件中去应用它,可能遇到下面这种情况. 指定的命名连接在配置中找不到.非计划用于 EntityClient 提供程序 ...

随机推荐

Linux系统安装及初始化(ubuntu14&period;04)
Windows 7下硬盘安装Ubuntu 14.04图文教程 Ubuntu 官方已经发布了正式版的 Ubuntu 14.04 LTS,并宣称这是为云计算准备的版本.该版本在云平台和伸缩环境的可靠性.性 ...
net下 Mysql Linq的使用, 更新数据,增加数据,删除数据
net下访问mysql主要有2种方法: 1.字符串拼接访问 a.mysql官网下载并安装mysql-connector-net. b项目中引用mysql.data等所有增删改查可以通过拼接sql语句 ...
Android开源项目发现--- 工具类图片缓存篇（持续更新）
1. Android-Universal-Image-Loader 图片缓存目前使用最广泛的图片缓存,支持主流图片缓存的绝大多数特性. 项目地址:https://github.com/nostra1 ...
poj3580
区间操作的究极题,我们一个个来分析其实只有insert,delete,revolve三种没讲过insert 先把x旋到根,一开始我比较SB的,准备把新节点插入到右子树的最左节点,这显然很烦好的方法是 ...
B进制加法(洛谷1604)
分析:码农题,照这模拟就行,高精度的B进制,注意字符串反转的技巧. #include <iostream> #include <cstdio> #include <cst ...
&lt&semi;EffectiveJava&gt&semi;读书笔记--01继承的使用注意
1, 父类的构造器方法中不能调用能够被子类重写的方法. 分析: 当初始化一个子类时, 首先要初始化父类, 即调用父类的构造方法; 如果父类的构造方法中调用了可被重写的其它方法, 那么此时调用的其实是该 ...
python接口自动化测试十六：unittest完成用例
import unittestimport requests def add(a, b): print('前置条件!!!!!:如登录') return a + b class TestAAA(unit ...
基于RYU的拓扑发现
基于RYU的拓扑发现前言本次实验是一个基于RYU的拓扑发现功能.参考了呈神的实现方式,并加了一些自己实现方式,做了一些数据结构的改动. 数据结构 link_to_port 字典有两种关系: 一是 ...
listen 60
Barbie Exposure May Limit Girls' Career Imagination The ubiquitous Barbie doll: she's been everythin ...
k8s的高级调度方式
默认的scheduler的调度过程:1.预选策略:从所有节点当中选择基本符合选择条件的节点.2.优选函数:在众多符合基本条件的节点中使用优选函数,计算节点各自的得分,通过比较进行排序.3.从最高得分的 ...