Motif TFBS TFs 和Genes是如何关联的?
请注意:工作的目标是将项目重点关注的基因组上的Motif对应到所影响的基因上。此文主要总结的是怎么通过各种数据库来对Motif进行分析,还有很多的模型方法可以直接提取信息,这里只列举了一个,有需要者自己查询资料。
Motif对应Target Genes
Motif
TF(Transcription Factors)
1,在GEO和ENCODE中寻找你想要的TF对应的Chip-seq数据,这样子能获取TF在基因组上的target位置,所以在你感兴趣的细胞系或者组织上执行ChiP-seq。然后再用相关的工具进行校正和计算。
2,另外的方法就是已知一些motif,在基因组上扫描,如果这个motif在基因上的promoter区域,那么就认为与这个基因有关联。
3,使用现成的已经校正过的经验数据集,Homer是其中注释的比较完整的数据集有几十个G的文件。
和Homer数据库
De novo识别motif
Homer是一个被设计来识别两组序列之间的motif差异富集情况的算法。这意味着这个算法需要使用两组序列:1,目标序列(共调控基因的promoter区域);2,背景序列(无调控的基因Promoter区域)。如果没有背景序列的话,那么会随机猜测一个位点的碱基概率,而这种做法是相当不精确的。
把De Novo识别的motif比对到已知的motif
由于ChiP-seq技术可以捕获实验条件下真实存在的TFBS,所以Homer会尽量找到与de novo motif最相似的一些已知的motif。
Known Motif Enrichment
Homer提供两种Enrichment, de novo motif discovery可以直接富集在你的目标集中的motif序列。而Known motif enrichment则是简单地告诉你在你的目标集中Known motif的富集程度。
X.Shirley Liu's Lab: BETA
BETA-basic: Binding and Expression Target Analysis Predict the factors (TFs or CRs) direct target genes by combining the binding and expression data
BETA-plus: Binding and Expression Target prediction and motif analysis Predict the factors (TFs or CRs) direct target genes by combining the binding and expression data, then do motif analysis on target regions
BETA-minus: Targets prediction with binding only Predict the factors (TFs or CRs) direct target genes by only binding data