作者:白介素2
很多小伙伴们,看多了那些完全不动脑的灌水文章,还以为生信数据挖掘只能发一些lowbee的文章,然鹅,白介素2同学的答案是:非也,证据是以下分享的这篇文献,题为:Prognostic microRNA/mRNA signature from the integrated analysis of patients with invasive breast cancer 发表在大名鼎鼎的PNAS杂志,生物医学界的小伙伴们应该没有不知道的吧。看下影响因子变化就清楚了,稳定得害怕。
以下分享这样一篇基于TCGA及其它多数据集的数据挖掘做了哪些工作,话不多说了,先上摘要。
image.png
大概的内容就是用了TCGA数据库的一个包含466个病人的子集找到了mRNA/miRNA的预后标志模型,预测效果不错。在早期肿瘤表现更佳,而且更重要的是作者成功的在另外8个数据集中验证了这个模型。最最重要的是,作者还与现有模型进行比较,发现比现有的商业模型的表现都更好,就是这些工作了。
分析流程思路
分析流程,作者给出了一张流程图,思路非常清楚,首先是整合TCGA的miRNA/mRNA表达矩阵,筛选预后标志,在各个亚型子集进行进一步筛选表现稳定的。然后再通过8个独立的数据集进行验证。
image.png
这是筛选标准,作者这里是在至少两个独立子集才被认为是有预后意义的基因,这个标准完全是自己可控的。
image.png
接下来又是进一步限制基因集的数量,突变和甲基化的限制,其实目的还是一个降维,直白点就是基因不能太多。
一个预后相关基因的热图展示,接下来就是构建自己的风险模型了,作者用的是这样一种方式:叫做监督的主成分方法
image.png
接下来就是常规的基于基因表达标志的高低风险的生存曲线,ROC曲线。
以及在独立数据集的验证:
image.png
当然,由于版面限制等原因,作者并不会像灌水般的把一些无关紧要的结果放上去,仅仅是关键结果。还有很多其它的结果可在原文官网找到,如需要可自行仔细研究,以下附上网址:
本文已发布在“生信人”微信公众平台,欢迎大家关注!