当我们手头有转录组测序后的差异分析数据后,想更进一步的去分析这些差异基因在信号通路富集情况,其中一种办法是使用KEGG网站进行信号通路富集分析。以下是基于KEGG信号通路富集分析的具体步骤。

UniProt网站中的ID mapping具有强大的各类数据ID互相映射转换功能,支持多个数据库之间的互联互通和一次性多条数据ID的转换。因此,我们通过uniprot将原始数据种的Gene name转换为GeneID。
注:大多数比较古早的教程都是把Gene name转换为UniProt ID,但是最新版本(version 5 of KEGG Mapper)的KEGG的标识符已经不直接支持UniProt ID,而是KEDD ID或者GeneID。但是为什么不选KEGG ID是因为在ID mapping的过程中,KEGG ID缺失的情况要比GeneID缺失的情况更严重,因此为了保留更多的数据,我们选择了兼容性更好的GeneID。不过,KEGG也有自己映射工具Convert ID,有兴趣的可以自己尝试下。
load from text file出导入。From database选择第一个UniProt的子项“Gene Name”。To database则可默认选择UniProtKB,GeneID和 KEGG的ID可以通过UniProtKB链接的相关信息所得。Map 15 IDs。
确认输入的ID是Gene name,否则无法获得成功映射。上一步提交后,可获得UniProt任务列表,状态栏Status显示Completed后,点击下方链接预览ID映射的结果。

在结果预览页面中,点击Download。(数量较少也可以直接在该页面直接筛选目标信息)

下载Excel或者其他自己熟悉处理的数据文件格式。并注意选择外部链接(External links),其中就包含了我们需要的GeneID , KEGG。

输出内容除了默认6项外,在外部链接(External links)中的基因组注释(Genome annotation)勾选GeneID , KEGG。
注:如果当同时勾选GeneID , KEGG后无法成功下载,大概率是因为KEGG的ID不全无法生成下载链接。解决方法是只勾选GeneID。

ID mapping生成的表格数据会存在大量的重复或者空缺值,这直接导致了ID mapping数据的数量前后并不能保持一致,需要根据自己情况进行删减或保留处理。
使用KEGG Mapper 进行通路富集搜索。其中KEGG Mapper – Search (过去被称为 Search Pathway)是在用户数据集中搜索映射对象的传统工具。

KEGG identifier中的对应的类型和所研究的物种信息来确定选择哪种搜索模式。
KEGG Identifier。
如果你的基因物种来源不是human,那么最最最重要的是选择搜索模式为other org,示例物种小鼠mmu;基因物种来源为human则可直接选择hsa搜索模式。
接着将GeneID直接复制粘贴或者文件导入,点击Exec提交任务。

最终获得通路富集数据,通过数据处理,进行可视化展示。
