咨询热线:400-065-6886
首页>>市场动态>>公司新闻

绘制一张优美的Heatmap图|云平台


原创 生信部 上海天昊生物


天昊云官网:

http://cloud.geneskybiotech.com/

Heatmap 图绘制:(可点击最下方阅读原文)

http://cloud.geneskybiotech.com/#/tools/all/Heatmap


1.png

1692259504870739.png


示例图

热图是由多个小色块组合而成,每一个小色块都代表一个数值,根据给定色彩变化尺给每一个数值色块分配颜色。

数值可能会有较大差异,跨越几个数量级,因此通常会给数值取对数或者Z-score,使色彩变化尺处于个位数。

聚类是利用多组值间两两的差异程度或者相似程度作为依据,对多组值进行层析聚类,以最终得到样本间聚类的远近关系。

一般,样本来自于同一个组,组内样本间的特征相似,在进行聚类的时容易被聚在一起。

基因聚类可以观察到基因之间的关系,因为基因的上下游调控会导致连锁反应,一个基因的表达增加或减少可能会带动一系列基因的表达变化。

15.png


1692259527177992.png


16.png


可以通过点击下图的“示例”按钮进行示例文件的下载,查看输入数据格式:


4.png

云平台数据输入


数据矩阵:文件必须是.txt后缀的UTF-8纯文本。每一行是一个特征,每一列是一个样本,列之间用制表符(Tab )分隔。其中,第一列是特征名称,第一行是样本名称,必须包含样本分组文件中所有样本,且必须包含基因分组文件中所有基因。


1692259569936529.png

样本分组文件必须是.txt后缀的UTF-8纯文本。第一列样本名,用于指定需要分析的样本;第二列及之后的列都是样本分组,第一行为表头,列之间用制表符(Tab键 )分隔。文件至少一列,当只有一列样本名时,只用于指定需要绘制的样本及样本顺序。样本可以比表达量矩阵少,缺失分组信息的样本,分组用 UNKNOWN 代替。默认绘制所有样本。



1692259603146086.png

特征分组文件必须是.txt后缀的UTF-8纯文本。第一列特征名,用于指定需要分析的特征;第二列及之后的列都是特征分组,有表头,列之间用制表符(Tab )分隔。文件至少一列,当只有一列特征名时,只用于指定需要绘制的特征及特征顺序。特征可以比表达量矩阵少,缺失分组信息的特征,分组用 UNKNOWN 代替。默认绘制所有特征。

1692259646122996.png


17.png


(以示例数据为例)

上传完成后,自动开始分析,等待十几秒即可完成。分析完成后即可预览、下载分析结果高清图。

1692259674184811.png

运行完成示意图


18.png


1692259700154884.png


运行结果一览


heatmap.pdf:
横轴是样本,纵轴是特征
图中色块根据色彩变化尺显示表达值高低

上方树形图为样本聚类结果,左侧树形图为特征聚类结果


19.png


5.1归一化方式

正如我们所知,热图是利用颜色变化来直观地展示数值的变化。但如果绘制热图的数据差异过大,那么在绘制热图时,两个特征在不同样本中表达的微小变化很难通过颜色反映出来。所以,在绘制热图前,我们通常会对表达数据进行归一化。我们提供了三种归一化方式:

none:  不对数据进行归一化处理

row:   按行进行数据归一化

column: 按列进行数据归一化

一般来说,一个特征在不同样本间的表达分布会在热图的行方向上进行展示,所以为了展示一个特征在不同样本间的分布,我们选择按行进行归一化,即row


5.2聚类参数

当需要观察样本/特征如何分类,相关关系如何,那么可以选择聚类。我们提供的选择有:仅在样本水平聚类,仅在特征水平聚类或两者都进行。

样本聚类,即列聚类,可以观察采集的不同组别的样本是否被分类到一起。

特征聚类,即行聚类,可以观察具有相似表达模式的基因集群。

同时,如果选择聚类,我们提供了多种行/列距离算法及行/列分层聚类算法,可根据实际需求进行选择。

热图工具共提供9种距离算法:欧氏距离(euclidean), 最大距离(maximum), 曼哈顿距离(manhattan), Canberra 距离(canberra), 二进制距离(binary),明可夫斯基距离 (minkowski), 皮尔逊相关系数(pearson), Spearman 相关系数(spearman), Kendall 相关系数(kendall)

热图工具共提供8种聚类算法:ward最小方差法(ward.Dward.D2)、最短距离法(single)、最长距离法(complete)、类平均法(average)、相似法(mcquitty)、中间距离(median)、重心法(centroid)

如果预先设定好的样本排序或特征排序具有生物学意义,并且想在最终的图片中呈现,通常选择不聚类。


1692259728178519.png


5.3分组图例显示顺序

如果需要指定样本或特征在分组图例中的显示顺序,我们提供了对应参数选项:
ASCII: 图例默认按ASCII码排列显示分组名称
input_order: 图例按分组名称在分组文件中出现的顺序排列显示
如果不指定,默认按ASCII码对分组名称进行排序显示

             

5.4配色的指定

5.4.1 色彩变化尺颜色指定
可自行选择热图绘制所使用的色彩变化尺颜色,可以通过两种方式进行指定:
(一)从所提供的的几种颜色模板中选择色彩变化尺的配色。


1692259753168098.png


(二)自定义热图色彩变化尺,需要使用6位的十六进制颜色代码。多个颜色之间用英文逗号分隔,至少三种颜色。

1692259784206046.png

5.4.2 分组颜色指定
可自定义样本分组文件/特征分组文件第二列,即第一个分组对应的颜色,使用6位十六进制颜色代码,颜色个数不能少于分组中亚组的个数。当指定颜色个数多于亚组个数时,就前读取,多种颜色用英文逗号隔开。如果不进行颜色指定,则随机选取颜色。


1692259809156929.png

5.5优化结果

1692259838528500.png


20.png


输入文件必须是.txt后缀的UTF-8纯文本,列之间用制表符(Tab键 )分隔。


21.png


[1] Gu Z, Eils R, Schlesner M. Complex heatmaps reveal patterns and correlations in multidimensional genomic data. Bioinformatics. 2016 Sep 15;32(18):2847-9. doi: 10.1093/bioinformatics/btw313. Epub 2016 May 20. PMID: 27207943.
[2] Gu Z, Gu L, Eils R, Schlesner M, Brors B. circlize Implements and enhances circular visualization in R. Bioinformatics. 2014 Oct;30(19):2811-2. doi: 10.1093/bioinformatics/btu393. Epub 2014 Jun 14. PMID: 24930139.

往期相关链接:

1、天昊云

三分钟绘制一张优美的PCoA图 | 天昊云

2、R基础篇

excel不熟练怎么办,R来帮您(一)数据分类汇总
如何使用Rstudio练习R基础教程
R相关软件及R包安装
【零基础学绘图】之气泡图绘制(六)
【零基础学绘图】之绘制venn图(五)
【零基础学绘图】之绘制barplot柱状图图(四)
【零基础学绘图】之绘制heatmap图(三)
【零基础学绘图】之绘制PCA图(二)
【零基础学绘图】之alpha指数箱体图绘制(一)

3、R进阶

【绘图进阶】之lefse定制化绘图(五)

【绘图进阶】之六种带中心点的PCA 图和三维PCA图绘制(四)

【绘图进阶】之交互式可删减分组和显示样品名的PCA 图(三)

【绘图进阶】之绘制PCA biplot图(二)

【进阶篇绘图】之带P值的箱体图、小提琴图绘制(一)

4、数据提交

3分钟学会微生物多样性云平台数据分析;

3分钟学会CHIP-seq类实验测序数据可视化 —IGV的使用手册

10分钟搞定多样性数据提交,最快半天内获取登录号,史上最全的多样性原始数据提交教程

20分钟搞定GEO上传,史上最简单、最详细的GEO数据上传攻略

5、表达谱分析

表达谱分析(二)通路富集分析和基因互作网络图绘制
如何对GEO数据进行差异分析
miRNA靶基因预测软件__miRWalk 3.0

6、医学数据分析

KING: 样本亲缘关系鉴定工具
【WGS服务升级】人工智能软件SpliceAI助力解读罕见和未确诊疾病中的非编码突变
隐性疾病trio家系别忽视单亲二倍体现象——天昊数据分析助力临床疾病诊断新添UPD(单亲二倍体)可视化分析工具
【昊工具】Oh My God! 太好用了吧!疾病或表型的关键基因查询数据库,我不允许你不知道Phenolyzer


咨询沟通请联系

1692259937974262.png

18964693703(微信同号)

官方网址:http://www.geneskybiotech.com






上海昊为泰生物科技有限公司 版权所有 沪ICP备18028200号-1
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886