绘制一张优美的Heatmap图|云平台

原创生信部上海天昊生物

天昊云官网：

http://cloud.geneskybiotech.com/

Heatmap 图绘制：（可点击最下方阅读原文）

http://cloud.geneskybiotech.com/#/tools/all/Heatmap

示例图

热图是由多个小色块组合而成，每一个小色块都代表一个数值，根据给定色彩变化尺给每一个数值色块分配颜色。

数值可能会有较大差异，跨越几个数量级，因此通常会给数值取对数或者Z-score，使色彩变化尺处于个位数。

聚类是利用多组值间两两的差异程度或者相似程度作为依据，对多组值进行层析聚类，以最终得到样本间聚类的远近关系。

一般，样本来自于同一个组，组内样本间的特征相似，在进行聚类的时容易被聚在一起。

基因聚类可以观察到基因之间的关系，因为基因的上下游调控会导致连锁反应，一个基因的表达增加或减少可能会带动一系列基因的表达变化。

可以通过点击下图的“示例”按钮进行示例文件的下载，查看输入数据格式：

云平台数据输入

数据矩阵：文件必须是.txt后缀的UTF-8纯文本。每一行是一个特征，每一列是一个样本，列之间用制表符(Tab键 )分隔。其中，第一列是特征名称，第一行是样本名称，必须包含样本分组文件中所有样本，且必须包含基因分组文件中所有基因。

样本分组：文件必须是.txt后缀的UTF-8纯文本。第一列样本名，用于指定需要分析的样本；第二列及之后的列都是样本分组，第一行为表头，列之间用制表符(Tab键 )分隔。文件至少一列，当只有一列样本名时，只用于指定需要绘制的样本及样本顺序。样本可以比表达量矩阵少，缺失分组信息的样本，分组用 UNKNOWN 代替。默认绘制所有样本。

特征分组：文件必须是.txt后缀的UTF-8纯文本。第一列特征名，用于指定需要分析的特征；第二列及之后的列都是特征分组，有表头，列之间用制表符(Tab键 )分隔。文件至少一列，当只有一列特征名时，只用于指定需要绘制的特征及特征顺序。特征可以比表达量矩阵少，缺失分组信息的特征，分组用 UNKNOWN 代替。默认绘制所有特征。

（以示例数据为例）

上传完成后，自动开始分析，等待十几秒即可完成。分析完成后即可预览、下载分析结果高清图。

运行完成示意图

运行结果一览

heatmap.pdf:

横轴是样本，纵轴是特征

图中色块根据色彩变化尺显示表达值高低

上方树形图为样本聚类结果，左侧树形图为特征聚类结果

5.1归一化方式

正如我们所知，热图是利用颜色变化来直观地展示数值的变化。但如果绘制热图的数据差异过大，那么在绘制热图时，两个特征在不同样本中表达的微小变化很难通过颜色反映出来。所以，在绘制热图前，我们通常会对表达数据进行归一化。我们提供了三种归一化方式：

none: 不对数据进行归一化处理

row: 按行进行数据归一化

column: 按列进行数据归一化

一般来说，一个特征在不同样本间的表达分布会在热图的行方向上进行展示，所以为了展示一个特征在不同样本间的分布，我们选择按行进行归一化，即row。

5.2聚类参数

当需要观察样本/特征如何分类，相关关系如何，那么可以选择聚类。我们提供的选择有：仅在样本水平聚类，仅在特征水平聚类或两者都进行。

样本聚类，即列聚类，可以观察采集的不同组别的样本是否被分类到一起。

特征聚类，即行聚类，可以观察具有相似表达模式的基因集群。

同时，如果选择聚类，我们提供了多种行/列距离算法及行/列分层聚类算法，可根据实际需求进行选择。

热图工具共提供9种距离算法：欧氏距离(euclidean), 最大距离(maximum), 曼哈顿距离(manhattan), Canberra 距离(canberra), 二进制距离(binary),明可夫斯基距离 (minkowski), 皮尔逊相关系数(pearson), Spearman 相关系数(spearman), Kendall 相关系数(kendall)。

热图工具共提供8种聚类算法：ward最小方差法(ward.D、ward.D2)、最短距离法(single)、最长距离法(complete)、类平均法(average)、相似法(mcquitty)、中间距离（median）、重心法(centroid)。

如果预先设定好的样本排序或特征排序具有生物学意义，并且想在最终的图片中呈现，通常选择不聚类。

5.3分组图例显示顺序

如果需要指定样本或特征在分组图例中的显示顺序，我们提供了对应参数选项：

ASCII: 图例默认按ASCII码排列显示分组名称

input_order: 图例按分组名称在分组文件中出现的顺序排列显示

如果不指定，默认按ASCII码对分组名称进行排序显示

5.4配色的指定

5.4.1 色彩变化尺颜色指定

可自行选择热图绘制所使用的色彩变化尺颜色，可以通过两种方式进行指定：

（一）从所提供的的几种颜色模板中选择色彩变化尺的配色。

（二）自定义热图色彩变化尺，需要使用6位的十六进制颜色代码。多个颜色之间用英文逗号分隔，至少三种颜色。

5.4.2 分组颜色指定

可自定义样本分组文件/特征分组文件第二列，即第一个分组对应的颜色，使用6位十六进制颜色代码，颜色个数不能少于分组中亚组的个数。当指定颜色个数多于亚组个数时，就前读取，多种颜色用英文逗号隔开。如果不进行颜色指定，则随机选取颜色。

5.5优化结果

输入文件必须是.txt后缀的UTF-8纯文本，列之间用制表符(Tab键 )分隔。

[1] Gu Z, Eils R, Schlesner M. Complex heatmaps reveal patterns and correlations in multidimensional genomic data. Bioinformatics. 2016 Sep 15;32(18):2847-9. doi: 10.1093/bioinformatics/btw313. Epub 2016 May 20. PMID: 27207943.

[2] Gu Z, Gu L, Eils R, Schlesner M, Brors B. circlize Implements and enhances circular visualization in R. Bioinformatics. 2014 Oct;30(19):2811-2. doi: 10.1093/bioinformatics/btu393. Epub 2014 Jun 14. PMID: 24930139.

往期相关链接：

1、天昊云

三分钟绘制一张优美的PCoA图 | 天昊云；

2、R基础篇

excel不熟练怎么办，R来帮您（一）数据分类汇总；

【零基础学绘图】之绘制barplot柱状图图（四）；

【零基础学绘图】之绘制heatmap图（三）；

【零基础学绘图】之绘制PCA图（二）；