咨询热线:400-065-6886
首页>>技术支持>>科研进展

KING: 样本亲缘关系鉴定工具


生信团 上海天昊生物 
 

前言

 


全外显子测序中重要的步骤就是遗传分析,可以针对家系或者散发样本,按照相应的遗传模型来筛选候选基因。但是如果他们亲缘关系有误,比如无关样本中混入有血缘关系的样本,或者理论上有血缘关系的样本实际上没有关系等等都必然会导致后续遗传分析假阳性或者假阴性。样本亲缘关系不对通常可能是由以下几个原因导致:1. 取样有问题2.实验过程中样本搞错3.分析时样本相互标错。在外显子测序分析中,为了避免以及及时发现这些错误,我们可以使用KING软件,基于样本的突变检测结果,对他们进行亲缘关系鉴定。
 

 

功能



基于基因型数据,计算样本间亲缘关系系数,可以根据相应的系数范围来判断样本之间的亲缘关系。 
软件下载链接:
King  http://people.virginia.edu/~wc9c/KING/Download.htm ; 
Plink2  https://www.cog-genomics.org/plink/2.0/ 
可根据需要下载相应的版本。

 

 

使用方法


1. 文件准备
   全外显子测序结果的vcf格式压缩文件


2. 运行
   1) 二进制文件转换,此步骤需要plink软件完成。
   “Plink2  --vcf  A.vcf.gz  --make-bed  --out A”
   结果生成A.bed , A.bim以及A.fam
   2) 关系系数计算
   “King  -b  A.bed  --kindship  --prefix  relationShip ”

 

 

结果

 


FID 表示family ID, ID 是个体ID,两者组合可以表示一个唯一个体。
Kindship是亲缘关系系数,可用于判断两个个体间的亲缘关系。
 

 

 

结果可视化


首先需要将上一步骤生成的文件进行转换,手动转换成如下图矩阵的形式,并保存成文本格式,这里定义成“relationship.txt”用于后面绘图。
 

亲缘关系系数绘图使用的是R pairs() 函数,具体如下:


relation=read.table("relationship.txt",sep=" ",header=T,row.name=1,check.names=F)
relation=as.matrix(relation)
relation
   ZD MU FU
ZD 1 0.2525 0.2498
MU NA 1.0000 0.0010
FU NA NA 1.0000
pdf("relationship.pdf")
panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...){usr <- par("usr"); on.exit(par(usr)); par(usr = c(0, 1, 0, 1)); z=x[!is.na(y)]; txt=as.numeric( sprintf( "%0.4f", z[length(z)] ) ); if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt); color=1; if(txt>=0.354) color=2; if(txt>=0.177 && txt<0.354) color=3; if(txt>=0.0884 && txt<0.177) color=4; if(txt>=0.0442 && txt<0.0884) color=5; text(0.5, 0.5, txt, cex = cex.cor,col=color)}
pairs(relation,lower.panel = NULL,font.labels = 2,main="Sample Relationship (Based On King software)",upper.panel = panel.cor)
info=c(">0.354     = duplicate/MZ twin ", "[0.177, 0.354]     =, 1st-degree ", "[0.0884, 0.177]     = 2nd-degree ", "[0.0442, 0.0884]     = 3rd-degree ")
mtext(info,side=1,adj=0,cex=1.3,line=c(-4,-2,0,2),col=c(2,3,4,5))
dev.off()
null device

     


图中为三口之家,MUFU分别为ZD的母亲与父亲,母亲与父亲之间无血缘关系
duplicate/MZ twin : 重复个体或者同卵双胞胎。关系判断阈值[>-0.354]
1st-degree(一级亲属):一个人的父母、子女以及亲兄弟姐妹。关系判断阈值[0.177-0.354]
2nd-degree(二级亲属):一个人和他的叔、伯、姑、舅、姨、祖父母、外祖父母。关系判断阈值[0.0884-0.177]
3rd-degree(三级亲属):表兄妹或堂兄妹。关系判断阈值[0.0442-0.0884]


参考文献:
Manichaikul A, Mychaleckyj JC, Rich SS, Daly K, Sale M, Chen WM (2010) Robust relationship inference in genome-wide association studies. Bioinformatics 26(22):2867-2873

 

往期相关链接:

1、R基础篇

2、R进阶

【绘图进阶】之交互式可删减分组和显示样品名的PCA 图(三)

【绘图进阶】之绘制PCA biplot图(二)

【进阶篇绘图】之带P值的箱体图、小提琴图绘制(一)

3、数据提交

3分钟学会微生物多样性云平台数据分析;

3分钟学会CHIP-seq类实验测序数据可视化 —IGV的使用手册

10分钟搞定多样性数据提交,最快半天内获取登录号,史上最全的多样性原始数据提交教程

20分钟搞定GEO上传,史上最简单、最详细的GEO数据上传攻略

4、表达谱分析

5、医学数据分析

【WGS服务升级】人工智能软件SpliceAI助力解读罕见和未确诊疾病中的非编码突变

隐性疾病trio家系别忽视单亲二倍体现象——天昊数据分析助力临床疾病诊断新添UPD(单亲二倍体)可视化分析工具

【昊工具】Oh My God! 太好用了吧!疾病或表型的关键基因查询数据库,我不允许你不知道Phenolyzer

 

 

【本群将为大家提供】

分享生信分析方案

提供数据素材及分析软件支持

定期开展生信分析线上讲座

QQ号:1040471849

 
 

作者:大猫

审核:有才

来源:天昊生信团

 

 

微信扫一扫
关注该公众号

 

 




上海昊为泰生物科技有限公司 版权所有 沪ICP备18028200号-1
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886