想做生信分析,然而看不懂图……该怎么办?!还不快跟上小编的步伐!前两期我们解读了【火山图】【热图】的定义、用途和具体案例等,今天,我们接着来解读【箱线图】~
导读
1.箱线图的定义&用途
2.结合具体案例怎么看?
3.箱线图适合用于展示哪些数据?
4.箱线图的衍生图有哪些类型?
01
箱线图的定义&用途
定义
箱线图(Boxplot)又称为箱形图、盒须图或盒式图,一种用于展示一组或多组数据分散情况的统计图。
用途
展示数据的集中趋势:箱线图的中位数反映数据集中趋势。若中位数在箱体中心,数据分布对称;若不在中心,则数据偏斜。
展示数据的分散程度:箱体的长度(即Q3与Q1的间距)展示了数据的分散程度,箱体长度越长,说明数据越分散。
显示异常值:箱线图延伸出去的须表示正常范围内的最大值与最小值,超出正常范围的数据点则是异常值(用星号或圆点表示)。
显示数据的对称性与偏态:若箱体与须线长度均匀,数据分布对称;若须线长短不一或箱体偏斜,则数据分布呈现偏态。
02
结合具体案例怎么看?
①横坐标:样本组
②纵坐标:乳酸化水平的平方根变换
③IQR(四分位距):是统计离散度的度量,IQR=Q3-Q1
④Max值(Q3+1.5IQR):正常范围内,数据的最大值
⑤Q3(第三四分位数):位于75%的数据点(有75%的数据小于该值)
⑥Q2(中位数):位于50%的数据点,即将数据分为两部分的中心值
⑦Q1(第一四分位数):位于25%的数据点(有25%的数据小于该值)
⑧Min值(Q1-1.5IQR):正常范围内,数据的最小值
⑨异常值:超出正常范围的数据点(Max值~Min值之间理论上为正态分布的99.3%置信区间)
⑩P值<2x10^-16(经FDR方法修正),Kruskal-Wallis检验(X^2=2619.7,自由度(df)=2),随后进行成对Wilcoxon秩和检验
案例解读
HH12+的NCCs一旦在胚胎头部广泛迁移,其平均乳酸化水平就会下降。
03
箱线图适合用于展示哪些数据?
箱线图适用于连续型变量,不适用于离散型变量(但只有一个连续型变量时,更适合使用直方图)。
当数据中存在超大或超小异常值时,箱线图可能呈现扁平形态或只剩一线,此时不适合使用箱线图。
数据中存在大量异常值时,箱线图形状可能很奇怪,不适合使用。
箱线图最适合用于比较,结合定性数据,绘制分组箱线图。
04
箱线图的衍生图有哪些类型?
①差异检验箱线图
②分组箱线图
③箱线图+小提琴图
④箱线图+小提琴图+散点
⑤分半箱线图+分半小提琴图+散点
以上就是今天关于【箱线图】的相关内容,继续期待下期【文献读图】的精彩内容吧~
声明:本文提供的部分资料综合整理自网络,仅供学习和研究使用。如有侵权,请联系我们删除~
END