差異檢定之生物統計策略及基本觀念


生物領域研究常是比較多組間是否有顯著差異
本篇文章介紹使用統計軟體時採用的策略及一定要知道基本觀念
其實要注意的細節很多,但為了要讓大家可以先有個簡單的概念
所以這裡就只以單因子變異數分析(one-way ANOVA)為例
舉例來說就是比較 A、B、C、D 四組動物的採食量之平均值有沒有顯著差異

在要使用哪種統計方法之前需要檢測你的資料是否符合一些假設 1.各組資料是否皆為常態分佈 2. 各組資料變異數是否同質性
以下詳細介紹

  1. 各組資料是否皆為常態分佈
    也就是常態性檢定,其要求每組資料所對應的母體都應該要符合常態分佈。
    舉例來說,A、B、C、D 四組動物的採食量數值皆為常態分佈
    要知道資料有沒有符合常態分佈,常用的統計方法有三種
    (1) Shapiro-Wilk 常態性檢定
    適用於小樣本(3<n<50),對峰型偏移很敏感,有些微偏離常態分佈就會被拒絕。
    (2) K-S 常態性檢定
    適用於大樣本(>50)
    上述兩者的檢定方法的虛無假設(H0)都是資料符合常態分佈,所以 P < 0.05 則不符合常態分佈。
    舉例來說,下圖以 Shapiro-Wilk 常態性檢定四組 p-value 皆大於 0.05,所以皆符合常態分佈的假設。

    (3) Q-Q 圖檢定常態性
    這方法是以作圖判斷資料常態性,如下圖

如果有四組的話就會有四張圖喔,縱軸是資料的數值,橫軸是對應之資料標準化數值(將資料修正成平均值為 0,標準差為 1)
判斷方式為資料的分布是否接近 45 度角,像這張看起來就是有接近,則可判斷為常態分佈

  1. 各組資料變異數是否同質性
    變異數同質性假定要求各組資料的母體變異數必須相等。
    常用檢定方法有兩種:
    (1) 圖形檢定
    檢定變異數同質性可以使用盒鬚圖,判斷各組資料離散程度是否接近,還有沒有離異值。
    如下圖,橫軸為不同組別,縱軸為觀測值,大致看分布情況差不多,第 2 組有兩個離異值,需要注意可能會影響同質性。

(2) Levene 變異數同質性檢定
該方法虛無假說為各組資料滿足變異數同質性

如上圖,p-value 為 0.4858,大於 0.05,無法拒絕 H0,
故各組符合變異數同質性。
看完自己的資料是否符合以上兩種假設後才可以來選擇適合的差異統計方法
第一個會用到假設是常態性檢定,
符合常態分佈的資料才可以進行變異數分析(ANOVA),
不符合則需要使用無母數檢定或是將資料轉形成符合常態分佈,
後者難度較高,通常都直接選擇無母數檢定,稍後再介紹。
使用 ANOVA 會得到類似的表格

其虛無假說為各組間平均值皆相等,該表檢定的 P 值為 0.00879,因此拒絕 H0,
代表至少有兩組是有顯著差異。
而要知道哪些組別間有顯著差異則需要進行事後檢定 (post hoc tests),
有很多種方式,這裡就不多介紹了,
不同種都有其適合的情況,可以參考以下連結介紹
有個很重要的觀念要說,如果 P > 0.05,表示各組間沒有顯著差異,
這時不能就直接往下做事後檢定,因為前提不成立的情況下是不能執行的。
可以改採 t-test,兩兩比較,但需要注意第一型錯誤(偽陽性率)會提高,
也就是沒有差異但誤判為有差異的情況。
而第二個假設的同質性檢定,在變異數分析中,對其要求是相對較寬鬆的,
各組間變異數略有不同時,對分析結果影響不太大
特別是當各組裡的樣本相同時,不相等的變異數對 ANOVA 是較無影響的。
但其實還是有統計方法是修正不同變異數的影響的,這裡也是不多作介紹。
其實在自然界多數情況下,很多觀測值都不是常態分佈,
這時就會轉而採用無母數統計方法,其就沒有需要符合常態分佈這項假設了。
虛無假設不是以平均值是否有差異,
而是將數值以排序(rank)表示,改成以中位數是否有差異。
這裡介紹兩種無母數對應的 one-way ANOVA 方法

  1. Kruskal–Wallis 檢定
    適用各組變異數符合同質性,對應的事後檢定方法為 Dunn Post Hoc test 檢定

  2. Welch’s anova
    是用各組變異數不相等時,對應的事後檢定為 Games-Howell 檢定
    判別方法都跟 ANOVA 一樣,都會給 p-value,判斷多組間是否有差異。
    如下圖,以 Kruskal–Wallis 檢定,得到 P < 0.05,四組中至少有兩組有差異。

事後檢定以 Dunn Post Hoc test 檢定,可以知道 A-C 和 B-D 間沒有差異,其餘皆有顯著差異。

這篇希望能夠讓對生物統計很困擾的人對統計有點概念,
還有一個觀念要讓大家知道,
統計分析的本質是從資料中找出結論,從資料中尋找啟發,而不是尋找支持。
真正的統計分析事先是沒有結論的,透過對資料的分析才得出結論

以上的範例皆以 R 語言得出

參考書籍與來源

網路文章

多組非常態分佈資料之差異檢定與事後比較
用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)
多重比較分析檢定

書籍

生物統計學:如何選擇與應用
統計學:基於 R 的應用


Author: Hung-Lin, Chen
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source Hung-Lin, Chen !
 Previous
我也想活在和諧的1984年 我也想活在和諧的1984年
二戰結束之後世界合併成三個國家, 分別是大洋國、歐亞國、東亞國。 男主所在的時代是 1984 年的大洋國,位置大概是整個美洲, 這是一個非常和諧的社會主義國家, 黨有三個口號: 自由即奴役、戰爭即和平、無知即力量,
2019-02-28
Next 
2019中興大學研究所生物資訊課程 2019中興大學研究所生物資訊課程
雖然標題這樣寫,進來的人應該已經挑選過了, 但還是再說一次,以下介紹都是給有熱於學習的人看的, 如果是想看是不是涼課的,可能給到的建議會不多。
2019-02-05
  TOC