關於我自己

我的相片
新北市新店, Taiwan
老來蟄居於離水岸不遠的鄉居,傍晚常於新店溪畔迤邐而行,"晝伏而暮出",可稱「蟄居老叟」。

和美山遠眺碧潭

和美山遠眺碧潭

2020/06/30

說三道四話統計—相關分析(correlation analysis)


雖是已退休多年,但仍不時有昔日學生捎來一些「難題」,測試我這蟄居老叟是不是還心清腦明,看來科學的進展雖是驚人,但是「難題」的困擾卻仍舊"守恆"得很呵!這次就先來話說"correlation coefficient"的「結」吧!
當研究者要比較兩組或三組以上樣本的「平均數(mean)」是否有顯著差異時,一般都會用t-test ANOVA和「事後比較檢定(post hoc test)」進行多重比較(multiple comparisons)來檢定,檢定結果則以p值是否小於選定的顯著水準(p0.05)來判斷;若p值小於0.05顯著水準,就標記一個星號(*),表示平均數之間有"顯著"差異;若p值小於0.010.001顯著水準,則分別標記二個星號(**)或三個星號(***),表示平均數之間有"極顯著"差異。
上面的統計分析方法大家都懂也都會用,於是許多研究者就「舉一反三」,於進行積差相關(Pearson product-moment correlation)統計來探討兩個變項的線性關係時,計算出相關係數(coefficient of correlation, r)後,也依樣畫葫蘆,查一下顯著性,然後在研究報告的統計結果分析表上,達顯著水準r值,分別標記星號(*)(**)(***),並加上*p<0.05, **p<0.01, ***p<0.001*顯著,**極為顯著,***非常顯著〉的註記。雖然這是許多研究者常用之表達"相關(correlation)"統計分析結果的方式,但是這樣做,你有沒有發現,在同一論文中,有可能r=0.44,標註p0.05r=0.21,卻標註p0.01,亦即較大的r是「顯著」,較小的r卻是「極為顯著」,你不覺得很奇怪嗎?
相關係數(r)上標註星號(*)(**)(***),加上*p<0.05**p<0.01***p<0.001有必要嗎?這樣做代表什麼意義?有沒有比較合宜的詮釋方式?這是一項頗值得仔細思量的議題
每一種統計方法都有其基本假定和應用的情境與竅門,做為一位研究者,雖然你不一定要是統計專家,但至少應該要知道這些基本假定和應用的情境,才不會誤用統計方法,甚至錯誤的解釋統計結果。下面就列出一些在進行「相關分析(correlation analysis)」時,值得深思討論的議題。
1. 「相關分析」是用來檢驗兩個變項之間是否有線性關係的統計方法,那麼相關係數(r)α=0.05 (0.01, 0.001)顯著水準是什麼意思?
研究生通常都不太會深入思索這個問題,因為用電腦跑SPSSSAS很方便,分析結果就在"十指"之間,只要將結果抄下來就好,該思考的問題,套裝軟體都幫你想好了,於是軟體的使用者就愈來愈不需要想以致不曉得怎麼想了!
一般進行「實徵研究(empirical research)」時,由於無法直接證明某項陳述(statement)為真,所以必須進行統計上的「假設考驗(hypothesis test)」,藉拒絕「虛無假設(null hypothesis, H0)」,來推論「對立假設(alternative hypothesis, H1)」可能為真。
在實務面,研究者大都習慣以「虛無假設(H0)」做為論文的「研究假設(research hypothesis)」,然後再以統計方法考驗「虛無假設」是否為真?在進行相關研究(correlational research)的過程中,H0的陳述通常是「X, Y兩個變項沒有線性關係」,若「假設考驗」的結果達到統計上的顯著水準(p0.05p0.01),表示拒絕(reject)H0,而接受(accept)與其對立的「對立假設(H1)」,即「X, Y兩個變項有線性相關」。其實p值是依據統計值推估H0為真的機率值(probability),它的"比較對象"是顯著水準(α)(α=0.050.01, 0.001),是在統計的過程中,做為判定拒絕H0、接受H1的數值。p值愈小,表示檢定的結果(統計值)愈顯著,也顯示"拒絕H0、接受H1"的可靠性愈大。
2. 研究者進行「相關分析」時,求得的相關係數(r)若達顯著水準,便會註記星號(*) (p0.05)那麼r是跟"什麼"比較,達到顯著水準?
t-test是在比較兩個「平均數」是否有顯著差異,比較的結果若達顯著水準(p<0.05),表示兩者在統計上有顯著差異,而拒絕了「兩個平均數沒有顯著差異」的「虛無假設H0」。那麼,相關分析所得之相關係數(r),在進行顯著性考驗時的"比較對象"為何?這是很多研究者平常不太會去注意的問題,因為跑完SPSS,列出的r便已註明是否達顯著水準,甚至還註記了p<0.050.010.001,研究者只要照抄下來即可,哪還需費心去思考「r是跟"什麼"比較達到顯著水準?」這件無關痛癢的事!
進行「相關統計分析」時,r的大小需經顯著性考驗來檢定是否達顯著水準,顯著性考驗(SPSS的統計分析程序)檢定的是H0 (無相關或r=0),所以,在統計分析的過程中,相關係數(r)是跟r=0 (無相關)比較,若達顯著水準,代表r值和r=0有顯著差異,亦即表示在統計的意義上,兩個變項之間有線性相關存在。
3. 撰寫研究報告時,相關係數(r)需要標記一個星號(*)(p0.05)兩個星號(**)(p0.01)或三個星號(***)(p0.001)嗎?
在相關(correlation)的推論統計中,相關係數(r)的顯著性與樣本數的大小有關。若樣本數小(N=25),縱使r並不小,但仍可能未達顯著水準;若樣本數大(N=300),即使r很小,也可達到統計上的顯著水準。正如前述,你可能會發現,在同一研究報告中,有可能r=0.44,標上p0.05r=0.21,卻標上p0.01,亦即r較大的是「顯著」,r較小的卻是「極為顯著」!因此,相關係數(r)標記一個星號(*)(p0.05)兩個星號(**)(p0.01)和三個星號(***)(p0.001),並加上*顯著、**極為顯著、***非常顯著〉的註記不但沒有什麼意義,甚至還可能讓論文讀者產生誤解。假若要標註顯著水準,建議也僅擇一顯著水準(p0.05)標註就好,不宜在研究結果分析表上,同時標記(*)(**)(***)
4. 詮釋相關係數(r)需要特別小心注意的事!
在解釋相關係數(r)有多大意義時,假若樣本數(N)的大小還算合理,除了解釋兩個變項是否有顯著相關(r是否達顯著水準)外,更重要的是要看r的大小,因為r的大小顯示了兩個變項之間線性關係的強弱程度。通常我們可以依據下表來解釋:
Coefficient ( r )
Interpretation
0.000.20
Indifferent, Negligible Relationship
0.200.40
Low Correlation
0.400.70
Substantial, Marked Relationship
0.701.00
High, Significant Relationship
此外兩個變項之間相關的強弱是取決於決定係數(Coefficient of Determination, r2),即相關係數的平方,而不是r註記的星號(*)數,也就是說標記三個星號(***)(p0.001)r的相關性,並不見得一定就比標記一個星號(*)(p0.05)r的相關性決定係數(r²)顯示這兩個變項共有的"變異量" (amount of variance common to the two measures)所佔的比率,例如:假若X變項與Y變項的相關r=0.60 (p<0.05)表示XY變項間有顯著的正相關;而決定係數=0.36,表示兩個變項共有的"變異量"36%,亦即Y變項的變異量中,可被X變項解釋的變異量達36%,反之亦然。
最後,還需要特別小心的是,詮釋相關係數時,達顯著相關只是顯示兩個變項有共變的現象("變異量"有部分重疊),千萬不可做任何因果關係的推論。
祝大家  統計順手!研究順心!
蟄居老叟@新店科芬園 (2020.06.30.)


沒有留言:

張貼留言