雖是已退休多年,但仍不時有昔日學生捎來一些「難題」,測試我這蟄居老叟是不是還心清腦明,看來科學的進展雖是驚人,但是「難題」的困擾卻仍舊"守恆"得很呵!這次就先來話說"correlation coefficient"的「結」吧!
當研究者要比較兩組或三組以上樣本的「平均數(mean)」是否有顯著差異時,一般都會用t-test 或ANOVA和「事後比較檢定(post hoc
test)」進行多重比較(multiple comparisons)來檢定,檢定結果則以p值是否小於選定的顯著水準(如p<0.05)來判斷;若p值小於0.05顯著水準,就標記一個星號(*),表示平均數之間有"顯著"差異;若p值小於0.01或0.001顯著水準,則分別標記二個星號(**)或三個星號(***),表示平均數之間有"極顯著"差異。
上面的統計分析方法大家都懂也都會用,於是許多研究者就「舉一反三」,於進行積差相關(Pearson product-moment correlation)統計來探討兩個變項的線性關係時,計算出相關係數(coefficient of correlation, r)後,也依樣畫葫蘆,查一下顯著性,然後在研究報告的統計結果分析表上,達顯著水準的r值,分別標記星號(*)、(**)、(***),並加上〈*p<0.05, **p<0.01, ***p<0.001〉或〈*顯著,**極為顯著,***非常顯著〉的註記。雖然這是許多研究者常用之表達"相關(correlation)"統計分析結果的方式,但是這樣做,你有沒有發現,在同一論文中,有可能r=0.44,標註p<0.05,但r=0.21,卻標註p<0.01,亦即較大的r是「顯著」,較小的r卻是「極為顯著」,你不覺得很奇怪嗎?
在相關係數(r)上標註星號(*)、(**)、(***),加上〈*p<0.05、**p<0.01、***p<0.001〉有必要嗎?這樣做代表什麼意義?有沒有比較合宜的詮釋方式?這是一項頗值得仔細思量的議題!
每一種統計方法都有其基本假定和應用的情境與竅門,做為一位研究者,雖然你不一定要是統計專家,但至少應該要知道這些基本假定和應用的情境,才不會誤用統計方法,甚至錯誤的解釋統計結果。下面就列出一些在進行「相關分析(correlation analysis)」時,值得深思討論的議題。
1. 「相關分析」是用來檢驗兩個變項之間是否有線性關係的統計方法,那麼相關係數(r)達α=0.05
(或0.01, 0.001)顯著水準是什麼意思?
研究生通常都不太會深入思索這個問題,因為用電腦跑SPSS或SAS很方便,分析結果就在"十指"之間,只要將結果抄下來就好,該思考的問題,套裝軟體都幫你想好了,於是軟體的使用者就愈來愈不需要想以致不曉得怎麼想了!
一般進行「實徵研究(empirical research)」時,由於無法直接證明某項陳述(statement)為真,所以必須進行統計上的「假設考驗(hypothesis
test)」,藉拒絕「虛無假設(null hypothesis, H0)」,來推論「對立假設(alternative hypothesis, H1)」可能為真。
在實務面,研究者大都習慣以「虛無假設(H0)」做為論文的「研究假設(research hypothesis)」,然後再以統計方法考驗「虛無假設」是否為真?在進行相關研究(correlational
research)的過程中,H0的陳述通常是「X, Y兩個變項沒有線性關係」,若「假設考驗」的結果達到統計上的顯著水準(p<0.05或p<0.01),表示拒絕(reject)了H0,而接受(accept)與其對立的「對立假設(H1)」,即「X, Y兩個變項有線性相關」。其實p值是依據統計值推估H0為真的機率值(probability),它的"比較對象"是顯著水準(α)(如α=0.05或0.01, 0.001),是在統計的過程中,做為判定拒絕H0、接受H1的數值。p值愈小,表示檢定的結果(統計值)愈顯著,也顯示"拒絕H0、接受H1"的可靠性愈大。
2. 研究者進行「相關分析」時,求得的相關係數(r)若達顯著水準,便會註記星號(*) (如p<0.05),那麼r是跟"什麼"比較,達到顯著水準?
t-test是在比較兩個「平均數」是否有顯著差異,比較的結果若達顯著水準(p<0.05),表示兩者在統計上有顯著差異,而拒絕了「兩個平均數沒有顯著差異」的「虛無假設H0」。那麼,相關分析所得之相關係數(r),在進行顯著性考驗時的"比較對象"為何?這是很多研究者平常不太會去注意的問題,因為跑完SPSS,列出的r便已註明是否達顯著水準,甚至還註記了p<0.05或0.01或0.001,研究者只要照抄下來即可,哪還需費心去思考「r是跟"什麼"比較達到顯著水準?」這件無關痛癢的事!
進行「相關統計分析」時,r的大小需經顯著性考驗來檢定是否達顯著水準,顯著性考驗(如SPSS的統計分析程序)檢定的是H0 (無相關或r=0),所以,在統計分析的過程中,相關係數(r)是跟r=0 (無相關)比較,若達顯著水準,代表r值和r=0有顯著差異,亦即表示在統計的意義上,兩個變項之間有線性相關存在。
3. 撰寫研究報告時,相關係數(r)需要標記一個星號(*)(p<0.05)、兩個星號(**)(p<0.01)或三個星號(***)(p<0.001)嗎?
在相關(correlation)的推論統計中,相關係數(r)的顯著性與樣本數的大小有關。若樣本數小(如N=25),縱使r並不小,但仍可能未達顯著水準;若樣本數大(如N=300),即使r很小,也可達到統計上的顯著水準。正如前述,你可能會發現,在同一研究報告中,有可能r=0.44,標上p<0.05,但r=0.21,卻標上p<0.01,亦即r較大的是「顯著」,r較小的卻是「極為顯著」!因此,相關係數(r)標記一個星號(*)(p<0.05)、兩個星號(**)(p<0.01)和三個星號(***)(p<0.001),並加上〈*顯著、**極為顯著、***非常顯著〉的註記不但沒有什麼意義,甚至還可能讓論文讀者產生誤解。假若要標註顯著水準,建議也僅擇一顯著水準(如p<0.05)標註就好,不宜在「研究結果」分析表上,同時標記(*)、(**)、(***)!
4. 詮釋相關係數(r)需要特別小心注意的事!
在解釋相關係數(r)有多大意義時,假若樣本數(N)的大小還算合理,除了解釋兩個變項是否有顯著相關(r是否達顯著水準)外,更重要的是要看r的大小,因為r的大小顯示了兩個變項之間線性關係的強弱程度。通常我們可以依據下表來解釋:
Coefficient ( r )
|
Interpretation
|
0.00~0.20
|
Indifferent,
Negligible Relationship
|
0.20~0.40
|
Low
Correlation
|
0.40~0.70
|
Substantial,
Marked Relationship
|
0.70~1.00
|
High,
Significant Relationship
|
此外,兩個變項之間相關的強弱是取決於「決定係數(Coefficient
of Determination, r2)」,即相關係數的平方,而不是r上註記的星號(*)數,也就是說標記三個星號(***)(p<0.001)的r的相關性,並不見得一定就比標記一個星號(*)(p<0.05)的r的相關性強。「決定係數(r²)」顯示這兩個變項共有的"變異量" (amount of variance common to the two measures)所佔的比率,例如:假若X變項與Y變項的相關r=0.60 (p<0.05),表示X和Y變項間有顯著的正相關;而「決定係數」r²=0.36,表示兩個變項共有的"變異量"有36%,亦即「Y變項的變異量中,可被X變項解釋的變異量達36%」,反之亦然。
最後,還需要特別小心的是,詮釋相關係數時,達顯著相關只是顯示兩個變項有共變的現象("變異量"有部分重疊),千萬不可做任何因果關係的推論。
祝大家 統計順手!研究順心!
蟄居老叟@新店科芬園 (2020.06.30.)
沒有留言:
張貼留言