TEL:04-22078539 本中心網址:http://www2.cmu.edu.tw/~biostat/

 

1月份活動回顧
活動訊息
  諮詢師及種子教師訓練第七、八次訓練課程
  
生物統計中心諮詢師及種子教師訓練課程表
近期重要統計科學相關期刊研究訊息
 
生物統計教室
  • 序位變項之線性趨勢(Linear Trend for Ordinal Data) (I):
    序位趨勢相關

  • 探索性因素分析的概念與範例

 

1月份活動回顧

  • 2007/01/10(三)
    中國醫藥大學 生物統計中心
    鄭光甫 主任
    A powerful method for Studying Gene × Environment (or Gene × Gene × Environment ) Interactions
                            〔檔案下載
  • 2007/01/11( 四)
    本中心吳宏達老師受邀至中興大學演講
    Dynamic Modeling in the Survival Analysis of Cancer
    therapy
                            〔檔案下載
  • 2007/01/17(三)
    本中心吳宏達老師至本校護理系演講
    Longitudinal Data Analysis through Generalized Estimating Equation (GEE) Approach
                            〔檔案下載
  • 2007/01/24(三)
    行政院衛生署統計室 黃旭明 主任
    衛生統計與實證決策

TOP


活動訊息

活動名稱:諮詢師及種子教師訓練第七、八次訓練課程

9615日下午930 ~1030分、119日上午930 ~1030

活動地點:立夫教學大樓15樓環醫所電腦教室

活動概述:講解生統諮詢實例,提問與討論

諮詢師及種子教師訓練第七次課程時間:9615

由吳宏達老師說明生統分析實例,提問與討論

訓練內容概述

1.    配對資料的分析,McNema s test

2.    logistic regressionproportional odds model

諮詢師及種子教師訓練第八次課程時間:96119

由林保萱統計分析師說明生統分析實例,提問與討論

訓練內容概述

1.      醫學診斷之ROC curve分析原理及SAS繪圖工具

 

生物統計中心諮詢師及種子教師訓練課程表

日期(預定)

時間

課程

主持人

2007/01/26

10:00~11:00

第九次課程

吳宏達

2007/02/02

10:30~11:30

第十次課程

吳宏達

TOP


近期重要統計科學相關期刊研究訊息

點擊以下連結即可快速取得最新更新動態

Statistics in Medicine

Genetic Epidemiology

TOP


生物統計教室

序位變項之線性趨勢(Linear Trend for Ordinal Data) (I):
序位趨勢相關
(download)

李采娟副教授

當列聯表中的列變項X和欄變項Y都是序位變項,趨勢相關(trend association)是研究者有興趣檢定的,亦即當X的程度愈高時,Y的反應也趨向愈高或愈低的程度,描述此線性趨勢的統計方法有下列2種方式:

序位趨勢相關以單一母數來描述序位趨勢相關,最常見的分析是將類別項目給予分數,再測量線性相關程度(degree of linear trend)或相關(correlation) (Agresti A, 1996; 2002)

劑量模式(Model for dose-response):這些檢定建立在對數-線性劑量相關(log-linear dose-response relationship),即X的程度和Y反應速率對數(log rate)或反應勝算對數(log odds)呈線性相關 (Clayton D & Hills M., 1998; Selvin S, 1991)

A.    序位趨勢相關

使代表列的分數,代表欄的分數,這分數和類別有相同的順序,被稱為單調的(monotone),這些分數反應類別間的距離,當類別間有較遠的距離,則這些類別相距較遠。

加總以頻率為權數的欄列分數相乘積,此總和與XY的共變有關,XY間的皮爾遜相關係數相當於標準化之,以下列公式表示:

此相關係數量化兩序位變項趨勢相關強度(measure for strength of linear trend),數值介於-1+1之間,當XY獨立時,此相關係數為0,當此統計值的絕對值愈大,則趨勢相關愈強。

檢定此相關係數的虛無假設為兩序位變項為獨立,對立假設為XY存在一個非零相關,統計量為

此統計量隨著相關愈強和/或樣本數愈大而愈大,當大樣本時,此統計量成一個自由度卡方,此統計量的開根號呈標準常態分布。

線性趨勢檢定相較於獨立性卡方檢定之優點

檢定獨立性的卡方檢定所指的對立假設是一般最普遍的情況,此檢定以檢定格子機率(cell probabilities)是否違反任何型態的獨立,為皮爾遜卡方統計量,為概度比統計量(likelihood ratio statistics);他們的自由度(I-1)*(J-1)反應了對立假設較虛無假設多了(I-1)(J-1)個參數,此兩個統計量以這些多出來的參數來偵測任何型態的非獨立性,為達到此普遍性,它也犧牲了對特定型態相關如線性相關趨勢的敏銳性。而統計量只建立在一個線性相關統計值,所以它只有一個自由度,因有相類似的數值,當兩個序位變項間存在一個遞增或遞減之趨勢,有較小的自由度,因此有較小的p值,即有較大的統計檢力(power)來偵測此線性趨勢相關。

另外,此方法優於獨立性卡方檢定的地方為自由度較小時之卡方檢定有較高近似卡方之正確性,當小樣本或中樣本數時,自由度較小的抽樣分布會較近似卡方分佈,所以當許多格子個數較小時,近似卡方情形較為差。

範例:

表一的資料來自一個有關生活品質前瞻性追蹤研究,在一個生活品質的健康調查,1257位的受訪者填寫了生活品質量表Short Form 36 (簡稱SF-36),七年間的死亡狀態被紀錄,由SF-36量表可衍生兩個綜合指標(composite indicators),為身體組成量表(physical component scale,簡稱PCS)和心理組成量表(mental component scale,簡稱MCS),此兩量表的分數介於0100分之間,根據分數的25百分位分為四個類別;依變項死亡雖然為類別變項,但為兩分位,仍適用,但需將其中一個類別譯碼為1,另一類別譯碼為0,在此,我們以1代表死亡,0代表存活。上述將簡化為,即只加總死亡狀態為1那一欄的分數和人數相乘積。

表一顯示以身體和心理組成量表25百分位(quartile)為切點的四個類別死亡百分比,這些死亡百分比在較小百分位較高,在較大百分位則較低,顯示有一個遞減的趨勢。

表一: 身體和心理組成量表四個25百分位之七年死亡狀態分布情形

變項

死亡

 

死亡

 

總數

百分比

身體組成指標

 

 

 

 

        Q1: £51.37

299

46

345

13.33%

        Q2: 51.37-55.07

293

18

311

5.79%

        Q3: 55.07-56.75

279

5

284

1.76%

        Q4: >56.75

313

4

317

1.26%

心理組成指標

 

 

 

 

        Q1: £48.28

294

39

333

11.71%

        Q2: 48.28-52.77

299

13

312

4.17%

        Q3: 52.77-56.26

322

14

336

4.17%

        Q4: >56.26

269

7

276

2.54%

   序位檢定統計量需要對於身體和心理組成量表程度給予分數,一種方式是以類別的中間點作為分數,身體組成量表四個類別的中間點分別為=25.69, =53.22, =55.91, =78.38,而心理組成量表四個類別的中間點分別為=24.14, =50.53=54.52, =78.13,我們可以使用SAS統計軟體的FREQ程序來計算r,樣本身體組成量表和死亡間的趨勢相關為-0.20,而48.49,樣本心理組成量表和死亡間的趨勢相關為-0.14,而25.48p值皆為<0.001;結果顯示身體和心理組成量表皆和死亡間有非零的趨勢相關。

另外一種給予類別分數的方式為平均排名,如身體組成量表第一個25百分位的人數為333位,其排名從1333,此類別的平均排名為(1+333)/2=167。當以此種方式給予分數,而列聯表為2´J,這相當於檢定兩列的平均排名是否有所差異,此檢定相當於無母數的Wilcoxon Mann-Whitney檢定,而此兩無母數檢定z值的平方相當於

以類別平均排名給予分數,身體組成量表的r分別為-0.2049.77p值為<0.001,而心理組成量表的r分別為-0.1322.49p值為<0.001

上面的計算可用下列SAS程式達成,PCSMCS兩變項的資料是25百分位中間點的資料,前兩個FREQ程序所跑出來的結果是以類別的中間點作為分數的方法,後兩個FREQ程序設定的關鍵字為CMH1,此乃要求SAS只列印p值,且多了SCORES=RIDIT指令,此指令執行以類別平均排名作為分數的分析。

DATA TREND; INPUT C_PCS PCS C_MCS MCS DEATH N_PCS N_MCS @@;

CARDS;

1 25.69 1 24.14 0 299 294    1 25.69 1 24.14 1 46 39

2 53.22 2 50.53 0 293 299    2 53.22 2 50.53 1 18 13

3 55.91 3 54.52 0 279 322    3 55.91 3 54.52 1 5 14

4 78.13 4 78.13 0 313 269    4 78.13 4 78.13 1 4 7

;

PROC FREQ; TABLES PCS*DEATH/ALL; WEIGHT N_PCS; RUN;

PROC FREQ; TABLES MCS*DEATH/ALL; WEIGHT N_MCS; RUN;

 

PROC FREQ; TABLES C_PCS*DEATH/CMH1 SCORES=RIDIT; WEIGHT N_PCS; RUN;

PROC FREQ; TABLES C_MCS*DEATH/CMH1 SCORES=RIDIT; WEIGHT N_MCS; RUN;

Agresti A. An introduction to categorical data analysis. A Wiley-Interscience Publication. John Wiley & Sons, Inc: 1996.

Agresti A. Categorical data analysis. 2nd edition, A Wiley-Interscience Publication. John Wiley & Sons, Inc: 2002.

Clayton D and Hills Michael. Statistical Models in Epidemiology. Oxford University Press: 1998.

Selvin S. Statistical Analysis of Epidemiologic Data. Oxford University Press: 1991.


 

探索性因素分析的概念與範例(download)

梁文敏副教授

中國醫藥大學 公衛系暨環境醫學研究所

 探索性因素分析(exploratory factor analysis)與主成份分析(principle component analysis)皆是透過數學工具來簡化資料(data reduction)的方法,主成份分析是利用座標變換技巧用以找出呈現大部份資料的主要概念,且通常是以最少的概念來呈現資訊,這些經由變換後所獲得的概念足以代表著資料的主要構成成份,也因此這樣的方法被稱為主成份分析。因素分析與主成份分析主要的不同是主成份分析只具有數學上資料簡化的涵意,而因素分析則兼具數學上資料簡化過程,同時架構在心理計量的概念模式及統計理論模式之下。

 主成份分析(Principal Component Analysis, PCA)

  首先簡單介紹主成份分析的數學概念,假設X1 , X2 ,..., Xp代表p個變數(例如問卷的題目),此p個變數分別代表著p個不同的構面(construct),在這p個變數中許多變數可能代表同一個構面,因此這 p個變數主要只表現q個不同的構面(通常q<p),故這些變數可以嘗試予以簡化。主成份分析利用數學上線性代換的方式將原來X1 , X2 ,..., Xp變數轉為C1 , C2 ,..., Cp,新的C1 , C2 ,..., Cp分別代表著由X1 , X2 ,..., Xp所構成的線性組合,公式如下:

C1 = b11X1+ b12X2+ … b1pXp,

C2 = b21X1+ b22X2+ … b2pXp,

↓ 

Cp = bp1X1+ bp2X2+ … bppXp.

 新的C1 , C2 ,..., Cp依其解釋資訊的能力排序,較原有p個變數更能簡單且有效率的解釋資料。在應用時常將排列在前面的幾個重要的成份挑選出來(例如挑出q個成份,q<p)用以取代原來p個構面的意義,以達資料簡化之目的。

 探索性因素分析(Exploratory Factor Analysis, EFA)

  探索性因素分析(EFA)與主成份分析(PCA)相同之處為兩者皆為一種資料簡化的方法,但EFA不同於PCA處,在於EFA結合了心理學的理論及統計方法,它具有特定的理論架構與解釋方式並可搭配路徑圖(path diagram)來表現。一般所討論的因素分析主要可分為探索性因素分析(exploratory factor analysis, EFA)與驗證性因素分析(confirmatory factor analysis, CFA),其基本架構皆可用路徑圖來表現,本文只針對探索性因素分析加以討論。

 路徑圖(Path Diagram

  路徑圖可用以描述因素分析的理論架構 (Figure 1)。在測量抽象概念時,如生活品質、幸福感、智商等,我們常假設所測得的結果(例問卷調查所得結果),係源於個人的思想、信念或概念,而這種個人的思想、信念或概念是無法直接測得的,故必需反映在受測者的填答上。在資料的特質上,我們將此與個人本質有關的思想、信念或概念稱之為潛在變項(latent variables: F1, F2, …, Fq),在路徑圖中以橢圓圖形表現;由問卷測量到的結果,稱為觀察變項或外顯變項(manifest variables: X 1 , X2 ,..., Xp),在路徑圖中以長方圖形表現。在兩種變數的因果關係上,通常假設觀察變項的內容是受到潛在變項的影響所反應得之的結果,在路徑圖中這種因果關係以有箭頭的直線來表現,直線的起點為因、直線的終點(有箭頭之方向)為果,路徑圖基本架構如下:

Figure1路徑圖基本架構

:上圖表示X1X2X3為受潛在變項F1影響的變項, Xp-1Xp為受潛在變項Fq影響的變項。

  實施探索性因素分析(EFA)的目的,是用來藉由測量到的變項X1, X2 , X3 , … , Xp去找出隱藏在後面的幾項重要的思想、信念或概念,亦即找出概念F1Fq,一般q會遠小於p,故可大大簡化原有的資料的呈現內容。在學習因素分析之前,建議研究者能先做好相關理論模式的文獻討論,以期能幫助研究者做較客觀的因素取捨、討論與推論。

【範例】

  以筆者在中台灣醫學雜誌發表之文章「以WHOQOL-BREF評估台灣地區勞工健康相關生活品質之結構」為例[1],針對WHOQOL-BREF這份生活品質問卷的26題單一層面的問題進行探索性因素分析,以期瞭解台灣勞工生活品質的構面,結果顯示有兩個主要潛在概念因素,且此兩個因素即可代表了原來26題之訊息的98%,換個角度來說,由勞工所填寫的26題的資料,可簡化為由兩個指標來表現即可,第一個指標代表了心理、社會及環境範疇生活品質狀況,第二個指標則代表了生理方面的生活品質狀況。

 路徑圖

進一步以路徑圖(Figure 2)來加以說明,所謂探索性,即是在分析之前,我們並不知道有多少個主要概念(q)會產生,此範例結果顯示2個主要的概念因素(亦即q=2)就可以來描述原有26題的表現了。Figure 2中粗線表示主要影響,虛線表示次要或些微的影響,由圖中可看出F1主要影響的題目大多屬於心理、社會及環境範疇(17題中有14)的題目,故可將F1命名為心理、社會及環境概念生活品質,而F2主要影響的題目則大多屬於生理範疇(7題中有6),故可將F2命名為生理概念生活品質。因此針對台灣地區勞工健康相關生活品質,探索性因素結果發現在世界衛生組織(WHO)四個生活品質概念中,有三個相關性高,可用同一指標(可稱為因素或概念)來表示,而生理範疇則單獨成另一指標(因素或概念)來表示。

Figure2探索性因素分析結果路徑圖

對此主題有興趣之讀者,可參考筆者在中台灣醫學雜誌發表之文章[1]

 Reference:

1. Liang WM, Kuo HW, Lin CF, Shy HY, Chen HW, Chen JJ. Factor Construct of Health-related Quality of Life in Taiwanese Workers by WHOQOL-BREF Questionnaire. Mid Taiwan J Med, 2005; 10(3): 113-22.

TOP

本刊由中國醫藥大學 生物統計中心發行  網頁維護:林立偉