TEL:04-22078539 本中心網址:http://www2.cmu.edu.tw/~biostat/

 

中國醫藥大學與台灣SAS公司簽訂合作備忘錄
過去演講回顧
生統小漫畫
 隨機樣本
生統小文章
 數理流行病學與傳染病建模分析:跨領域的學術研究
生統小教學
 17章 相關係數
 18章 簡單線性回歸

 

過去演講回顧

2007年演講資訊可參考以下網址
http://www2.cmu.edu.tw/~biostat/html/speakers_2007.html

2007/12/05
陳珍信 博士(中央研究院 統計科學研究所)
Event History Analysis with Non-Susceptibility and Crossing Survival Curves

2007/12/12
曾雲輝 博士(中央研究院 基因體研究中心)
Introduction to Statistical Methods in Molecular Evolutionary Distance

2007/12/19
林文元 醫師 (中國醫藥大學附設醫院 家庭醫學科)
Metabolic Syndrome in Taichung Health Community Study

 

TOP


生統小漫畫
 

TOP


生統小文章

數理流行病學與傳染病建模分析:跨領域的學術研究(download)

謝英痡訇

一、前言

  近年來科技進步及快速的全球化加快新興傳染病毒種類之演化及擴散。愛滋病、狂牛症、禽流感、SARS等新興傳染病之出現以及肺結核之重現均對人類帶來極度威脅。最近生化恐怖主義之興起,更為人類帶來更多的不安全感。在此客觀環境的挑戰下,利用數理模式來探討各種傳染病可能引發的情況以及尋求最有效之防治措施已成為西方科技先進國家公共衛生政策的重要指標。本文將回溯數理流行病學之演化歷史。並以數學建模研究在臺灣及其他國家之應用為例,突顯數理流行病學在公共衛生上應用的重要意義及可發揮之學術研究空間。

二、數理流行病之演化史

  數學建模在傳染病流行病學之應用最早可回溯至西元1760年。當時著名數學家Daniel Bernoulli利用微分方程式來探討種牛痘對預防天花的公共衛生效應,試圖以數學模式。二十世紀初是現代傳染病流行病學數理模式研究的開始,其中包括Ross(1902年諾貝爾醫學獎得主)的瘧疾數學模式研究,Brownlee對天花的empirical studyKermack and MacKendrick影響深遠的epidemic threshold theory以及R.A. Fishernet reproductive value。另有兩位現代著名學者Robert May(牛津大學教授,現任英國皇家學院院長並被英國女王封為Lord of Oxford)Roy Anderson(英國皇家學院院士,已獲選將於明年七月擔任帝國學院校長)1991年在他們著作的“Infectious Diseases of Humans”一書中定義“數理流行病學”(mathematical epidemiology)為“數學在傳染病學研究上之應用”(application of mathematics to the study of infectious disease)May and Anderson70年代末開始發表他們一系列的傳染流行病學建模研究。物理學家出身來自澳洲並當時擔任普林斯頓大學講座教授的May已是世界頂尖的生物數學專家,而Anderson也已是知名的生物學家。從現在看歷史的角度,這兩位不同領域的世界級學者當時放下身段的跨領域合作研究組合是數理流行病學研究的重大突破點。May and Anderson80年代對愛滋病進行數理模式研究,對歐美國家早期有關愛滋病流行病學之了解、防治及治療的公共衛生政策也有深遠的影響。大約同時在大西洋對岸美國的Hethcote and Yorke對淋病防治的數理模式研究結論也被美國疾病管制局(CDC)所採納為美國官方淋病防治政策之參考,,並已驗證有效。在90年代何大一院士與美國生物數學家Alan Perelson (Los Alamos National Lab)合作利用數理模式分析雞尾酒療法(HAART)治療下愛滋病患者體內病毒之增減動態變化,以了解雞尾酒療法之功效。他們1996年發表在Science的論文據說是90年代被引用最多的論文之一。諸此實際成效皆促成歐美先進國家政府及研究機構近年來對傳染病流行病學數理模式研究之重視。

三、臺灣SARS疫情的數學建模研究

   筆者近二十年來有系統從事傳染病流行病學數學建模分析研究工作者早期以愛滋病建模研究的歐美同性戀族群、泰國女性工作者及靜脈注射毒癮者、以及古巴愛滋病流行病學等為主要研究工作近年來獲國科會及疾病管制局大力支持,從事臺灣地區愛滋病數理流行病學研究。2003年臺灣SARS疫情爆發時筆者以一個logistic-typeRichards Model來描述臺灣SARS疫情變化。此簡單模式所得知結果對公共衛生政策之制定有重要參考價值。從大一微積分我們知道感染者累積數曲線的反曲點就是疫情從急遽惡化轉換至和緩之轉捩點(turning point)。我們的結果顯示臺灣疫情依病發日為準之轉捩點為五月三日。以感染至病發之五天潛伏期回溯至四月二十八日正是臺灣SARS防治措施機制全面啟動之日,也是臺灣SARS疫情之轉捩點。由此可見有時我們利用簡單的模式也可以得到有重要流行病學意義的結果。此研究結果很快地被Emerging Infectious Diseases所接受並已刊登。

  臺灣SARS疫情期間之隔離措施也是一個世界矚目的焦點。臺灣隔離措施規模之大僅次於中國卻最具制度化。其實際功效(efficacy)及效應(effectiveness)是很值得探討的研究議題。筆者和許世壁(清華大學)、陳婉淑(逢甲大學)、金傳春(台大流病所)、何美鄉(中研院生醫所)以及臺灣疾病管制局人員以一個具境外移入、隔離及時間變化(time-dependent)之感染率的大型compartmental model(如圖一)來研究此議題。其中S代表尚未感染者(Suseptibles)Bi, i=1,2,3代表境外移入,A, B分別代表A, B級隔離,J, I分別代表有無經過隔離的發病者,H, P, R, D則分別代表住院之疑死似病患、可能病患、出院病患及死亡病患。我們利用每位病患的詳細個案資料,也就是他們從尚未被感染SARS時到病癒出院或死亡的期間在各compartments之間進行的動態行程(dynamic progression),來重建疫情之歷史過程。研究目的是探討疫情的完整動態變化。

圖一 Flowchart for a SARS dynamic model with Levels A and B quarantine.

結論

  數理流行病學是兩個截然不同學術領域(數學及流行病學)的跨領域結合。May(物理學家)Anderson(生物學家)的超強研究組合在數理流行病學大放異彩就是最好的範例。筆者於1997年曾獲國科會補助訪問當時均在牛津大學的MayAnderson,並目睹Anderson研究團隊的運作。該團隊中有五、六位英國皇家學院研究員(Royal Society Research Fellow)及十多位博士後研究員,一起帶研究生作研究。其中研究人員的博士學位有來自生物、數學、生物統計、物理、統計、生態等不同學門。筆者有幸能第一手的觀察他們良好而有效率的團隊運作及跨領域的交流,對個人研究得益甚多。回國後這幾年來致力於建立與國內外不同領域學者(如生物、數學、統計、流病、公衛、生物統計等)進行跨領域合作研究,累積之經驗在這次SARS疫情的流行病學數理模式研究上得之助益甚多。

  近年來國際間SARS及流感(禽流感)之相關建模研究更突顯跨領域合作研究的重要性。譬如說新英格蘭醫學雜誌在2004年刊登了一篇論文,是利用計算流體力學及香港淘大花園SARS疫情完整數據來確認經通風系統散佈SARS病毒的“風門效應”是2003年淘大花園SARS超級群體感染事件(superspreading event)病毒散佈的重要因素。總而言之,無論是數理流行病學、或最熱門的生物資訊、奈米科技等跨領域研究,都須要應用到數學建模分析。美國疾病管制局(USCDC)設有數理流行病學家(mathematical epidemiologist)之職位,以專職研究人員負責重要或新興傳染病及相關防治措施之數理模式研究。身為生物數學家的Robert May更能於1997年受聘為英國政府首席科技顧問,與Anderson等人共同協助訂定當時在英國發生狂牛症疫情之防治政策。MayAnderson倆人目前均在英國擔任學術界領導,處處顯示西方先進國家對傳染病流行病學數學建模分析之重視。這也是國內跨領域學術界可以共同努力的方向。

 

參考文獻

[1] D. Bernoulli, Mem. Math. Phy. Aca. Roy. Sci., Paris, 1 (1960).

[2] R. Ross, The Prevention of Malaria, (2nd edition), Murray, London (1911).

[3] J. Brownlee, Proc. Roy. Soc. Edinburgh., 26, 484 (1906).

[4] W. O. Kermack and A. G. McKendrick, Proc. R. Soc., A115, 700 (1927).

[5] R. A. Fisher, The Genetical Theory of Natural Selection, Clarendon, Oxford (1930).

[6] R. M. Anderson and R. M. May, Infectious Diseases of Humans, Oxford University Press, Oxford (1991).

[7] A. S. Perelson, A. U. Neumann, M. Markowitz, J. M. Leonard and D. D. Ho, Science,

271, (5255), 1582 (1996).

[8] H.W. Hethcote and J.A. Yorke, Lect. Notes Biomath., 56, 1 (1984).

[9] F. J. Richards, J. Exp. Botany, 10, 290 (1959).

[10] Y.-H. Hsieh, J-Y Lee, and H. L. Chang, Emerging Infectious Diseases, 10, 1165 (2004).

[11] Hsieh Y.-H., C.C. King, C.W.S. Chen, M.S. Ho, S.B. Hsu, and YC Wu. J. Theoretical Biology, 244: 729-736 (2007).

[12] I. T. Yu et al., N. Engl. J. Med., 350, 1731 (2004).

TOP


生統小教學(download)

統計分析師 崔懷芝

17 相關係數(Correlation)

在前面的章節中,我們討論了下列幾種檢定方法。

資料屬性

兩個獨立樣本

三個以上獨立樣本

兩個相依樣本

類別資料

¨     Fisher’s exact test

¨      Chi-square test  with Yate’s correction

¨     Chi-square test

¨     McNemar’s test

連續資料

(有母數)

¨     T test

¨     ANOVA

¨     Paired t test

序位資料

(無母數)

¨     Wilcoxon rank-sum test

¨     Kruskal-Wallis test

¨     Wilcoxon signed-rank test

但分析類別變項與連續變項或連續變項與連續變項間的相關時,須遵循下列的原則:(1)先把數據畫圖,(2)尋找整體型態以及有異於整體形態的偏差,(3)使用適合的方式來描述。而本章及接下來幾章的主題,就是在描述連續變數間相關的方法。

17.1 散布圖 (Scatter Plot)

最常用來表現兩個連續變數間相關的圖形就是散佈圖。圖17.1的散布圖呈現出西元199220個國家中孩童注射DPT疫苗百分比和五歲以下孩童死亡率之關聯。我們認為「孩童注射DPT疫苗百分比」有助於解釋「五歲以下孩童死亡率」。也就是說「孩童注射DPT疫苗百分比」為解釋變項,而「五歲以下孩童死亡率」是反應變項,或者稱之為依變項。

我們想知道當孩童注射DPT疫苗百分比改變時,五歲以下孩童死亡率是如何的變化,所以把孩童注射DPT疫苗百分比放在X軸。結果我們看到孩童注射DPT疫苗百分比增加,五歲以下孩童死亡率就會隨之下降的情形。

 

根據數值畫成圖後,我們需要檢視一下散佈圖,要找出變項間相關的方向形式強度,以及可能出現的離群值(outliers)。由圖17.1可以得知,孩童注射DPT疫苗百分比與五歲以下孩童死亡率的相關性方向是「負向的」(圖形由左到右往下斜),形式為直線,可能有一個離群值(箭頭所指之處),且在圖的右下角有叢聚的現象出現。但孩童注射DPT疫苗的百分比與五歲以下孩童死亡率相關性的強度只能用資料點的「扎實」和「散」來判斷。若要以數值來量化兩個變項之間的直線相關的方向和強度,則可以利用「相關係數r」來呈現。相關係數是指觀察值xy之間的線性相關強度,分析時需以兩變數皆為有效數值之觀察值個數為樣本數。一般常用的相關係數有兩種,分別為「皮爾森相關係數」及「斯皮爾曼等級相關係數」。

SAS範例17.1

 

17.2 皮爾森相關係數 (Pearson’s Correlation Coefficient)

皮爾森相關係數指的是母群體中連續變項xy之間的線性相關,又簡稱為「相關係數(Correlation Coefficient)」。樣本相關係數通常以「r」來表示,其計算方式如下:   

 

 

相關係數是一個沒有單位的數值,其值的範圍介於-11之間。若r等於零,表示xy變項之間沒有線性關係存在;若r等於1,表示xy變項呈現完全正向的相關;相反的,若r等於-1,則表示xy變項呈現完全負向的相關。

當我們想知道xy的相關是否存在時,我們需要利用樣本相關係數(r)對未知母群體相關係數(ρ)下推論,則可檢定下述的虛無假說。

在進行假說檢定之前,要有兩個假設:觀察值間互相獨立,以及變項xy之分佈均為常態分佈。檢定的統計量計算如下:

  

 

若我們想知道西元199220個國家中孩童注射DPT疫苗百分比和五歲以下孩童死亡率之相關是否存在,則可利用此方法進行檢定。

SAS範例17.2報表分析之結果】

由此結果可知,孩童注射DPT疫苗百分比增加,五歲以下孩童死亡率減少,兩者之間的相關強度為0.79,為強的負向相關。但如果仔細觀察散佈圖(17.1)則發現,注射DPT疫苗的百分比資料分佈為左偏,以及五歲以下孩童死亡率分佈為右偏,而且在散佈圖中有一個可能為離群值的資料點(希臘);整體而言,這組資料並不完全符合檢定的假設,而且相關係數可能會受此筆資料的影響。因此,若我們想知道更精確的相關係數,可以使用斯皮爾曼等級相關係數(Spearman’s Correlation Coefficient)

17.3 斯皮爾曼等級相關係數 (Spearman’s Correlation Coefficient)

        斯皮爾曼等級相關係數是屬於無母數的統計方法,它對離群值較不敏感,通常用於表示非常態分佈之連續變數相關,或是兩個序位變項間之「一致性」。斯皮爾曼等級相關係數以『rs』來表示之,其方法為由n組成對的資料點(xi, yi),分別將xy變項分別排序,在利用下列公式計算出rs

  

此時(xri, yri)是代表第i個觀察值之等級,di則是代表第i個觀察值之xy變項等級之差異。斯皮爾曼等級相關係數與皮爾森相關係數相同,其值都介於-11的範圍內。當rs越接近於0則代表兩變數之間的一致關係越來越弱;換句話說,當rs越接近兩端的極值時,兩個變項之間的一致相關強度越強。

        若樣本數n10,我們假設成對的(xri, yri)為隨機抽樣,則可利用檢定皮爾森相關係數的方法來檢定斯皮爾曼等級相關係數是否等於0

其統計檢定量為     ,且服從自由度為(n-2)t分佈。

        由前面所舉的例子,西元199220個國家中孩童注射DPT疫苗百分比和五歲以下孩童死亡率之相關,先將兩個變數分別排序並給予等級(如表17.2),之後便可以計算斯皮爾曼等級相關係數並進行檢定。

 

SAS範例17.3報表分析之結果】

斯皮爾曼等級相關係數,我們得知孩童注射DPT疫苗百分比增加,五歲以下孩童死亡率減少,兩者之間的相關強度為0.54,為中度的負向相關。其結果與皮爾森相關係數比較,則發現兩者都顯示了「孩童注射DPT疫苗百分比」與「五歲以下孩童死亡率」的相關,且為負相關。但斯皮爾曼等級相關係數(rs)的值明顯的小於皮爾森相關係數(r),可能是因為資料為非常態分佈而且有離群值而膨脹了皮爾森相關係數

 

18 簡單線性回歸

(Simple Linear Regression)

如果散佈圖顯示兩個變項之間有線性相關,我們希望可以在圖中描繪出一條直線,來描述xy變項的相關性。此時,我們可以利用『線性迴歸』的方法來達到此目的。

18.1 迴歸概念

假設y為連續變項,稱為反應變數(或依變數,dependent variable),而x為影響y的連續變項,稱為解釋變數(或是自變數,independent variable),也就是說y會隨著x改變。線性迴歸是一條直線用來描述此現象,試圖去解釋或預測當解變數x值改變時,反應變數y值是如何跟著改變。當反應變數y只受到一個x影響時,則稱為簡單線性迴歸(Simple Linear Regression, SLR)。如果y同時受到很多個變數影響時,則稱為複迴歸(Multiple Linear Regression, MLR)

 

18.2 模式

        如果我們想要探討低出生體重(<1500g)之新生兒其母親懷孕週數新生兒頭圍之相關性,下列分析使用一個樣本數為100的低出生體重新生兒作為例子,散佈圖(18.1)可以看出兩變數間可能有線性的關係存在。我們試著用一個模式來代表此線性關係。

此處μ y|x代表低出生體重新生兒在母親懷孕x週時胎兒的平均頭圍值,這個模式稱為母群體迴歸線。參數α與β為常數,統稱為迴歸係數,α為迴歸線與y軸之截距,而β則是直線之斜率。

即使母親懷孕週數與新生兒頭圍之間有非常強烈的線性關係,亦不可能所有的點都坐落在此迴歸線上。對母親懷孕x週之低出生體重新生兒來說,胎兒的頭圍因個體的自然變異會散佈於其平均值(μy|x)的附近。為了解釋這個情形,我們會利用y=α+βx+ε來表示。此處的ε為誤差(error),代表y值離母群體迴歸線的距離。

        由於母群體迴歸線是利用觀察值(xi , yi)所估計的直線方程式,因此在尋找線性迴歸線之前需要有下列幾個假設:

1.      對某特定預測變項(x)的值,反應變項(y)的分佈是常態分佈,平均值及標準差分別是μy|x與σy|x

2.      xμy|x變項可以由一直線表示 ()

3.      y的標準差為常數。在任何特定之x值下,y值的標準差σy|x不會改變。

4.      y觀察值間互相獨立。

 

        已知可以用線性迴歸的方法來描述低出生體重(<1500g)之新生兒其母親懷孕週數新生兒頭圍之線性關係,從n個觀察值(xi , yi)的散佈圖能畫出無數條直線,哪一條直線才是最適合的?要如何找出這一條直線?

每個人覺得最好的直線都不一樣,且無法得到直線的方程式,而需要藉助統計的方法---最小平方法』。找出每個觀察值(xi , yi)與直線垂直位置 ()的距離,也就是所謂的殘差(residual)。當殘差皆為0時,代表所有的點都在直線上,那麼這條線就是最適合的直線。由於不可能所有的點都剛好在線上,所以以殘差平方和(residual sum of squares)最小的條件下所找出的最小平方法迴歸線為擬合(fitness)最佳的直線,其方程式如下:

       

同時,我們也必須由此方程式的來估計母群體迴歸線中的α及β,而通常可用最小平方法求得。為使為最小值,對α、β微分後設定為0,也就是,即使Q極小化的情況下得到α及β的估計值,,結果如下:

          

       

其標準誤可以由樣本標準差()來推估,分別為,這條由最小平方法得到的迴歸線一定會通過()

        係數β在迴歸線中是一個重要的参數,它代表在x每一單位的變化相對應y的平均變化。一般而言,我們都會去檢定β是否為零。因為當β=0時,表示xy變數之間並無相關,迴歸線與x軸平行。其檢定方法如下:

  我們除了可以對母群迴歸線的斜率β做檢定外,亦可以計算一個95%的信賴區間,以自由度98t分布來說,大約有95%的觀察值會落在-1.981.98間。因此斜率β的95%信心區間為

另外,有時也會有人問迴歸線會不會通過原點(0,0),也就是截距是否為零。這時可以運用類似檢定斜率是否為零的方法來進行檢定,其統計量計算如下:

同樣的,我們也可以計算出母群體截距(α)95%信賴區間為

        從以上推論,我們知道了母群體的截距及斜率估計值。另外,也可以利用最小平方迴歸線來預測某特定x值其平均y(),並且計算出y平均值之95%信賴區間為常態分佈下的預測平均值,所以的標準誤估計為。當x值越接近時,y平均值之95%信賴區間越窄,代表所估計之越準確。反之當x值越遠離時,y平均值之95%信賴區間則越寬。

        除了預測某特定x值其平均y值,我們有時候也會想預測新單一觀察值,以(y-tilde)表示之。它的預測方法和預測平均y值相同為,其標準誤為,因為考慮的是個別觀察值,它有一個額外的變異:y值在均值周圍的離散95%信賴區間為

        由先前提到的例子,如何描述低出生體重(<1500g)之新生兒其母親懷孕週數新生兒頭圍之線性關係?

SAS範例18.1報表分析之結果】

18.3 模式評估

        當我們找到可以描述xy變項之間的線性模式時,會想知道此模式與實際觀察值間擬合的程度,常用的方法有兩種,為判定係數殘差圖

 

判定係數

        在談判定係數之前,我們先根據簡單線性迴歸模型,將其變異數分析呈現於下表:

 

變異來源

平方和

(Sum of square)

自由度

(df)

平均平方和

(Mean Square)

1

n-2

n-1

 

 

    由上表可以知道總變異()是由迴歸變異()及誤差變異()兩個部分所組成。前者是由迴歸建立模式之x可解釋之變異,後者為y的變異被xy的線性相關所解釋後仍維持的變異。判定係數(R2)的意義為所有觀察值y的變異量有多少是可以被迴歸模式(x-y直線)所解釋。其計算方式為

亦相當於皮爾森相關係數(r)的平方。所以判定係數的值01之間,當R2=0時代表xy無線性關係;而R2=1時代表所有觀察值y的變異量可以100%被迴歸模式所解釋,也就是所有的觀察值都在迴歸線上。

        低出生體重(<1500g)之新生兒其母親懷孕週數新生兒頭圍之線性關係的例子中,我們找到迴歸模式來描述兩變項之間的相關性,但觀察值y的變異被線性迴歸所解釋的比例為多少??

 

SAS範例18.2報表分析之結果】

殘差圖

第二種檢查迴歸模式與實際觀察值間擬合的程度的方法為殘差圖。它是利用殘差()與預測y()間之二維散佈圖來呈現迴歸模式與實際觀察值間的擬合程度。畫殘差圖有三個目的:(1)尋找異常值。 (2)檢測變方(variance)相等的假設。(3)由殘差圖中可以看出觀察值是否呈現隨機散佈,如果觀察值出現某種趨勢的分佈,表示xy可能不是呈現線性相關,那可能需要對xy或兩者同時進行轉換(例如,取log)

SAS範例18.2報表分析之結果】

主要參考書目:

1.      Marcello Pagano, Kimberlee Gauvreau, ”Principles of Biostatistics, Second Edition”, Duxbury, a division of Thomson Learning, Inc, 2000

2.      譯者:林為森, 陳怡君, 陳清浩, 陳俞成, 謝秀幸, 魏美珠, ”生物統計原理第二版”, 新加坡商亞洲湯母生國際出版有限公司, 2002

TOP

本刊由中國醫藥大學 生物統計中心發行  網頁維護:林立偉