TEL:04-22078539 本中心網址:http://www2.cmu.edu.tw/~biostat/

 

96學年度生統
演講訊息
活動訊息
 96學年第一次生物統計諮詢師及種子教師訓練
 SPSS軟體操作課程
 
生統小教學
 第二章 資料敘述 (Data Presentation)
 第三章 數值摘要測量 (Numerical Summary Measures)
 第七章 理論機率分佈 (Theoretical Probability Distributions)

 

96學年度生統

首先感謝大家對上學年度生統e報的支持,未來這一年生統e報的內容將配合這學年公衛學院及未來全校生統課程之整合,依據生統整合課程所採用的教材-Principles of Biostatistics 章節的內容推出一系列的生統小教學,生統小教學將會簡介課本的內容,還會有SAS軟體小教學提供SAS電腦報表的部分,但因報版面限制,我們不會去詳細說明SAS程式的撰寫,但會於網路上提供SAS軟體小教學程式檔案,且會於種子訓練課程中依據當月的報說明SAS程式和SPSS操作的解說,歡迎大家參與。另外,我們依然會不定時提供醫學常用或新的統計方法介紹,請各位拭目以待。

TOP


演講訊息
日期 時間 地點 演講人
2007/09/26 (三) PM3:10 立夫教學大樓 6 第二會議 李文宗 博士

演講主題

The Case-Spouse Study for Gene Mapping and Gene Characterization
演講內容簡介

檔案下載

TOP


活動訊息

96學年第一次生物統計諮詢師及種子教師訓練

一、目的

配合本校教學卓越計畫,本中心針對基礎生物統計學課程做進一步的訓練。以大學部上課教材M.Pagano & K. Gauvreau, Principles of Biostatistics, 2nd為主,並配合上課進度。

 二、教育訓練內容

1) 大學部學生:訓練使其熟習統計理論、迴歸分析、離散資料等。針對有興趣的同學安排實習並頒予證書。

2) 研究生:   除在統計理論的加強之外,更注重在生統分析實務的操作。針對有興趣的研究生安排擔任生統課程的助教或生統分析實務參與並頒與證書。

  三、實施方式

1. 每一次上課由本中心的生物統計分析師授課。

2. 以一學期為一期,一期八堂課。

3. 針對有意願的同學安排生統分析實務實習。

 四、種子教師證書

凡符合訓練要求標準者,本中心頒予證書。證書頒予標準請參考種子教師證書頒予標準之說明

次數 日期 時間 章節 負責人
1 2007/10/2 17:30~19:00 問卷資料建檔 陳宏偉.葉懿諄
2 2007/10/9 17:30~19:00 重複測量資料建檔 林保萱
3 2007/10/23 17:30~19:00 237 林保萱
4 2007/11/6 17:30~19:00 8-10 邱顯財
5 2007/11/20 17:30~19:00 11-13 葉懿諄
6 2007/12/4 17:30~19:00 14-16 廖麗娜
7 2007/12/18 17:30~19:00 1718 崔懷芝
8 2007/12/25 17:30~19:00 檢討 全員

如有更動會公布在學校最新消息及本中心網頁

TOP

SPSS軟體操作課程

一、目的

配合本校教學卓越計畫,本中心針對生統有興趣的同仁,介紹SPSS軟體應用的操作,由本中心的生物統計分析師授課。

 週次 日期 時間 單元 內容
1 96/09/13 17:10~18:10 第一單元

第二單元

範例介紹與資料型態

譯碼本及資料型態介紹

2 96/09/27 17:10~18:10 第三單元

第四單元

SPSS的啟動與視窗介紹

常用資料處理介紹

3 96/10/11 17:10~18:10 第五單元

第六單元

摘要指標的呈現(敘述性統計)

資料的表現(圖表呈現&敘述統計)

4 96/10/25 17:10~18:10 第七單元

第八單元

第九單元

單一樣本平均數的比較

兩組樣本平均數的比較

兩組樣本中位數的比較

5 96/11/08 17:10~18:10 第十單元

第十一單元

配對樣本平均數的比較

配對樣本中位數的比較

6 96/11/22 17:10~18:10 第十二單元

第十三單元

多組樣本平均數的比較

多組樣本中位數的比較

7 96/12/06 17:10~18:10 第十四單元

第十五單元

第十六單元

相關係數

簡單線性迴歸

複迴歸分析

8 96/12/20 17:10~18:10 第十七單元

第十八單元

卡方檢定

McNemar檢定

9 97/01/03 17:10~18:10 第十九單元 邏輯斯迴歸

TOP


生統小教學(download)

統計分析師 林保萱

第二章 資料敘述 (Data Presentation)

描述性統計(descriptive statistics)是組織和歸納觀察數值的方法,可用來幫助研究者對一組資料整體特質作瞭解,在本章節我們將會提到有關於數值資料的種類和幾種常見屬於描述性統計的統計圖形介紹。

 數值資料的種類 (Types of Numerical Data)

1.類別資料(Nominal Data)

類別資料的數值本身沒有特定的順序,而只是代表不同的類別或組別。舉例來說性別或是疾病的有無,在實際的研究上我們通常以「1」代表男性,「0」代表女性,而10這兩個數字沒有特別意義,只是方便我們處理資料或分析資料。

 2.序位資料(Ordinal Data)

如果某類別資料的分類之間有順序大小(強度)的含意時,我們稱這種資料為序位資料。舉例來說受傷的嚴重度我們可以分為,「1」致死性傷害,「2」嚴重傷害,「3」中度傷害和「4」輕度傷害,因此在此例中,數值越小代表受傷越嚴重,但因序位資料的不具有等距特性,只能做大小的比較。

 3.等級化資料(Ranked Data)

等級化資料是我們將收集到的數值資料依據最大到最小給予一個數字,例如我們將美國1992年十大死亡原因排序,「1」代表第一名的心臟疾病 (死亡人數717,706),「2」代表第二名的惡性腫瘤 (死亡人數520,578),以此類推。

 4.離散型資料(Discrete Data)

離散型資料,數字本身反映出真實測量的數值含意,通常離散型資料只有整數,不會有小數的存在,並具有等距特質舉例來說,每個月出生嬰孩的數目,或每月死於交通意外事故的人數等等。

 5.連續型資料(Continuous Data)

連續型資料用來表現資料可被測量的量,連續型資料的數值也不受整數的限制,例如一個病患血中膽固醇的量、環境中污染物的量等,均可用連續型資料來表現。在實務上,研究者可能會將連續型資料轉換成離散型或序位資料等等,進行不同的資料呈現或分析。

統計圖形 (Graphs)

1.長條圖 (Bar Charts)

長條圖是用來表現類別或序位資料分佈的圖形,通常長條的長度是用來表示某類別的個數或百分比。長條圖的長條圖形通常寬度要相同,而條和條之間也要有適當的間隔。例如圖1

1 長條圖

2.直方圖 (Histograms)

直方圖主要是用來表現離散資料或連續資料分佈的圖形。在橫軸的表現上,組和組之間的標示為上一組組距最高值和下一組組距最低值的中間值,例如課本圖2.2119.5mg/100ml,在上一組區間為80-119,而下一組的區間為120-159,所以兩組之間以119.5來表示。直方圖的長度可以用來表示每一個組所佔的人數或相對百分比,長條的寬度反應組距,長條的面積總和為100%1。圖2為使用SAS統計軟體所繪製出的直方圖,以組距的中間值來區分不同的組別。

2 直方圖

3.盒型圖 (Box Plots)

盒型圖有時候又稱為盒鬚圖,主要將四分位數、極端值和平均值表現於圖形上。以圖3為例,在盒子的底端為25百分位數值,頂端為75百分位數值,盒子中線為中位數,而十字(+)表示資料的平均數,鬚的長度表示四分位數距的1.5倍(四分位距為75百分位數值和25百分位數值的差,也就是盒子的長度)。

3 盒型圖

4.二維散佈圖(Two-Way Scatter Plots)

用來表現兩個連續型資料之間的相關,如圖4

4 二維散佈圖

SAS軟體小教學:(點此下載)

此章節介紹四種圖形的SAS程式有興趣者請自行下載操作

TOP

 

第三章 數值摘要測量 (Numerical Summary Measures)

介紹幾種數值摘要測量,可分為資料集中趨勢和離散狀態兩部分來說明,如此可以讓我們透過一些測量更瞭解手上資料的特性。

集中趨勢的測量 (Measures of Central Tendency)

1.平均值 (Mean)

集中趨勢的描述中,平均值或稱算數平均數最常被使用。平均值就是把所有觀察值的資料加總然後除以觀察值的個案數,我們定義(x-bar)為平均值。

假設有一群氣喘病患肺功能狀況的資料於表1,而這一群病患FEV1的平均值計算如下:

1 氣喘病患FEV1值和性別

個案

FEV1(liters)

性別

個案

FEV1(liters)

性別

1

2.30

0

8

2.25

1

2

2.15

1

9

2.68

0

3

3.50

1

10

3.00

1

4

2.60

0

11

4.02

1

5

2.75

0

12

2.85

1

6

2.82

1

13

3.38

0

7

4.05

1

2.中位數 (Median)

中位數可以用來描述序位型、離散型和連續型資料的集中趨勢。其定義為一組資料的第50百分位數值。如果資料個案數(n)為奇數,那中位數為第[(n+1)/2]個觀察值,如果資料個案數為偶數,中位數為資料第(n/2)和第[(n+1)/2]資料的平均值。以表1的資料為例,先將FEV1由小排到大,我們就可以得到(13+1)/2=7,第7個資料數值2.82就是這一群病患FEV1的中位數。

2.15, 2.25, 2.30, 2.60, 2.68, 2.75, 2.82, 2.85, 3.00, 3.38, 3.50, 4.02, 4.05

3.眾數 (Mode)

第三個描述集中趨勢的測量為眾數,眾數可以適用所有型態的資料。其定義為一組觀察資料中出現次數最多的數值。以表1例,在FEV1變項沒有眾數,而性別的眾數為1,因1出現的次數為8次,而0出現的次數為5次。

 

離散情況的測量 (Measures of Dispersion)

1.全距 (Range)

全距的定義為資料中最大值減去最小值。

2.四分位距 (Interquartile Range)

四分位距的計算方式為資料中的第75百分位數值減第25分位數值,因此四分位距的範圍內包含50%的觀察值。計算表1FEV1四分位距,第75百分位數值為3.38,第25百分位數值為2.60,所以四分位距為3.382.60=0.78

3.變異數和標準差 (Variance and Standard Deviation)

變異數主要用來量化資料平均值和每一個觀察值的分散狀況,然而標準差為變異數的平方根。在實際應用上研究者比較常使用標準差,因為標準差的單位和觀察值的平均數單位相同。如果我們比較兩組資料的標準差,標準差較小的一組,表示該組觀察值的同質性較高,資料比較集中。

變異數(s2)的計算公式如下:

計算表1FEV1的標準差和變異數,計算的過程如下:

個案

1

2.30

-0.65

0.4225

2

2.15

-0.80

0.6400

3

3.50

0.55

0.3025

4

2.60

-0.35

0.1225

5

2.75

-0.20

0.0400

6

2.82

-0.13

0.0169

7

4.05

1.10

1.2100

8

2.25

-0.70

0.4900

9

2.68

-0.27

0.0739

10

3.00

0.05

0.0025

11

4.02

1.07

1.1449

12

2.85

-0.10

0.0100

13

3.38

0.43

0.1849

合計

38.35

0.00

4.6596

4.變異係數 (Coefficient of Variation)

當研究者想要比較兩不同單位資料離散情況時,可以使用變異係數。變異係數是將資料的標準差除以平均值後乘以100。表1FEV1的變異係數計算如下:

SAS軟體小教學:(點此下載)

SAS軟體中執行Proc Means可以輕鬆的幫研究者計算出上述的描述性統計,結果如下表

The MEANS Procedure

Analysis Variable : fev

Mean

Median

Range

Quartile Range

Std Dev

Coeff of Variation

2.95

2.82

1.90

0.78

0.62

21.12

TOP

 

第七章 理論機率分佈 (Theoretical Probability Distributions)

變數(variable)具有可以被測量或分類的特性,如果變數擁有不同的數值,且數值的產生是由「機會(機率)」決定的,這種變數稱為隨機變數(random variable)。每個隨機變數都有對應的機率分佈,這個章節我們將介紹幾種常見的機率分佈「二項式分佈」、「卜瓦松分佈」和「常態分佈」。

二項分佈 (The Binomial Distribution)

當一個二項隨機變數可以簡單分為兩類「成功」和「失敗」,例如「生或死」、「男或女」、「疾病或健康」,這種變數我們稱為白努力隨機變數(Bernoulli random variable)

舉個例子來說,如果我們隨機在一般族群選取3位個案來分析可能的抽煙狀況,假設在一般族群中抽煙率為29%,而我們有可能會觀察到4種不同的可能抽煙狀況,1.沒有人抽煙,2.一位抽煙,3.二位抽煙,4.三位抽煙,四種組合其可能發生的機率如下表,我們將抽煙機率設為p

個案1

個案2

個案3

機率

抽煙人數

0

0

0

(1-p)×(1-p)×(1-p)

0

1

0

0

p×(1-p)×(1-p)

1

0

1

0

(1-p)×p×(1-p)

1

0

0

1

(1-p)×(1-p)×p

1

1

1

0

p×p×(1-p)

2

1

0

1

p×(1-p)×p

2

0

1

1

(1-p)×p×p

2

1

1

1

p×p×p

3

因此四種組合的機率為下,

1.沒有人抽煙

P(X = 0) = (1-p)3 = (0.71)3 = 0.358

2.一位抽煙

P(X = 1) = p(1-p)2 + p(1-p)2 + p(1-p)2 = 3(0.29)(0.71)2 = 0.439

3.二位抽煙

P(X = 2) = p2(1-p) + p2(1-p) + p2(1-p) = 3(0.29)2(0.71) = 0.179

4.三位抽煙

P(X = 3) = (p)3 = (0.29)3 = 0.024

當我們選取n個白努力隨機變數,而事件成功的機率為p,我們描述這n個隨機變數各種事件組合的機率分佈,稱為二項式分佈(binomial distribution),而np稱為分佈的參數,所謂參數就是用來描述整個機率分佈特質的數值,當參數決定了,整個機率分佈函數也決定了。

在二項式分佈中,如果我們要計算特定事件的發生次數,如前面的例子在一般族群中抽出n為個案,而其中有x位抽煙的機率可以利用下面的公式計算。

如果研究者選取10位個案,想瞭解這10位個案中可能會有多少人吸煙,換句話說研究者想瞭解「在這個固定樣本數目之下,平均有多少個抽煙的個案」,平均值為np,變異數為np(1-p)。所以在樣本數為10位個案的情況下,平均的抽煙個案數為

而標準差為

 

卜瓦松分佈 (The Poisson Distribution)

我們設一個隨機變數X為一個人一年內會發生車禍的機率,假設這個機率為0.00024。理論上車禍的發生為一個二項的狀況,也就是「有車禍」和「沒車禍」,但因為事件的機率很低,通常會有比較大的研究樣本數,描述這種狀況的機率分佈稱為卜瓦松分佈(Poisson distribution),有時後我們也叫稀有事件分佈(distribution of rare events)

把隨機變數X作為我們有興趣事件在固定時間內的發生數目,而λ(希臘文,音lambda)為事件發生的平均次數。如果我們想要知道隨機變數X會發生x次的機率,計算公式如下:

還記得在二項式分佈,事件的平均次數和變異數分別為npnp(1-p),如果發生機率很低,也就是p很小,(1-p)就會很接近1,因此在卜瓦松分佈,平均值和變異數是完全相同的,且λ會隨著時間的區間長度成比例。

假設研究者隨機抽取10,000位民眾,想要來看看在一年期間內事件發生的次數,就先前的資料已知一個人一年內發生車禍的機率約為0.00024,所以就這10,000位民眾中,一年內平均發生車禍的次數為

λ= np = (10,000)(0.00024) = 2.4

而其中沒有任何民眾發生車禍的機率為

而有2位發生車禍的機率為

 

 

常態分佈 (The Normal Distribution)

在前面介紹的兩種機率分佈,隨機變數X都限定為整數,而研究者常遇到的隨機變數可能不限於整數或計數,可能是連續型態的資料,例如身高、血壓等。和隨機變數僅限定於整數的機率分佈不同,連續型態隨機變數X數值會接近無限種,且組距的寬度會近乎於零,如果我們用圖形來表示連續型態隨機變數X,幾乎為一條平滑的曲線,這條曲線也稱為機率密度(probability density)

在連續型機率分佈,或是機率密度下,隨機變數X有無限可能的數值,任何一特定值的機率為零,因此在連續型機率分佈下都是求特定x1x2之間的機率,也就是兩個數值之間所包含曲線下的面積。

常見用來描述連續型態隨機變數的機率分佈為常態分佈,有時候又稱為高斯分佈(Gaussian distribution)或鐘型曲線(bell-shaped curve),其機率密度的公式如下:

其中-< x <∞,π(pi)為一常數約3.14159,μ(mu)表示平均值,而σ(sigma)表示標準差,所以常態曲線兩個參數分別為μ和σ。

因常態分佈可能會有無限組合的平均值和標準差,我們通常只會製作一條特定曲線的表格,也就是μ=0和σ=1的曲線,我們稱為標準常態分佈(standard normal distribution)。在標準常態分佈中,隨機變數稱為Z,而Z的結果以z來表示。

如果我們想要知道特定z值和比這個z值大的機率,也就是z值右邊曲線下所佔的面積,或是說P(Z>z),我們就可以透過表格輕鬆的得到結果,不需要做複雜的計算。這裡列出幾個z值和他對應右邊曲線下的面積。

z

右尾面積

0.00

0.500

1.65

0.049

1.96

0.025

2.58

0.005

3.00

0.001

如果我們想要瞭解介於z =1.00z =1.00的機率,因標準常態分佈μ=0和σ=1,所以該區間面積就是等於μ±1σ之間的面積,可以表示成P(-1Z1)。因為我們知道P(Z1)P(Z<-1)的機率和為

 

所以介於z =1.00z =1.00機率就是把整個曲線下面積1,減去兩端的面積,計算方式如下

 

我們可以透過下面的公式把任何一種常態分佈轉換成標準常態分佈。

舉例來說,研究者知道美國1874歲老人的收縮壓平均值為129釐米水銀汞柱(mm Hg)和標準差為19.8mm Hg,而收縮壓資料的分佈接近於常態。如果研究者想要找出一個收縮壓的切點(x),能把整個族群中收縮壓最高2.5%的人找出,也就是P(X>x)=0.025。查表得知z=1.96的右端尾巴面積為0.025,我們就可計算收縮壓的切點

因此約有2.5%民眾的收縮壓值高於167.8 mm Hg,或是說有97.5%民眾的收縮壓值低於167.8 mm Hg

如果今天研究者想要瞭解在一般族群中有比率的人血壓高於150 mm Hg,計算方式如下

 

z =1.06的右端尾巴面積約為0.145,因此大約有14.5%的民眾血壓高於150 mm Hg

SAS軟體小教學:(點此下載)

「變數是否符合常態分佈?」是資料分析者化研究者常問的問題,在SAS軟體之中只要執行Proc Univariate可得到是否符合常態分佈檢定和Q-Q Plot (quantile-quantile plots)

如以表1FEV1來說明此變數是否符合常態分佈,結果如下表,以Shapiro-Wilk檢定來判斷,P值為0.2461大於0.05,因此無法拒絕虛無假設,即FEV1變數為常態分佈。在Q-Q Plot(5)中如果變項(+)愈落在對角直線,此變項分佈愈接近和常態分佈,這是用圖形來判斷資料是否遠離常態分佈的方法。

 

Tests for Normality

Test

Statistic

p Value

Shapiro-Wilk

W

0.919389

Pr < W

0.2461

Kolmogorov-Smirnov

D

0.179132

Pr > D

>0.1500

Cramer-von Mises

W-Sq

0.062519

Pr > W-Sq

>0.2500

Anderson-Darling

A-Sq

0.40428

Pr > A-Sq

>0.2500

5 Q-Q Plot

 

主要參考書目:

1.Marcello Pagano, Kimberlee Gauvreau, ”Principles of Biostatistics, Second Edition”, Duxbury, a division of Thomson Learning, Inc, 2000

2.譯者:林為森, 陳怡君, 陳清浩, 陳俞成, 謝秀幸, 魏美珠, ”生物統計原理第二版”, 新加坡商亞洲湯母生國際出版有限公司, 2002

TOP

本刊由中國醫藥大學 生物統計中心發行  網頁維護:林立偉