第002期 TEL:04-22078539 本中心網址:http://www2.cmu.edu.tw/~biostat/

 

  生物統計中心 老師輪值表
  諮詢師及種子教師訓練第一、二次籌備會議
  本月10月份學術演講
 
  生物統計教室
      適合度檢定:卡方分布之自由度

 

 

生物統計中心 老師輪值表
 

<<生統中心老師輪值表>>

時段

星期一

星期二

星期三

星期四

星期五

9:00~12:00

吳宏達老師

李采娟老師

鄭光甫老師

鄭光甫老師
梁文敏老師

梁文敏老師

13:00~17:00

李郁芬老師

 

 

王俊毅老師

吳宏達老師

點擊老師姓名 可瀏覽關於每一位老師的學經歷詳細資料

 

TOP

 
諮詢師及種子教師訓練第一、二次籌備會議
 

95913日下午30 ~ 40分、929日上午1010 ~1120

活動地點:立夫教學大樓151504

活動概述:諮詢師及種子教師訓練說明及人員介紹,生統諮詢實例,提問與討論

諮詢師及種子教師訊練第一次籌備會議活動時間:95913
由李郁芬老師及林保萱、廖麗娜統計分析師說明訓練大綱、成員及生統分析實例

 

諮詢師及種子教師訊練第二次籌備會議活動時間:95929
由吳宏達老師說明訓練大綱及生統分析實例

TOP

 
本月10月份學術演講
 
日期 時間 地點 演講人

2006/10/04
(三)

PM3:10 立夫大樓151504 蔡政安 博士

演講主題

Screening and Genotyping using 100K SNPs Oligonucleotide Arrays

演講內容簡介

Recent advances in Affymetrix 100K single nucleotide polymorphism (SNP) genotyping chips have made it possible to obtain detailed information of genetic code in the form of DNA strands or chromosomes. This high-throughput genotyping platform enables genotyping over 100,000 SNPs per individual on a single oligonucleotide array. In order to deal with this huge amount of data when large number of arrays will be processed, feasible and efficient methods must be developed. In this talk, I will introduce the development of this new microarray-based system and the basic issues of preprocessing. In addition, the algorithm behind the Affymetrix's GDAS software package will be presented. I will conclude with some problems and issues in the statistical analysis, worthy of development of alternative approaches.

 

日期 時間 地點 演講人

2006/10/11
(三)

PM3:10

立夫大樓 13樓階梯教室

陳章榮 博士

演講主題

Mathematical Framework for Health Risk Assessment

演講內容簡介

Probabilistic risk assessment is gaining acceptance as the most appropriate way to characterize and communicate uncertainties in estimates of human health risk and/or reference levels of exposure such as benchmark doses. Allowable exposure levels for humans are usually obtained from fitting a dose response model to data from laboratory animal experiments. Factors that need to be considered in establishing allowable exposure levels are: the relationship between the administrative dose and effective dose for animal species, the dose-response model for experimental animals, the distribution for the uncertainty between experimental animals and an average human (interspecies uncertainty), the distribution of individual susceptibility in the population (intraspecies uncertainty), and the distribution of the actual exposure level received by an individual (exposure assessment).   This talk presents a general mathematical framework for a probabilistic approach to risk assessment that integrates these factors to construct the dose-response model for the average human and the dose-response model for sensitive populations.

 
日期 時間 地點 演講人

2006/10/18
(三)

PM3:10

立夫大樓 13樓階梯教室

陳章榮 博士

演講主題

Some Statistical Issues in Microarray Data and Data Analysis

演講內容簡介

DNA microarray technology provides powerful tools to study expression levels of thousands of genes simultaneously.  This technology has increasingly being used in disease diagnosis, identifying biomarkers, and predicting clinical outcomes.  A microarray experiment involves many steps; each step is a potential source of variation.  There has been concerned with the reliability of microarray data; the technology poses numerous statistical issues in methods for data analysis.  In this talk, I will present an analysis of microarray data from five microarray platforms and describe various procedures to identify differentially expressed genes for class comparison or class prediction.
 

TOP

 

生物統計教室

 適合度檢定:卡方分布之自由度
Goodness of Fit Test:
the degrees of freedom of a chi-square distribution
(download)

王俊毅

生物統計中心 助理教授

  類別資料(categorical data)和間斷型資料(discrete data) 是醫護、健康領域中相當常見的資料型態。分析這類資料的方法,除了建立統計模型外,最常見的無母數統計方法應屬卡方檢定 (the chi-square test)。當樣本依其分類建立列聯表後,卡方檢定便可用來檢定因子間的相關性(association) 或不同群體間的同質性(homogeneity)。此外,卡方分布亦可用來做適合度檢定(goodness-of-fit test),以驗證理論分布是否正確。雖然卡方檢定對許多人而言是簡易的統計方法,然而,分析人員卻常在檢定某分布的適合度時,對卡分分布的自由度感到困惑。以下將簡述卡方檢定的形式,並舉例說明卡方分布自由度之設定原則。

檢定統計量

  欲比較樣本之觀察次數和其理論分布是否相符,例如,想瞭解某一筆資料是否來自二項分布、多項方布、常態分布等,便可應用卡方檢定來進行驗證。令分別表示第i類的觀察個數樣本和期望個數群體,則卡方檢定定義為:

  直覺上,若樣本確實來自該一理論分布,其觀察次數和期望個數應相差無幾,這會使得的值很小。反之,若的值很大,則代表該樣本所對應的群體分布並不如期望。

應用模型

  以卡方檢定進行分布適合度的驗證相當簡單,但其分布自由度重要性卻常被忽略。一般初學者常誤以為:群體可分為類,則檢定適合度的卡方分布自由度為。事實上,卡方檢定在此應用中可區分為二種變化型。一為外部模型(extrinsic model),檢定時不須額外估計群體參數。若檢定時至少有一個群體參數是未知而須被估計,則屬於內部模型(intrinsic model)

  舉例而言,檢定一顆骰子是否公正,群體參數出現點數1, 2, ..., 6的機率並不須估計,因此若投擲100次中觀察資料如下

點數

1

2

3

4

5

6

觀察次數

13

18

16

21

17

15

.

  六個類別對應之自由度為。由於,顯示在顯著水準0.05下,此觀察資料無法推翻此顆骰子為公正的假設。其它如檢定某試驗成功機率是否高於0.8、某株種之花色是否具孟德爾模型等,皆屬外部模型的例子。

  若花蓮縣政府欲瞭解每年由其行政區域登陸的颱風個數是否具卜瓦松分布(Poisson distribution),收集19082005年的歷史資料如下

颱風登陸次數/

0

1

2

3

4

5

>6

總和

頻率

18

34

24

16

3

1

2

98

由於群體參數未知,此檢定屬內部模型。以樣本98年間發生159次估計群體平均為/年。經卜瓦松的理論機率計算可發現颱風登陸次數4, 5>6的期望頻率過低,因此檢定時合併三類為 “ >4 ”,重新整理資料如下

颱風登陸次數/

0

1

2

3

>4

觀察頻率

18

34

24

16

6

期望頻率

19.40

31.36

25.48

13.72

8.04

。此時卡方分布之自由度為 ,其中第二個 乃由於估計群體參數所致。故顯著水準0.05下,此資料無法推翻颱風登錄次數具卜瓦松分布的假設。其它如檢定某一基因座在群體中是否達哈溫平衡(Hardy-Weinberg equilibrium),亦屬內部模型之範例。

假設和限制

  若分析資料型態為連續型(continuous),在應用卡方檢定前,必須取適當切點將群體區分成數個類別。若資料本身屬於類別或間斷型,則僅須依其自然分類即可。然而,由於卡方檢定是大樣本下的結果,若某些類別內之期望個數過少少於5),則建議合併鄰近類別或其它非主要的類別以達此要求如前例所示

本資料由生物統計中心提供

聯絡請洽:(04) 2207-8539

校內分機:1601,1602,1603

Email: biostat@mail.cmu.edu.tw

TOP

本刊由中國醫藥大學 生物統計中心發行  網頁維護:林立偉