跳至主要内容

Randomized Complete Block Design (RCBD)

這個實驗方法的策略是通過將實驗單元分組,消除組(Block)間可能出現的變異,以此來增加實驗的準確性。

One factor

EX: 有 4 種牌子的輪胎:A,B,C,D,Y=Y= 跑 20000 公裡後的磨損量,我們想知道哪個牌子的輪胎最好。

    \implies factor: 4 levels and is fixed

  • Design 1: 4 台車,每台車裝 1 種牌子的輪胎。

    這是一個不好的設計,因為輪子品牌的效應與車的效應混在一起,具有強相關性。

  • Design 2 (CRD): 16 個輪胎完全隨機的分配到 4 台車的 4 個位置上。

    Yij=μ+τi+εijY_{ij}=\mu+\tau_i+\varepsilon_{ij}, 其中 τi\tau_i 代表輪子的效應。收集到以下數據:

    Car1Car2Car3Car4
    C12C\mid 12A14A\mid 14C10C\mid 10A13A\mid 13
    A17A\mid 17A13A\mid 13D11D\mid 11D9D\mid 9
    D11D\mid 11B14B\mid 14B14B\mid 14B8B\mid 8
    D14D\mid 14C12C\mid 12B13B\mid 13C9C\mid 9

    ANOVA:

    SourceSSdfMSFp-value
    Brand30.69310.232.440.115
    Error50.25124.19
    Total80.9415

    i.e. 四個牌子的輪胎的平均磨損量沒有顯著差異。

    這個設計中同樣沒有控制車的效應。

  • Design 3 (RCBD): 為了消除因為車帶來的潛在的變異

    Car1Car2Car3Car4
    C12C\mid 12A14A\mid 14C10C\mid 10A13A\mid 13
    A17A\mid 17A13A\mid 13D11D\mid 11D9D\mid 9
    D11D\mid 11B14B\mid 14B14B\mid 14B8B\mid 8
    D14D\mid 14C12C\mid 12B13B\mid 13C9C\mid 9

RCBD 由以下幾個部分組成:

  1. 每組包含所有的 trt。
  2. 在一個組中,trt 隨機分配到實驗單元上。

設 trt 的數量為 kk

Block 1Block 2\cdotsBlock b
π1\pi_1π1\pi_1\cdotsπ1\pi_1
π2\pi_2π2\pi_2\cdotsπ2\pi_2
\vdots\vdots\ddots\vdots
πa\pi_aπa\pi_a\cdotsπa\pi_a

其中 (π1,,πa)(\pi_1,\cdot,\pi_a)(1,,a)(1,\cdots,a) 的隨機排列。

當我們得到具體數據:

Block 1Block 2\cdotsBlock b
Y11kY_{11k}Y12kY_{12k}\cdotsY14kY_{14k}
Y21kY_{21k}Y22kY_{22k}\cdotsY24kY_{24k}
\vdots\vdots\vdots\vdots
Ya1kY_{a1k}Ya2kY_{a2k}\cdotsYa4kY_{a4k}

並建模為:

Yijk=μ+τi+βj+ε(ij)ki=1,,a,j=1,,b,k=1,,n=usually1\begin{gather*} Y_{ijk}=\mu+\tau_i+\beta_j+\varepsilon_{(ij)k} \\ i=1,\cdots,a,\quad j=1,\cdots,b,\quad k=1,\cdots,n\xlongequal{\text{usually}}1 \end{gather*}
  • τi\tau_i: trt 的效應
  • βj\beta_j: block 的效應

我們通常會假設 trt 與 block 直接沒有交互作用。並且 block effect 通常假設為 random effect,以這個例子來說,這樣假設可以將沒有實驗的車種的效應也納入考慮。

    \implies 以上數據的 ANOVA(RCBD):

SourcedfSSMSFp-value
Brand330.6910.27.8P(F3,9>)=0P(F_{3,9}>)=0
Block338.6912.9
Error911.561.3
Total1580.94

    H0:\implies H_0: No brand effect 可以在 5% 的顯著水準下被拒絕。

Remark:

  1. fixed effect 通常比 random effect 更重要。
  2. F 統計量的分母的自由度越高,則檢定的 power 越高。

When to use RCBD

在處理 paired data 時,我們將每對數據視為一個 block,來進行 RCBD。

AONVA with n=1    N=abn=1\implies N=ab

  • RCBD: Yij=μ+τi+βjεijY_{ij}=\mu+\tau_i+\beta_j\varepsilon_{ij}
  • CRD: Yij=μ+τi+εijY_{ij}=\mu+\tau_i+\varepsilon_{ij}
df(RCBD)df(RCBD)
Trta-1a-1
Blockb-1
Error(a-1)(b-1)a(b-1)
Totalab-1ab-1
    SSE,CRD=SSE,RCBD+SSBlock    σ^ε,CRD2=SSE,CRDa(b1)=SSE,RCBD+SSBlocka(b1)\begin{align*} \implies& SS_{E,CRD}=SS_{E,RCBD}+SS_{Block} \\ \implies& \hat{\sigma}^2_{\varepsilon,CRD}=\frac{SS_{E,CRD}}{a(b-1)}=\frac{SS_{E,RCBD}+SS_{Block}}{a(b-1)} \\ \end{align*}

    \implies 比較 RCBD 和 CRD 產生的 σ^ε2\hat{\sigma}^2_{\varepsilon} 的差異。如果有很大差異,則代表 RCBD 的效果很好。如果沒有差異,代表我們沒有必要使用 RCBD。

e.g.

dfSSMS
Brand330.6910.2
Block338.6912.9
Error911.561.3
Total1580.94
    σ^ε,CRD2=38.69+11.563+9=4.1875    σ^ε,CRD2σ^ε,RCBD2=4.18751.3=3.22\implies \hat{\sigma}^2_{\varepsilon,CRD}=\frac{38.69+11.56}{3+9}=4.1875\implies \frac{\hat{\sigma}^2_{\varepsilon,CRD}}{\hat{\sigma}^2_{\varepsilon,RCBD}}=\frac{4.1875}{1.3}=3.22

RCBD 的效果比 CRD 好了 3.22 倍。也就是說,如果想要 CRD 有和 RCBD 一樣的效果,需要 3.22 倍的樣本數。

Definition

Nuisance factor: 可能有影響但不感興趣的 factor。

對於不同類型的 nuisance factor,我們可以使用不同的方法來處理:

  1. 未知且不可控:使用隨機化來平衡其影響。
  2. 已知但不可控:ANCOVA (Analysis of Covariance)。
  3. 已知且可控:Blocking。

Latin Square Design

在輪子的例子中,不僅車的不同可能會造成影響,輪子安裝位置的不同也可能有影響。如果兩個因素都考慮進去,那麼我們就會有兩個方向的 block,這就是 Latin Square Design。

Definition

p×pp\times p Latin Square Design

  1. 必須是正方形,其中 pp 是 trt 的數量。
  2. 每行每列中,每個 trt 只能出現一次 (類似數獨)。

e.g. Latin square 4x4

1234
1ABCD
2BCDA
3CDAB
4DABC

不同邊長的 Latin square 的組合數是固定的。因此我們可以計算出所有可能的組合,然後隨機選擇一個,將對應的 trt 分配到實驗單元上。

等價的,我們也可以計算出最簡單的組合,然後將實驗單元隨機分配到每個格子上。

One factor Latin Square Design

Yijk=μ+τi+βj+γk+εijki=1,,p,j=1,,p,k=k(i,j){1,,p}\begin{gather*} Y_{ijk}=\mu+\tau_i+\beta_j+\gamma_k+\varepsilon_{ijk}\\ i=1,\cdots,p,\quad j=1,\cdots,p,\quad k=k(i,j)\in\{1,\cdots,p\} \end{gather*}
  • τ\tau: 感興趣的效應
  • β\beta: 一個方向的 block 的效應
  • γ\gamma: 另一個方向的 block 的效應
totalτ\tauβ\betaγ\gammaerror
dfp21p^2-1p1p-1p1p-1p1p-1(p2)(p1)(p-2)(p-1)

繼續使用輪胎的例子,我們將輪子位置和車的效應都納入考慮:

pos\car1234
1C12C\mid12D11D\mid11A13A\mid13B8B\mid844
2B14B\mid14C12C\mid12D11D\mid11A13A\mid1350
3A17A\mid17B14B\mid14C10C\mid10D9D\mid950
4D13D\mid13A14A\mid14B13B\mid13C9C\mid949
56514739193
    SSpos=442+502+502+4924193216=6.19\implies SS_{pos}=\frac{44^2+50^2+50^2+49^2}{4}-\frac{193^2}{16}=6.19

ANOVA (Latin Square):

dfSSMSFp-value
Brand330.6910.229211.420.007
Car338.6912.8958
Pos36.192.062
Error65.370.8958
Total1580.94

    \implies Brands 之間有顯著差異。

用 SNK test 來選擇最好的品牌:

  1. MSE=0.8958MS_E=0.8958 with df=6df=6     SYˉ=MSEn=0.89584=0.047\implies S_{\bar{Y}_{\cdot}}=\sqrt{\frac{MS_E}{n}}=\sqrt{\frac{0.8958}{4}}=0.047

  2. pp234
    q0.05(p,6)q_{0.05}(p,6)3.464.344.9
    SNK0.05(p)SNK_{0.05}(p)1.632.042.3
  3. CDBA
    Sample mean10.7511.0012.2514.25
    diff&criticalDBA
    C0.251.630.25\not >1.631.52.41.5\not >2.43.5>2.33.5>2.3
    D1.251.631.25\not >1.632.25>2.042.25>2.04
    B2>1.632>1.63

        \implies A 显著大于其他品牌,而 B,C,D 之间没有显著差异。