回歸參數的信賴區間
Remark :
W ~ ∼ N m ( η ~ , Σ W ~ ) ⟹ B l × m W ~ + C ~ l × 1 ∼ N l ( B η ~ + C ~ , B Σ W ~ B t ) \utilde{W}\sim N_m(\utilde{\eta}, \cancel{\Sigma}_{\utilde{W}})\implies B_{l\times m}\utilde{W}+\utilde{C}_{l\times 1}\sim N_l(B\utilde{\eta}+\utilde{C}, B\cancel{\Sigma}_{\utilde{W}}B^t) W ∼ N m ( η , Σ W ) ⟹ B l × m W + C l × 1 ∼ N l ( B η + C , B Σ W B t )
If D D D is full rank, then b ~ = ( D t D ) − 1 Y ~ \utilde{b}=(D^tD)^{-1}\utilde{Y} b = ( D t D ) − 1 Y , where Y ~ ∼ N n ( D β ~ , σ 2 I ) \utilde{Y}\sim N_n(D\utilde{\beta}, \sigma^2I) Y ∼ N n ( D β , σ 2 I )
E b ~ = β ~ E\utilde{b}=\utilde{\beta} E b = β
σ 2 { b ~ } = ( D t D ) − 1 D t σ 2 I ( D t D ) − 1 = σ 2 ( D t D ) − 1 \sigma^2\set{\utilde{b}}=(D^tD)^{-1}D^t\sigma^2I(D^tD)^{-1}=\sigma^2(D^tD)^{-1} σ 2 { b } = ( D t D ) − 1 D t σ 2 I ( D t D ) − 1 = σ 2 ( D t D ) − 1
⟹ b ~ ∼ N p ( β ~ , σ 2 ( D t D ) − 1 ) \implies \utilde{b}\sim N_p(\utilde{\beta}, \sigma^2(D^tD)^{-1}) ⟹ b ∼ N p ( β , σ 2 ( D t D ) − 1 )
Note :
e ~ = Y ~ − Y ^ ~ = ( I − H ) Y ~ = M Y ~ ∼ N n ( 0 ~ , σ 2 M ) \utilde{e}=\utilde{Y}-\utilde{\hat{Y}}=(I-H)\utilde{Y}=M\utilde{Y}\sim N_n(\utilde{0}, \sigma^2M) e = Y − Y ^ = ( I − H ) Y = M Y ∼ N n ( 0 , σ 2 M ) , and tr ( M ) = n − p = rank ( M ) ⟹ M − 1 \text{tr}(M)=n-p=\text{rank}(M)\implies M^{-1} tr ( M ) = n − p = rank ( M ) ⟹ M − 1 不存在
E [ e ~ ] = M ⋅ E [ Y ~ ] = M θ ~ = 0 ~ E[\utilde{e}]=M\cdot E[\utilde{Y}]=M\utilde{\theta}=\utilde{0} E [ e ] = M ⋅ E [ Y ] = M θ = 0
σ 2 { e ~ } = σ 2 ⋅ M \sigma^2\set{\utilde{e}}=\sigma^2\cdot M σ 2 { e } = σ 2 ⋅ M
⟹ σ 2 { ( b ~ e ~ ) } = σ 2 { ( ( D t D ) − 1 D t M ) Y ~ } = ( ( D t D ) − 1 D t M ) σ 2 I ( D ( D t D ) − 1 , M t ) = σ 2 [ ( D t D ) − 1 0 0 M ] = [ σ 2 { b ~ } 0 0 σ 2 { e ~ } ] ⟹ b ~ ⊥ e ~ ⟹ b ~ ⊥ SSE ≜ ∣ ∣ e ~ ∣ ∣ 2 \begin{align*}
\implies \sigma^2\left\{\begin{pmatrix}
\utilde{b}\\
\utilde{e}
\end{pmatrix}\right\}&=\sigma^2\left\{\begin{pmatrix}
(D^tD)^{-1}D^t\\
M
\end{pmatrix}\utilde{Y} \right\}\\
&=\begin{pmatrix}
(D^tD)^{-1}D^t\\
M
\end{pmatrix}\sigma^2I\begin{pmatrix}
D(D^tD)^{-1}, M^t
\end{pmatrix}\\
&=\sigma^2\begin{bmatrix}
(D^tD)^{-1} & 0\\
0 & M
\end{bmatrix}\\
&=\begin{bmatrix}
\sigma^2\set{\utilde{b}} & 0\\
0 & \sigma^2\set{\utilde{e}}
\end{bmatrix}\\
\implies& \utilde{b}\perp\utilde{e}\implies \utilde{b}\perp\text{SSE}\triangleq ||\utilde{e}||^2
\end{align*} ⟹ σ 2 { ( b e ) } ⟹ = σ 2 { ( ( D t D ) − 1 D t M ) Y } = ( ( D t D ) − 1 D t M ) σ 2 I ( D ( D t D ) − 1 , M t ) = σ 2 [ ( D t D ) − 1 0 0 M ] = [ σ 2 { b } 0 0 σ 2 { e } ] b ⊥ e ⟹ b ⊥ SSE ≜ ∣∣ e ∣ ∣ 2
Now, b ~ ∼ N p ( β , σ 2 ( D t D ) − 1 ) \utilde{b}\sim N_p(\beta, \sigma^2(D^tD)^{-1}) b ∼ N p ( β , σ 2 ( D t D ) − 1 )
⟹ b j = ( 0 , 0 , ⋯ , 1 ⏟ j -th , 0 , ⋯ , 0 ) b ~ = c j ~ t b ~ ∼ N ( c j ~ t β ~ , c j ~ t σ 2 { b ~ } c j ~ ⏟ j × j of σ 2 { b ~ } ) \implies b_j=(0, 0, \cdots, \underbrace{1}_{j\text{-th}}, 0, \cdots, 0)\utilde{b}=\utilde{c_j}^t\utilde{b}\sim N(\utilde{c_j}^t\utilde{\beta}, \underbrace{\utilde{c_j}^t\sigma^2\set{\utilde{b}}\utilde{c_j}}_{j\times j\text{ of }\sigma^2\set{\utilde{b}}}) ⟹ b j = ( 0 , 0 , ⋯ , j -th 1 , 0 , ⋯ , 0 ) b = c j t b ∼ N ( c j t β , j × j of σ 2 { b } c j t σ 2 { b } c j )
S 2 { b j } = σ 2 { b j } ∣ σ 2 = MSE S^2\set{b_j}=\sigma^2\set{b_j}|_{\sigma^2=\text{MSE}} S 2 { b j } = σ 2 { b j } ∣ σ 2 = MSE
∀ j = 0 , 1 , ⋯ , k \forall j=0,1,\cdots, k ∀ j = 0 , 1 , ⋯ , k
b j − β j S { b j } ∼ t n − p \frac{b_j-\beta_j}{S\set{b_j}}\sim t_{n-p} S { b j } b j − β j ∼ t n − p
[ b j ± S { b j } t n − p , 1 − α / 2 ] ≜ CI ( j ; α ) is 1 − α confidence interval for β j ∀ j = 0 , 1 , ⋯ , k [b_j\plusmn S\set{b_j}t_{n-p,1-\alpha/2}]\triangleq \text{CI}(j;\alpha)\quad\text{ is }1-\alpha\text{ confidence interval for }\beta_j\quad\forall j=0,1,\cdots,k [ b j ± S { b j } t n − p , 1 − α /2 ] ≜ CI ( j ; α ) is 1 − α confidence interval for β j ∀ j = 0 , 1 , ⋯ , k
i.e. P ( β j ∈ CI ( j ; α ) ) = 1 − α P(\beta_j\in\text{CI}(j;\alpha))=1-\alpha P ( β j ∈ CI ( j ; α )) = 1 − α
我們可以用上面的信賴區間來作建設鑒定
H 0 : β j = β j , 0 v.s. H 1 : β j ≠ β j , 0 H_0:\beta_j=\beta_{j,0}\quad\text{ v.s. }\quad H_1:\beta_j\ne \beta_{j,0} H 0 : β j = β j , 0 v.s. H 1 : β j = β j , 0
並且我們拒絕 H 0 H_0 H 0 的條件是 β j ∉ CI ( j ; α ) \beta_j\notin\text{CI}(j;\alpha) β j ∈ / CI ( j ; α ) 。通常 β j , 0 = 0 \beta_{j,0}=0 β j , 0 = 0
Note : C I ( j ; α ) CI(j;\alpha) C I ( j ; α ) 是對於每個 β j \beta_j β j 的信賴區間。
在許多參數中,我們會關心哪些參數是顯著的,哪些參數是不顯著的。雖然我們可以一個一個做檢定,但有的時候我們需要同時考慮多個參數。這時我們需要用這些參數的共同(simultaneous)信賴區間來做判斷。
比如我們需要同時判斷 ( β 1 , β 3 , β 9 ) (\beta_1, \beta_3, \beta_9) ( β 1 , β 3 , β 9 ) 是否顯著,我們可以用這三個參數的共同信賴區間來做判斷。雖然我們能找到它們各自的 1 − α 1-\alpha 1 − α 信賴區間,但將三個區間作交集並不能得到它們共同的 1 − α 1-\alpha 1 − α 信賴區間。i.e.
P ( β 1 ∈ CI ( 1 ; α ) , β 3 ∈ CI ( 3 ; α ) , β 9 ∈ CI ( 9 ; α ) ) = P ( ( β 1 β 3 β 9 ) ∈ CI ( 1 ; α ) × CI ( 3 ; α ) × CI ( 9 ; α ) ) ≠ 1 − α 通常 < 1 − α \begin{align*}
&P\left(\beta_1\in\text{CI}(1;\alpha), \beta_3\in\text{CI}(3;\alpha), \beta_9\in\text{CI}(9;\alpha)\right)\\
=&P\left(\begin{pmatrix}
\beta_1\\
\beta_3\\
\beta_9
\end{pmatrix}\in\text{CI}(1;\alpha)\times\text{CI}(3;\alpha)\times\text{CI}(9;\alpha)\right)\\
\ne& 1-\alpha \quad\text{ 通常 <} 1-\alpha
\end{align*} = = P ( β 1 ∈ CI ( 1 ; α ) , β 3 ∈ CI ( 3 ; α ) , β 9 ∈ CI ( 9 ; α ) ) P β 1 β 3 β 9 ∈ CI ( 1 ; α ) × CI ( 3 ; α ) × CI ( 9 ; α ) 1 − α 通常 < 1 − α
注意到
P ( β j ∈ CI ( j ; α ) ) = 1 − α ⟺ 1 − P ( β j ∉ CI ( j ; α ) ) = 1 − α ⟺ P ( β j ∉ CI ( j ; α ) ) = α \begin{align*}
&P\left(\beta_j\in\text{CI}(j;\alpha)\right)=1-\alpha\\
\iff& 1-P\left(\beta_j\notin\text{CI}(j;\alpha)\right)=1-\alpha\\
\iff& P\left(\beta_j\notin\text{CI}(j;\alpha)\right)=\alpha
\end{align*} ⟺ ⟺ P ( β j ∈ CI ( j ; α ) ) = 1 − α 1 − P ( β j ∈ / CI ( j ; α ) ) = 1 − α P ( β j ∈ / CI ( j ; α ) ) = α
⟹ P ( β 1 ∈ CI ( 1 ; α ) , β 3 ∈ CI ( 3 ; α ) , β 9 ∈ CI ( 9 ; α ) ) = 1 − P ( β 1 ∉ CI ( 1 ; α ) or β 3 ∉ CI ( 3 ; α ) or β 9 ∉ CI ( 9 ; α ) ) ≥ 1 − ∑ j = 1 , 3 , 9 P ( β j ∉ CI ( j ; α ) ) = 1 − 3 α \begin{align*}
\implies & P(\beta_1\in\text{CI}(1;\alpha), \beta_3\in\text{CI}(3;\alpha), \beta_9\in\text{CI}(9;\alpha))\\
=&1-P(\beta_1\notin\text{CI}(1;\alpha)\text{ or }\beta_3\notin\text{CI}(3;\alpha)\text{ or }\beta_9\notin\text{CI}(9;\alpha))\\
\ge& 1-\sum_{j=1,3,9}P(\beta_j\notin\text{CI}(j;\alpha))=1-3\alpha
\end{align*} ⟹ = ≥ P ( β 1 ∈ CI ( 1 ; α ) , β 3 ∈ CI ( 3 ; α ) , β 9 ∈ CI ( 9 ; α )) 1 − P ( β 1 ∈ / CI ( 1 ; α ) or β 3 ∈ / CI ( 3 ; α ) or β 9 ∈ / CI ( 9 ; α )) 1 − j = 1 , 3 , 9 ∑ P ( β j ∈ / CI ( j ; α )) = 1 − 3 α
這樣我們就有了一個下界。在給定 α \alpha α 時,我們可以找一個 α 0 \alpha_0 α 0 s.t.
P ( β j ∈ CI ( j ; α 0 ) , j = 1 , 3 , 9 ) ≥ 1 − 3 α = 1 − α ⟹ α 0 = α 3 P\left(\beta_j\in\text{CI}(j;\alpha_0), j=1,3,9\right)\ge 1-3\alpha=1-\alpha\implies\alpha_0=\frac{\alpha}{3} P ( β j ∈ CI ( j ; α 0 ) , j = 1 , 3 , 9 ) ≥ 1 − 3 α = 1 − α ⟹ α 0 = 3 α
一般來說,β π ( j ) , j = 1 , 2 , ⋯ , g \beta_{\pi(j)}, j=1,2,\cdots, g β π ( j ) , j = 1 , 2 , ⋯ , g where π ( j ) , j = 1 , ⋯ , g ∈ { 0 , 1 , ⋯ , k } \pi(j), j=1,\cdots, g\in\set{0,1,\cdots, k} π ( j ) , j = 1 , ⋯ , g ∈ { 0 , 1 , ⋯ , k } 。即我們在 k + 1 k+1 k + 1 個參數中選擇 g g g 個不同的參數,找它們的共同信賴區間。
P ( β π ( j ) ∈ CI ( π ( j ) ; α 0 ) , j = 1 , 2 , ⋯ , g ) ≥ 1 − g α = 1 − α ⟹ α 0 = α g P\left(\beta_{\pi(j)}\in\text{CI}(\pi(j);\alpha_0), j=1,2,\cdots,g\right)\ge 1-g\alpha=1-\alpha\implies\alpha_0=\frac{\alpha}{g} P ( β π ( j ) ∈ CI ( π ( j ) ; α 0 ) , j = 1 , 2 , ⋯ , g ) ≥ 1 − gα = 1 − α ⟹ α 0 = g α
Bonferroni joint confidence interval :
Bonferroni joint confidence interval for g , β j g, \beta_j g , β j 's with family confidence coefficient ≥ 1 − α \ge 1-\alpha ≥ 1 − α is
∏ j = 1 g CI ( π ( j ) ; α 0 ) = ∏ j = 1 g [ β π ( j ) ± S { b π ( j ) } t n − p , 1 − α 2 g ] \prod_{j=1}^g\text{CI}(\pi(j);\alpha_0)=\prod_{j=1}^g\left[\beta_{\pi(j)}\plusmn S\set{b_{\pi(j)}}t_{n-p,1-\frac{\alpha}{2g}}\right] j = 1 ∏ g CI ( π ( j ) ; α 0 ) = j = 1 ∏ g [ β π ( j ) ± S { b π ( j ) } t n − p , 1 − 2 g α ]
用這種方法在做檢驗 H 0 : β π ( j ) = 0 , ∀ j = 1 , 2 , ⋯ , g H_0:\beta_{\pi(j)}=0, \forall j=1,2,\cdots, g H 0 : β π ( j ) = 0 , ∀ j = 1 , 2 , ⋯ , g vs H 1 : not H 0 H_1:\text{ not }H0 H 1 : not H 0 時,reject H 0 H_0 H 0 at level α ⟺ 0 ∉ CI ( π ( j ) ; α / g ) \alpha\iff 0\notin \text{CI}(\pi(j);\alpha/g) α ⟺ 0 ∈ / CI ( π ( j ) ; α / g ) for some j j j .
而這個信賴區間在向量空間中會是一個立方體。這個立方體每個邊所在的子空間就是 β π ( j ) \beta_{\pi(j)} β π ( j ) 所在的空間。
Remark : 當 g g g 小的時候,Bonferroni 方法是好用的。但當 g g g 很大時,α / g \alpha/g α / g 會變得很小,這樣單個參數的信賴區間就會變得很寬,這樣的話我們就很難拒絕虛無假設了,這個方法的 power 會變得很低。
因為 Bonferroni joint confidence interval 獲得的共同信賴區間是大於 1 − α 1-\alpha 1 − α 的,但我們當然更想要的是獲得恰好等於 1 − α 1-\alpha 1 − α 的信賴區間。
Note :
By lemma 6 , W ~ ∼ N m ( η ~ , Σ W ~ ) \utilde{W}\sim N_m(\utilde{\eta}, \cancel{\Sigma}_{\utilde{W}}) W ∼ N m ( η , Σ W ) , when Σ W ~ \cancel{\Sigma}_{\utilde{W}} Σ W exists, ( W ~ − η ~ ) t Σ W ~ − 1 ( W ~ − η ~ ) ∼ χ m 2 (\utilde{W}-\utilde{\eta})^t\cancel{\Sigma}_{\utilde{W}}^{-1}(\utilde{W}-\utilde{\eta})\sim\chi^2_m ( W − η ) t Σ W − 1 ( W − η ) ∼ χ m 2
b ~ ∼ N p ( β , σ 2 { b ~ } ) ⟹ ( b ~ − β ~ ) t ( σ 2 { b ~ } ) − 1 ( b ~ − β ~ ) ∼ χ p 2 \utilde{b}\sim N_p(\beta, \sigma^2\set{\utilde{b}})
\implies (\utilde{b}-\utilde{\beta})^t(\sigma^2\set{\utilde{b}})^{-1}(\utilde{b}-\utilde{\beta})\sim\chi^2_p b ∼ N p ( β , σ 2 { b }) ⟹ ( b − β ) t ( σ 2 { b } ) − 1 ( b − β ) ∼ χ p 2
但我們不知道方差 σ 2 { b ~ } \sigma^2\set{\utilde{b}} σ 2 { b } ,所以我們用 S 2 { b ~ } S^2\set{\utilde{b}} S 2 { b } 來估計。因為 S 2 { b ~ } / σ 2 { b ~ } = M S E / σ 2 ⟹ S 2 { b ~ } = σ 2 { b ~ } M S E / σ 2 S^2\set{\utilde{b}}/\sigma^2\set{\utilde{b}}=MSE/\sigma^2\implies S^2\set{\utilde{b}}=\sigma^2\set{\utilde{b}}MSE/\sigma^2 S 2 { b } / σ 2 { b } = MSE / σ 2 ⟹ S 2 { b } = σ 2 { b } MSE / σ 2
( b ~ − β ~ ) t ( S 2 { b ~ } ) − 1 ( b ~ − β ~ ) = ( b ~ − β ~ ) t ( σ 2 { b ~ } ) − 1 ( b ~ − β ~ ) ∼ χ p 2 M S E σ 2 ∼ χ n − p 2 n − p (\utilde{b}-\utilde{\beta})^t(S^2\set{\utilde{b}})^{-1}(\utilde{b}-\utilde{\beta})
=\frac{(\utilde{b}-\utilde{\beta})^t(\sigma^2\set{\utilde{b}})^{-1}(\utilde{b}-\utilde{\beta})\sim \chi^2_p}{\frac{MSE}{\sigma^2}\sim\frac{\chi^2_{n-p}}{n-p}} ( b − β ) t ( S 2 { b } ) − 1 ( b − β ) = σ 2 MSE ∼ n − p χ n − p 2 ( b − β ) t ( σ 2 { b } ) − 1 ( b − β ) ∼ χ p 2
因為分母與 b ~ \utilde{b} b 相關,而分子與 e ~ \utilde{e} e 相關,並且 b ~ ⊥ e ~ \utilde{b}\perp\utilde{e} b ⊥ e ,所以分子與分母獨立。
⟹ ( b ~ − β ~ ) t ( S 2 { b ~ } ) − 1 ( b ~ − β ~ ) p ∼ χ p 2 / p χ n − p 2 / ( n − p ) ∼ F p , n − p \implies \frac{(\utilde{b}-\utilde{\beta})^t(S^2\set{\utilde{b}})^{-1}(\utilde{b}-\utilde{\beta})}{p}\sim \frac{\chi^2_p/p}{\chi^2_{n-p}/(n-p)}\sim F_{p,n-p} ⟹ p ( b − β ) t ( S 2 { b } ) − 1 ( b − β ) ∼ χ n − p 2 / ( n − p ) χ p 2 / p ∼ F p , n − p
1 − α = P ( ( b ~ − β ~ ) t ( S 2 { b ~ } ) − 1 ( b ~ − β ~ ) p > F p , n − p , α ⏟ ( ∗ ) ) = P ( β ~ ∈ C ∗ ( b ~ ; α ) ) \begin{align*}
1-\alpha&=P\left(\underbrace{\frac{(\utilde{b}-\utilde{\beta})^t(S^2\set{\utilde{b}})^{-1}(\utilde{b}-\utilde{\beta})}{p}>F_{p,n-p,\alpha}}_{(*)}\right)\\
&=P\left(\utilde{\beta}\in C^*(\utilde{b};\alpha)\right)
\end{align*} 1 − α = P ( ∗ ) p ( b − β ) t ( S 2 { b } ) − 1 ( b − β ) > F p , n − p , α = P ( β ∈ C ∗ ( b ; α ) )
⟹ C ∗ ( b ~ ; α ) = { β ~ : ( ∗ ) holds } \implies C^*(\utilde{b};\alpha)=\set{\utilde{\beta}:(*)\text{ holds}} ⟹ C ∗ ( b ; α ) = { β : ( ∗ ) holds } 就恰好是 β ~ \utilde{\beta} β 的 1 − α 1-\alpha 1 − α 信賴區間。這對於 β π ~ \utilde{\beta_\pi} β π 也同樣成立。
而這個信賴區間在向量空間中會是一個橢圓體(ellipsoid)。並且這個橢球的體積會比 Bonferroni 方法得到的立方體體積小,相當於是把立方體的角削圓了。
新值的預測
If D D D 是 full rank ⟹ ∀ x h ~ t ∈ R p \implies\forall\utilde{x_h}^t\in\R^p ⟹ ∀ x h t ∈ R p can manke x h ~ t β ~ \utilde{x_h}^t\utilde{\beta} x h t β estimable
當給定一組新的 x h ~ \utilde{x_h} x h 時,我們會關係一些問題,比如:
E ( Y h ) = x h ~ β ~ E(Y_h)=\utilde{x_h}\utilde{\beta} E ( Y h ) = x h β ,即 Y h Y_h Y h 的期望值。對於這個問題我們會做點估計和信賴區間估計。
隨機變量 Y h Y_h Y h 。而這個問題我們會做預測區間估計(prediction interval)。
我們仍然會使用 normal 回歸模型,即
Y h = x h ~ t β ~ + ε h ε h ∼ N ( 0 , σ 2 ) and ε h ⊥ ε ~ Y_h=\utilde{x_h}^t\utilde{\beta}+\varepsilon_h\qquad \varepsilon_h\sim N(0, \sigma^2)\text{ and }\varepsilon_h\perp\utilde{\varepsilon} Y h = x h t β + ε h ε h ∼ N ( 0 , σ 2 ) and ε h ⊥ ε
期望值的點估計
根據 Gauss-Markov Theorem ,Y ^ h = x h ~ t b ~ \hat{Y}_h=\utilde{x_h}^t\utilde{b} Y ^ h = x h t b 是 E ( Y h ) = x h ~ t β ~ E(Y_h)=\utilde{x_h}^t\utilde{\beta} E ( Y h ) = x h t β 的 BLUE。
E [ Y ^ h ] = x h ~ t β ~ E[\hat{Y}_h]=\utilde{x_h}^t\utilde{\beta} E [ Y ^ h ] = x h t β (unbiased)
σ 2 { Y ^ h } = x h ~ t σ 2 { b ~ } x h ~ σ 2 = σ 2 x h ~ t ( D t D ) − 1 x h ~ \sigma^2\set{\hat{Y}_h}=\utilde{x_h}^t\sigma^2\set{\utilde{b}}\utilde{x_h}\sigma^2=\sigma^2\utilde{x_h}^t(D^tD)^{-1}\utilde{x_h} σ 2 { Y ^ h } = x h t σ 2 { b } x h σ 2 = σ 2 x h t ( D t D ) − 1 x h
i.e. Y ^ h ∼ N ( x h ~ t β ~ , σ 2 { Y ^ h } ) \hat{Y}_h\sim N(\utilde{x_h}^t\utilde{\beta}, \sigma^2\set{\hat{Y}_h}) Y ^ h ∼ N ( x h t β , σ 2 { Y ^ h })
Y ^ h