0 Daumen
409 Aufrufe

Zeigen Sie: Mit ^β = Inverse((X^T X)) X^T y gilt:

S(β) = (y-Xβ)^T (y-Xβ) = (y-X ^β)^T (y-X ^β) + (^β - β)^T X^T X (^β - β)

Folgern Sie daraus, dass S(β) minimal wird, wenn β = ^β = Inverse((X^T X)) X^T y gilt.

Avatar von

2 Antworten

+1 Daumen
 
Beste Antwort

Wenn \( \hat \beta = (X^T X ) ^{-1} X^T y \)

gilt, ist zuerst zu zeigen das

$$ S(\beta) = (y - X \beta)^T (y - X \beta) = (y- X \hat \beta)^T (y - X \hat \beta) + (\hat \beta - \beta)^T X^T X ( \hat \beta - \beta) ) $$ gilt.

Durch ausmultiplizieren erhält man, daß gelten soll

$$ y^T y - 2 \beta^T X^T y + \beta^T X^T X \beta = y^T y - 2 \hat \beta^T X^T y + \hat \beta^T X^T X \hat \beta + \hat \beta X^T X \hat \beta - \hat \beta^T X^T X \beta - \beta^T X^T X \hat \beta + \beta^T X^TX \beta $$

Vereinfachen durch elminieren und zusammenfassen von gleichen Termen auf beiden Seiten der Gleichung ergibt, daß gelten soll

$$ - 2 \beta^T X^T y = - 2 \hat \beta^T X^T y + 2 \hat \beta^T X^T X \hat \beta - \hat \beta^T X^T X \beta - \beta^T X^T X \hat \beta $$

Wegen \( X^T X \hat \beta = X^T y \) folgt

$$ -\beta^T X^T y = - 2 \hat \beta^T X^T y + 2 \hat \beta^T X^T X \hat \beta - \hat \beta^T X^T X \beta $$ und nochmals wegen \( X^T X \hat \beta = X^T y \) folgt, daß gelten soll

$$ -\beta^T X^T y =-\hat \beta^T X^T X \beta = -y^T X \beta $$ was richtig ist weil der Ausdruck auf der rechten Seite ein Skalar ist, und deshalb zu seiner Transponierten identisch ist.

Jetzt soll noch gezeigt werden, dass \( S(\beta) \) minimal wird, wenn \( \beta = \hat \beta \) gilt.

Da \( S(\beta) \) aus einer Summe von positiv semidefniten quadratischen Formen besteht, wird die Summe minimal wenn \( \beta = \hat \beta \) gilt, denn dann verschwindet der letzte Summand von \( S(\beta) \)

Avatar von 39 k
+1 Daumen

Aloha :)

Du hast offensichtlich etwas Pech mit deinem Mathe-Dozenten gehabt, eine viel pathologischere Notation kann man sich ja kaum noch ausdenken. Ich verusche mal, die Aufgabenstellung zusammenzufassen und dann zu klären.

1) Das Problem

Gegeben ist eine Matrix \(\mathbf X\in\mathbb R^{n\times m}\) mit \(n>m\) und ein Vektor \(\vec b\in\mathbb R^n\). Gesucht ist ein Lösungsvektor \(\vec y\in\mathbb R^m\), der das folgende lineare Gleichungssystem "am besten" löst:$$\mathbf X\cdot\vec y\approx\vec b\quad$$Um das Problem dahinter zu greifen, schreiben wir die Gleichung explizit auf:$$\left(\begin{array}{c}x_{11} & x_{12} & \cdots & x_{1m}\\x_{21} & x_{22} & \cdots & x_{2m}\\\vdots & \vdots & \ddots & \vdots\\x_{n1} & x_{n2} & \cdots & x_{nm}\end{array}\right)\begin{pmatrix}y_1\\y_2\\\vdots\\y_m\end{pmatrix}\approx\begin{pmatrix}b_1\\b_2\\\vdots\\b_m\end{pmatrix}$$und spalten die Matrix noch in Vektroren auf:$$\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{n1}\end{pmatrix}y_1+\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{n2}\end{pmatrix}y_2+\begin{pmatrix}x_{13}\\x_{23}\\\vdots\\x_{n3}\end{pmatrix}y_3+\cdots+\begin{pmatrix}x_{1m}\\x_{2m}\\\vdots\\x_{nm}\end{pmatrix}y_m\approx\begin{pmatrix}b_1\\b_2\\\vdots\\b_n\end{pmatrix}$$

Du hast also \(m\) Basisvektoren zur Verfügung, nämlich die Spalten der Matrix \(\mathbf X\), und sollst diese mit den Gewichtungen \(y_1,\ldots,y_m\) linear zum Vektor \(\vec b\in\mathbb R^n\) kombinieren. Da die Vektoren mehr Zeilen haben als Parameter zur Verfügung stehen (\(n>m)\), wird das System im Allgemeinen nicht exakt lösbar sein. Daher auch das \(\approx\) Zeichen.

Mathematisch gesprochen spannen die Spaltenvektoren der Matrix \(\mathbf X\) einen Unterraum auf, aber der Vektor \(\vec b\) liegt nicht in diesem Unterraum.

2) Ein Lösungsvorschlag

Die Idee ist, dass wir zu dem Vektor \(\vec b\in\mathbb R^n\) einen Hilfsvektor \(\vec h\in\mathbb R^n\) addieren, sodass die Summe \((\vec b+\vec h)\) in dem Unterraum der Spaltevektoren liegt:$$\mathbf X\cdot\vec y=\vec b+\vec h\quad\Longleftrightarrow\quad\vec h=\mathbf X\cdot\vec y-\vec b$$Aus dem \(\approx\) ist dadurch ein \(=\) geworden. Es existieren unendlich viele solcher Vektoren \(\vec h\). Wir suchen aber denjenigen, der den Vektor \(\vec b\) am wenigsten verändert, damit die Lösung "am besten" passt. Dieser Vektor \(\vec h\) ist die orthogonale Projektion von \(\vec b\) in den Vektorraum der Spaltenvektoren, sozusagen der kürzeste Abstand. Das heißt, wir suchen denjenigen Vektor \(\vec h\), der zu allen Spaltenvektoren der Matrix orthogonal ist:

$$\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{n1}\end{pmatrix}^T\cdot\vec h\stackrel!=0\quad;\quad\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{n2}\end{pmatrix}^T\cdot\vec h\stackrel!=0\quad;\quad\cdots\quad;\quad\begin{pmatrix}x_{1m}\\x_{2m}\\\vdots\\x_{nm}\end{pmatrix}^T\cdot\vec h\stackrel!=0$$Das können wir in einer Matrix-Gleichung zusammenfassen:$$\mathbf X^T\cdot\vec h\stackrel!=0$$Darin setzen wir die oben gefundene Darstellung für \(\vec h\) ein und finden:$$0\stackrel!=\mathbf X^T\cdot\left(\mathbf X\cdot\vec y-\vec b\right)=\mathbf X^T\mathbf X\vec y-\mathbf X^T\vec b\quad\Longleftrightarrow\quad\mathbf X^T\mathbf X\,\vec y\stackrel!=\mathbf X^T\vec b\quad\Longleftrightarrow\quad$$$$\vec y\stackrel!=\left(\mathbf X^T\mathbf X\right)^{-1}\cdot\mathbf X^T\,\vec b$$

Ich hoffe, dass dir diese Beschreibung hilft. Du müsstest die Notation jetzt nur noch in euer Klingonisch übersetzen.

Avatar von 152 k 🚀

Danke! Also sind die Vektoren y und b ident?

Nein, sie sind leider nicht identisch, das wäre schön ;)

Formal erkennst du das daran, dass die Matrix \(\left(\mathbf X^T\mathbf X\right)^{-1}\) nicht die Inverse von \(\mathbf X^T\) ist.

Okay, ich dachte nur weil am Ende bei y fast, dasselbe wie bei der Angabe von b dasteht.

Ein anderes Problem?

Stell deine Frage

Willkommen bei der Mathelounge! Stell deine Frage einfach und kostenlos

x
Made by a lovely community