0 Daumen
1k Aufrufe

Aufgabe:

$$ Q S_{\epsilon}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}=\sum_{i=1}^{n} \epsilon^{2} \longrightarrow \min $$


$$ \hat{e}^{T} \hat{e}=(y-\hat{y})^{T}(y-\hat{y})=(y-X \hat{\beta})^{T}(y-X \hat{\beta}) \quad \longrightarrow \min $$


$$ (y-X \hat{\beta})^{T}(y-X \hat{\beta}) $$


$$ \begin{array}{c}{\frac{\delta\left(y^{T} y-2 \hat{\beta}^{T} X^{T} y+\hat{\beta}^{T} X^{T} X \hat{\beta}\right)}{\delta \hat{\beta}}=-2 X^{T} y+2 X^{T} X \hat{\beta} \stackrel{ !}{=} 0} \\ {X^{T} X \hat{\beta}=X^{T} y}\end{array} $$


Problem:


ich beschäftige mich mit dem Thema der multiplen linearen Regression und hätte gerne gewusst, wie man die Matrixformel für die Bestimmung der Regressionskoeffizienten Beta bestimmt. Dies wird ja bekanntlich durch die Methode der Fehlerquadrate erklärt. Zu Beginn hat man ja, wie in der ersten Zeile zu erkennen, die Differenz der vorhergesagten Werte un der beobachtetetn Werte. Damit diese sich nicht gegenseitig aufheben, quadrieren wir diese. Für den ersten Ausdruck kann man ja auch e hoch 2 schreiben. Doch die nächsten Schritte verstehe ich nicht. Ich weiß nicht wie man plätzlich auf das e Dach mit T kommt und was danach gemacht wird.Die vorletzte Zeile soll die Phase vor der partiellen Ableitung darstellen. Warum? Wieso muss man da ableiten? Ziel ist es zu der Formel gnaz unten zukommen. Über eine Rückmeldung wprde ich mich sehr freuen, da dieses Thema sehr komplex ist.


Vielen Dank im Voraus!

Avatar von

1 Antwort

0 Daumen

Hallo

dass du e^2 statt ε^2 schreibst ist irritierend, e wird immer für die Eulersche Zahl verwendet.

 dann wird die Summe durch das Skalarprodukt der Vektoren y-y^^geschrieben, y^^als Matrix X mal Vektor  β geschrieben, dann das Skalarprodukt der Differenzen ausgeschrieben, und schließlich nach β bzw. nach den Komponenten differenziert.

in Matrixschreibweise ist das Skalarprodukt zweier Vektoren, Zeilenvektor mal Spaltenvektor. hoch T transponiert, macht also aus nem Spaltenvektor einen Zeilenvektor. also  a^2=<a,a>=a^T*a

Gruß lul

Avatar von 108 k 🚀

vielen Dank für die Antwort. Ja das e verwirrt mich auch, jedoch wurde dass in einer Rechnung so hergeleitet. Bin da jetzt selber ratlos. In anderen Literaturen finde ich die Herleitung für multiple lineare Regressionen nicht sondern nur für die einfache lineare Regressionen. Hast du da eventuell einen Tipp für mich?


Warum wird am Ende differenziert? Ich kenne nur die Ableitung für die Bestimmung des Tiefpunktes, da wir hier ja das Minimum suchen. Jedoch muss man hier die erste partielle Ableitung bilden. Warum und warum schreiben wir ein delta davor?

kannst du mir nochmal deinen letzten Absatz erklären? Ich verstehe nicht, wie man von a^2 gleich auf a^T*a kommt. a^2 ist ja a*a. Jedoch verstehe ich nicht, warum man das eine a transponiert. Klar bei der multiplen linearen Regression bewegen wir uns im dreidimensionalen Raum und die Rechnung macht mit Matrizen Sinn. Wieso aber transponieren wir die Matrix einfach?

Hallo

ich versteh deine Frage nicht ganz. wenn du in der art, wie man Matrizen multipliziert 2 Vektoren multiplizierst, geht das nur, wenn das eine eine 1*3 Matrix, das andere eine 3*1 Matrix sein, also ein Zeilenvektor mal einem Spaltenvektor.

das delta ist eine Abkürzung, man kann ja nicht nach einem Vektor ableiten, nur partiell nach seinen Komponenten, also so was wie grad(v)=0

ein 2d Beispiel steht in Wikipedia.

https://de.wikipedia.org/wiki/Multiple_lineare_Regression

hier ohne die nicht so übliche Schreibweise mit dem delta und Vektor.

Gruß lul

Hallo lul,


vielen Dank für die Rückmeldung. Das habe ich nun verstanden. Kannst du mir sagen wir man im Zähler auf -2Beta(transponiert)X(transponiert)y kommt? Mir geht es nur um den mittleren Term. Wir müssen ja vorher ausklammern, doch bei der Zusammenfassung komme ich nicht auf die Lösung.

yXβ=β^TX^T*y dadurch das 2

Gruß lul

Ein anderes Problem?

Stell deine Frage

Ähnliche Fragen

Willkommen bei der Mathelounge! Stell deine Frage einfach und kostenlos

x
Made by a lovely community