Aloha :)
Du hast offensichtlich etwas Pech mit deinem Mathe-Dozenten gehabt, eine viel pathologischere Notation kann man sich ja kaum noch ausdenken. Ich verusche mal, die Aufgabenstellung zusammenzufassen und dann zu klären.
1) Das Problem
Gegeben ist eine Matrix \(\mathbf X\in\mathbb R^{n\times m}\) mit \(n>m\) und ein Vektor \(\vec b\in\mathbb R^n\). Gesucht ist ein Lösungsvektor \(\vec y\in\mathbb R^m\), der das folgende lineare Gleichungssystem "am besten" löst:$$\mathbf X\cdot\vec y\approx\vec b\quad$$Um das Problem dahinter zu greifen, schreiben wir die Gleichung explizit auf:$$\left(\begin{array}{c}x_{11} & x_{12} & \cdots & x_{1m}\\x_{21} & x_{22} & \cdots & x_{2m}\\\vdots & \vdots & \ddots & \vdots\\x_{n1} & x_{n2} & \cdots & x_{nm}\end{array}\right)\begin{pmatrix}y_1\\y_2\\\vdots\\y_m\end{pmatrix}\approx\begin{pmatrix}b_1\\b_2\\\vdots\\b_m\end{pmatrix}$$und spalten die Matrix noch in Vektroren auf:$$\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{n1}\end{pmatrix}y_1+\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{n2}\end{pmatrix}y_2+\begin{pmatrix}x_{13}\\x_{23}\\\vdots\\x_{n3}\end{pmatrix}y_3+\cdots+\begin{pmatrix}x_{1m}\\x_{2m}\\\vdots\\x_{nm}\end{pmatrix}y_m\approx\begin{pmatrix}b_1\\b_2\\\vdots\\b_n\end{pmatrix}$$
Du hast also \(m\) Basisvektoren zur Verfügung, nämlich die Spalten der Matrix \(\mathbf X\), und sollst diese mit den Gewichtungen \(y_1,\ldots,y_m\) linear zum Vektor \(\vec b\in\mathbb R^n\) kombinieren. Da die Vektoren mehr Zeilen haben als Parameter zur Verfügung stehen (\(n>m)\), wird das System im Allgemeinen nicht exakt lösbar sein. Daher auch das \(\approx\) Zeichen.
Mathematisch gesprochen spannen die Spaltenvektoren der Matrix \(\mathbf X\) einen Unterraum auf, aber der Vektor \(\vec b\) liegt nicht in diesem Unterraum.
2) Ein Lösungsvorschlag
Die Idee ist, dass wir zu dem Vektor \(\vec b\in\mathbb R^n\) einen Hilfsvektor \(\vec h\in\mathbb R^n\) addieren, sodass die Summe \((\vec b+\vec h)\) in dem Unterraum der Spaltevektoren liegt:$$\mathbf X\cdot\vec y=\vec b+\vec h\quad\Longleftrightarrow\quad\vec h=\mathbf X\cdot\vec y-\vec b$$Aus dem \(\approx\) ist dadurch ein \(=\) geworden. Es existieren unendlich viele solcher Vektoren \(\vec h\). Wir suchen aber denjenigen, der den Vektor \(\vec b\) am wenigsten verändert, damit die Lösung "am besten" passt. Dieser Vektor \(\vec h\) ist die orthogonale Projektion von \(\vec b\) in den Vektorraum der Spaltenvektoren, sozusagen der kürzeste Abstand. Das heißt, wir suchen denjenigen Vektor \(\vec h\), der zu allen Spaltenvektoren der Matrix orthogonal ist:
$$\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{n1}\end{pmatrix}^T\cdot\vec h\stackrel!=0\quad;\quad\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{n2}\end{pmatrix}^T\cdot\vec h\stackrel!=0\quad;\quad\cdots\quad;\quad\begin{pmatrix}x_{1m}\\x_{2m}\\\vdots\\x_{nm}\end{pmatrix}^T\cdot\vec h\stackrel!=0$$Das können wir in einer Matrix-Gleichung zusammenfassen:$$\mathbf X^T\cdot\vec h\stackrel!=0$$Darin setzen wir die oben gefundene Darstellung für \(\vec h\) ein und finden:$$0\stackrel!=\mathbf X^T\cdot\left(\mathbf X\cdot\vec y-\vec b\right)=\mathbf X^T\mathbf X\vec y-\mathbf X^T\vec b\quad\Longleftrightarrow\quad\mathbf X^T\mathbf X\,\vec y\stackrel!=\mathbf X^T\vec b\quad\Longleftrightarrow\quad$$$$\vec y\stackrel!=\left(\mathbf X^T\mathbf X\right)^{-1}\cdot\mathbf X^T\,\vec b$$
Ich hoffe, dass dir diese Beschreibung hilft. Du müsstest die Notation jetzt nur noch in euer Klingonisch übersetzen.