Aloha :)
Ich versuche mal eine anschauliche Erklärung anhand eines einfachen Beispiels, das du aber auf beliebig komplizierte Anwendungen erweitern kannst. Wir betrachten folgende 3 Gleichungen mit 2 Variablen: $$2x-y=2\quad;\quad x+2y=1\quad;\quad x+y=4$$Du hast mehr Gleichungen als Variablen, solche Gleichungssysteme heißen "überbestimmt" und sind in der Regel nicht exakt lösbar. Du könntest \(x\) und \(y\) so bestimmen, dass 2 Gleichungen exakt gelöst werden, die dritte mit diesen \(x\)- und \(y\)-Werten aber völlig daneben liegt. Besser wäre es, eine Näherungslösung zu finden, die alle 3 Gleichungen "möglichst gut" erfüllt. Wenn z.B. \(x_0=1,4\) und \(y_0=0,5\) gewählt werden, erhalten wir folgende Abweichungen \(r_i\):$$2x_0-y_0=2\,\underbrace{+\,0,3}_{r_1}\quad;\quad x_0+2y_0=1\,\underbrace{+\,1,4}_{=r_2}\quad;\quad x_0+y_0=4\,\underbrace{-2,1}_{=r_3}$$Um diese Abweichungen \(r_i\) geschickt zu wählen, setzen wir das Problem nun auf eine geometrische Ebene. Dazu schreiben wir die 3 Gleichungen in Matrix-Schreibweise auf:$$\underbrace{\left(\begin{array}{c}2 & -1\\1 & 2\\1 & 1\end{array}\right)}_{=:A}\cdot\underbrace{\left(\begin{array}{c}x\\y\end{array}\right)}_{=:\vec x}=\underbrace{\left(\begin{array}{c}2\\1\\4\end{array}\right)}_{=:\vec b}\quad\text{nicht lösbar!}$$Nicht lösbar ist das System deswegen, weil sich der Vektor \(b\) nicht als Linearkombination der Spaltenvektoren vom \(A\) schreiben lässt. Mit dem Trick von oben addieren wir auf der rechten Seite einen "Rest-Vektor" \(\vec r\), den wir so wählen können, dass sich die komplette rechte Seite \(\vec b+\vec r\) als Linearkombination der Spaltenvektoren von \(A\) schreiben lässt:$$\underbrace{\left(\begin{array}{c}2 & -1\\1 & 2\\1 & 1\end{array}\right)}_{=A}\cdot\underbrace{\left(\begin{array}{c}x\\y\end{array}\right)}_{=\vec x}=\underbrace{\left(\begin{array}{c}2\\1\\4\end{array}\right)}_{=\vec b}+\underbrace{\left(\begin{array}{c}r_1\\r_2\\r_3\end{array}\right)}_{=:\vec r}$$Geometrisch bedeutet dies Folgendes. Der Vektor \(\vec b\) liegt außerhalb der (Hyper-)Ebene, die durch die Spaltenvektoren von \(A\) aufgespannt wird. Durch Addition eines geeigneten Vektors \(\vec r\) zu \(\vec b\) können wir jedoch bewirken, dass der Summenvektor \(\vec b+\vec r\) in dieser (Hyper-)Ebene liegt. Für \(\vec r\) muss bisher nur$$\vec r=A\vec x-\vec b$$gelten, ansonsten können wir ihn noch frei wählen. Die Idee hinter dem Satz aus deiner Vorlesung ist nun, diesen Vektor \(\vec r\) "möglichst kurz" zu wählen. Der Vektor \(\vec r\) ist genau dann am kürzesten, wenn er senkrecht auf der (Hyper-)Ebene steht, die durch die Spaltenvektoren von \(A\) aufgespannt wird. Aus Sicht des Endpunktes von \(\vec b\) geht es dann nämlich direkt senkrecht in Richtung (Hyper-)Ebene. Wenn der Vektor \(\vec r\) aber senkrecht auf dieser (Hyper-)Ebene steht, dann steht er auch senkrecht auf allen Spaltenvektoren von \(A\), die diese (Hyper-)Ebene aufspannen. Das Skalarprodukt aus allen Spaltenvektoren von \(A\) und \(\vec r\) muss also \(0\) sein. Bei der Matrix-Multiplikation heißt es "Zeile mal Spalte", daher können wir die Matrix \(A\) zu \(A^T\) transponieren und die gefundene Bedinung in der Form \(A^T\cdot\vec r=\vec 0\) formulieren. Das bedeutet:$$A^T\vec r=\vec 0\quad\Leftrightarrow\quad A^T(A\vec x-\vec b)=\vec 0\quad\Leftrightarrow\quad A^TA\vec x=A^T\vec b$$Ich hoffe, diese Beschreibung hat dir beim Verständnis etwas geholfen. Falls nicht, frag bitte einfach noch, was dir unklar ist.