Hallo,
... wenn mir jemand erklären könnte, weshalb mein Ansatz hier nicht funktioniert.
Die Frage ist doch eher: warum sollte er funktionieren. Warum sollte Dir die 'Formel' $$a = \overline y - b \cdot \overline x$$den richtigen Wert für \(b\) liefern?
Beherzige den Tipp von ullim. Es gilt die kleinste quadratische Abweichung zu finden - die quadratischen Abweichungen sind: $$\begin{aligned} F(b) &= \sum_{i=1}^3 \left( 2+bx_i-y_i \right)^2 \end{aligned}$$ und die kleinste Abweichung findet man, indem man nach \(b\) ableitet$$\begin{aligned} \frac{\partial F}{\partial b} &= 2 \sum_{i=1}^3 \left( 2+bx_i-y_i \right) x_i = 0 \\ 0 &= 2 \sum x_i + b \sum x_i^2 - \sum x_i y_i \\ b &= \frac { \sum x_i y_i - 2 \sum x_i}{\sum x_i^2} \\ &= \frac {121 - 28}{98} = \frac{93}{98} \end{aligned}$$
Nachtrag:
wenn man Deine Formel nach \(b\) umstellt, kommt man auf$$b = \frac{\overline y - a}{\overline x}$$Das bedeutet, dass das \(b\) so gewählt wird, dass die resultierende lineare Funktion immer durch den Schwerpunkt der Punktwolke verläuft. Das kann(!) den Wert für ein optimales - im Sinne der minimalen quadratischen Abweichungen - \(b\) liefern, wenn der Achsenabschnitt \(a\) bereits optimal ist. Aber davon kann man ja im Allgemeinen nicht ausgehen.
Dazu folgendes Beispiel: Ansatz \(y= bx\) und \(x_i=\{0;\,5\}\) sowie \(y_i=\{1;\, 0\}\). Liefert mit Deinem Ansatz ein \(b_1=1/6\) und mit den minimalen quadratischen Abweichungen \(b_2=1/26\) und sieht im Graph so aus:
~plot~ {1|1};{5|0};x/6;x/26 ~plot~
Die blaue Gerade geht durch den Schwerpunkt der Punktwolke bei \((3;\,0,5)\). Die Summe der Quadrate der Abweichungen ist aber \(\approx 0,965\), die rote Gerade minimiert diesen Wert. Hier liegt er bei \(\approx 0,856\). Das macht ja auch Sinn, da der Punkt \((5;\,0)\) quasi am 'längeren Hebel' sitzt. Eine große Veränderung bei \(x=5\) macht nur eine kleine bei \(x=1\) aus.
Gruß Werner