Hallo Tommy,
nachdem ich noch mal gegoogelt habe und Deine Frage mehrfach gelesen habe, habe ich es - glaube ich - verstanden. Meine ursprüngliche Antwort lasse ich stehen, dann kannst Du den Fortschritt sehen ;-)
Für θ1 wurden folgende Werte eingesetzt : 1;2;3 , da ich einen Datensatz mit 3 Punkten habe
das ist falsch und damit schon verwirrend für den Leser. Für \(\theta_1\) hast Du nichts eingesetzt, sondern es existiert ein Model oder eine Hypothese (bzw. dessen Linearisierung)$$h_{\theta} (x)=\theta_1 x \quad h_{\theta}(x) \space \text{alias} \space y$$Und gesucht ist der Parameter \(\theta_{1}\). Gegeben sind die drei Wertepaare$$(x_{i},\,y_{i}) = [(1,1),\,(2,2),\,(3,3)]$$und gesucht ist der Wert für \(\theta_{1}\), der so beschaffen ist, dass das Modell best möglich zu den Wertepaaren passt.
Normalerweise macht man das über die Minimierung der Fehlerquadrate, als da wäre:$$J(\theta_{1}) = \sum\limits_{i=1}^{n} \left(h_{\theta}(x_{i}) - y_{i}\right)^2 \to \min$$Du schreibst aber:
J(θ1) = 1/2 * 3 * (θ11 - 1)2 + (θ12 - 2)2 + (θ1*3 - 3)2
Ganz wichtig: beschäftige Dich bitte mal mit den vier Grundrechenarten und deren Priorisierung. 1.Regel: Punktrechnung (Mal und Geteilt) geht vor Strichrechnung (Plus und Minus). Es ist $$5 \cdot 8 + 2 = (5 \cdot 8) + 2 = 42 \ne 5 \cdot (8 + 2) = 50$$
2.Regel: Operationen mit gleicher Priorität werden von links nach rechts durchgeführt. Es ist$$1 / 2 \cdot 3 = 0,5 \cdot 3 = 1,5 \ne 1/(2 \cdot 3) = \frac{1}{6}$$Das Mal-Zeichen kann oft weg gelassen werden, aber bitte nicht zwischen zwei Zahlen! Woher soll man den wissen, dass mit \(\theta11\) eigentlich \(\theta_{1} \cdot 1\) gemeint ist? Zumal es unüblich ist, den Faktor (hier die 1) hinter die Variable (hier \(\theta_{1}\)) zu schreiben.
Wenn man dann noch die drei \(x\)-Werte 1,2,3 und die drei \(y\)-Werte 1,2,3 und die Indizes 1,2,3 hat, kann man das definitiv nicht mehr unterscheiden!
Was Du also meinst ist sicher$$J(\theta_{1}) = \frac{1}{2n}\sum\limits_{i=1}^{n} \left(h_{\theta}(x_{i}) - y_{i}\right)^2 \\ \quad = \frac{1}{2\cdot 3} \left((\theta_{1}\cdot 1-1)^2+(\theta_{1}\cdot 2-2)^2+(\theta_{1}\cdot 3-3)^2\right)$$Dies ableiten und die Ableitung zu 0 setzen gibt dann:$$\begin{aligned} \frac{\partial J}{\partial \theta_{1}} &= \frac{1}{n}\sum\limits_{i=1}^{n} \left(h_{\theta}(x_{i}) - y_{i}\right)\frac{\partial h_{\theta}(x_{i})}{\partial \theta}\\ &= \frac{1}{3}\left((\theta_{1} \cdot 1 - 1) + 2(\theta_{1} \cdot 2 - 2) +3 (\theta_{1} \cdot 3 - 3)\right) \\ &= \frac{1}{3}\left(\theta_{1}-1 + 4\theta_{1} - 4 + 9\theta_{1} - 9 \right)\\ &= \frac{1}{3}\left(14\theta_{1} -14\right) \to 0 \end{aligned}$$woraus dann \(\theta_{1} = 1\) folgt. Und Ja - das ist die Steigung. Siehe die Hypothese oben.
Schritt 4: Ergebnisse der Ableitungen wieder in die Kostenfunktion einsetzen:
d/dθ1 J(θ1) = 1/6 * 2*(θ1-1) + 4*(θ1-1) + 6*(θ1-1)
hier hast Du falsch abgeschrieben. Und dann taucht jetzt das (richtige) 1/6 auf, wo ein Leser aber auf Grund der fehlerhaften Scheibweise oben nicht wissen kann, wo das her kommt.
Vielleicht mache ich auch bezüglich meines Posts etwas falsch und bekomme deshalb keine Antwort?
Ja - ich revidiere meine Aussage von vorhin (s.u.). Bitte die Aufgabe so formulieren, dass zumindest die Grundlagen der Algebra korrekt sind und darauf achten, dass richtig abgeschrieben wurde. Das versteht sonst niemand. Der Hinweies auf 'gradient descent algorithmus' war hilfreich, sonst wäre ich da nie drauf gekommen.
Ach ja - und wenn Du einen Term ableitest, so bitte die ganze Ableitung des Terms hin schreiben
Schritt 2: Ableitung des zweiten Terms (θ12 - 2)2 in Bezug auf θ1:
d/dθ1 (θ12 - 2)2 = 4
ist falsch. Richtig wäre $$\frac{\partial }{\partial \theta_{1}} (\theta_{1} \cdot 2 - 2)^2 = 4(\theta_{1} \cdot 2 - 2) = 8\theta_{1} - 8$$
Das Fatale ist: wenn Du das in einer Prüfung so machst, so kann das Ergebnis richtig sein (so wie hier), aber Du bekommst von einem weniger geduldigen Prüfer nur 0 Punkte.
Gruß Werner
meine ursprüngliche Antwort war:
Vielleicht mache ich auch bezüglich meines Posts etwas falsch und bekomme deshalb keine Antwort?
Nö - eigentlich nicht. Es wird erfahrungsgemäß auf Fagen vom Typ: "ich habe es so berechnet, ist das so richtig?" weniger oft geantwortet. Die Wahrheit ist: das ist für den Antwortenden aufwendiger als eine eigene Lösung zu produzieren ;-)
Zu Deiner Frage:
Deine Kostenfunktion ist: J(θ1) = 1/2 * 3 * (θ11 - 1)2 + (θ12 - 2)2 + (θ1*3 - 3)2
Es ist nicht sofort ersichtlich, was \(\Theta_1\) ist. In der Kostenfunktion sieht es so aus, als ob es sich bei \(\Theta_1\) um einen Vektor mit drei Kordinaten \(\Theta_{1,1}\), \(\Theta_{1,2}\) und \(\Theta_{1,3}\) handelt. Komisch ist nur das Mal-Zeichen bei (θ1*3 - 3)2.
Dass \(\Theta_1\) ein Vektor ist steht aber im Widerspruch zu der Aussage:
Für θ1 wurden folgende Werte eingesetzt : 1;2;3 , da ich einen Datensatz mit 3 Punkten habe. Die x bzw. y Koordinaten sind (1,1), (2,2) und (3,3)
Kläre uns doch bitte auf, ob \(\Theta_1\) ein Vektor oder ein Skalar ist, wenn es ein Skalar ist, was bedeutet dann \(\Theta_{11}\)? Und wie spielt dann \(x\) und \(y\) mit da rein?
Schritt 1: Ableitung des ersten Terms (θ11 - 1)2 in Bezug auf θ1:
d/dθ1 (θ11 - 1)2 = 2
das ist sicher falsch. Wenn müsste es heißen$$\frac{\partial }{\partial \Theta_{1,1}} (\Theta_{1,1}- 1)^2 = 2(\Theta_{1,1}- 1)$$