Ich find sie geil, weil die Antwort nicht trivial ist. Wir bedienen uns mit Vorteil der ===> Einsteinschen Indexkonvention .
f = ( A_ik x_k - b_i ) ( A_im x_m - b_i ) ( 1 )
Jetzt der Gradient; Produktregel. Ableiten nac h x_r
f_r = A_ik DELTA ( k ; r ) ( A_im x_m - b_i ) + ( A_ik x_k - b_i ) A_im DELTA ( m ; r ) = ( 2a )
= ( A_ir A_im ) x_m - A_ir b_i + ( A_ir A_ik ) x_k - A_ir b_i = ( 2b )
= 2 [ ( A_ir A_im ) x_m - A_ir b_i ] ( 2c )
Was haben wir hier eigentlich? Die Normale Matmul geht doch
C := A B ( 3a )
C_im = A_ik B_km ( 3b )
und nicht etwa
C_im = A_ik B_im ( 3c )
Was du in ( 2c ) hast, ist viel mehr eine Hermitesche Konjugation.
A_ir A_im = (A+)_ri A_im =: H_rm ( 4 )
mit H := (A+) A , was in jedem Falle Hermitesch ist. Somit
grad ( f ) = 2 [ H x - (A+) b ] ( 5a )
Du siehst das ganz gut ein, wenn du mal den eindimensionalen Fall betrachtest:
f ( x ) = ( a x - b ) ² ( 5b )
f ' ( x ) = 2 a ( a x - b ) = 2 ( a ² x - a b ) ( 5c )
Bereits hier hast du den Faktor 2 ; a ² entspricht hier dem Hermiteschen Operator H und a im zweiten Term dem (A+) Es nutzt nichts; selbst wenn du b = 0 setzt, lautet das Prinzip hinter der Fünktion y = a ² x ² und nicht etwa a x ²
Und aus ( 5a ) folgt eben als Hessematrix 2 H genau wie im eindimensionalen Fall y " = 2 a ² , wo a ² die Rolle der Hessematrix übernimmt.