Die Ableitung einer Funktion f an der Stelle x0 ist definiert als der Grenzwert des Differenzenquotienten (f(x) - f(x0)) / (x - x0) für x→x0.
Die Steigung einer Funktion f an der Stelle x0 ist definiert als die Steigung der Tangente von f an dieser Stelle.
Die Tangente einer Funktion f an der Stelle x0 ist die lineare Funktion, die sich in einer kleinen Umgebung um x0 von der Funktion f möglichst wenig unterscheidet.
Vor diesem Hintergrund ist die Frage, warum die Ableitung die Steigung ist, sehr wohl sinnvoll.
Jede Gerade, die die Funktion f an der Stelle x0 schneidet, hat die Funktionsgleichung
(1) gm(x) = f(x0) + m·(x - x0).
Es gibt eine Funktion r(h), die den Unterschied zwischen Funktion und Gerade angibt. Dabei ist h der Abstand zwischen x0 und x, also h=x-x0. Damit ist dann
(2) f(x) = gm(x) + r(x - x0).
Gesucht ist ein m, so dass r möglichst klein ist. Es stellt sich die Frage, was das genau heißen soll; immerhin ist r ja eine Funktion und kein konkreter Wert. Offensichtlich ist
r(0) = 0,
weil f(x0) = gm(x0) ist; und zwar unabhängig davon, was man als m wählt. Diese Bedingung reicht also nicht aus, um "möglichst klein" mathematisch zu präzisieren.
Stattdessen möchte man, dass r(h) für h→0 schneller gegen 0 konvergiert, als h selbst; dass also sogar
(3) limh→0 r(h) / h = 0
ist. Gleichung (1) eingesetzt in (2) liefert
f(x) = f(x0) + m·(x - x0) + r(x - x0).
Dies lässt sich umformen zu
(f(x) - f(x0)) / (x - x0) - r(x - x0) / (x - x0) = m
Bildet man nun den Grenzwert für x→x0, dann bekommt man
limx→x0 (f(x) - f(x0)) / (x - x0) - limx→x0r(x - x0) / (x - x0) = limx→x0 m.
m ist unabhängig von x, die rechte Seite ist also =m.
Laut Bedingung (3) ist limx→x0 r(x - x0) / (x - x0) = 0. Man erhält somit
limx→x0 (f(x) - f(x0)) / (x - x0) = m.
Links steht die Ableitung, rechts steht die Steigung der Tangente.