Nichtstandardanalysis ist ein - zu Unrecht - sehr stiefmütterlich behandeltes Thema, denn sobald es in typischen Analysis-Vorlesungen um Grenzwerte, Differentiation und Integration geht, führt man eine gewisse "Epsilontik" ein und rechnet in der Standardanalysis. Dabei würde durch Nichtstandardanalysis und die Erweiterung der reellen Zahlen zu den hyperreellen Zahlen (fast) alles einfacher und eleganter. Und intuitiver.
Epsilontik heißt, man stützt sich auf einen Maximalabstand \( \varepsilon \) und baut darauf Aussagen auf, ganz exemplarisch zum Beispiel für den Grenzwert von Folgen:
$$ \lim_{n \to \infty} a_n = a \iff \forall \varepsilon > 0 \, \exists N \in \mathbb N \, \forall n \geq N: |a - a_n| < \varepsilon $$
Für jeden Maximalabstand \( \varepsilon \) gibt es eine Schranke \( N \in \mathbb N \), sodass ab dort alle Folgenglieder \( a_n \) mit \( n \geq N \) von \( a \) nur noch höchstens den Abstand \( \varepsilon \) haben, d.h. \( |a - a_n| < \varepsilon \). Ähnlich definiert man Stetigkeit einer Funktion:
$$ f \text{ stetig} \iff \forall a \in \mathbb R \, \forall \varepsilon > 0 \, \exists \delta > 0 \, \forall x \in \mathbb R: |x-a| < \delta \implies |f(x) - f(a)| < \varepsilon \tag*{($*$)} $$
Für einen gegebenen Maximalabstand \( \varepsilon \) der Funktionswerte gibt es einen Maximalabstand \( \delta \) der x-Werte, sodass, wenn \( x \) und \( a \) diesen Maximalabstand \( \delta \) einhalten, auch die Funktionswerte maximal um \( \varepsilon \) auseinanderliegen (oder auch: eine Funktion ist stetig an einer Stelle \( a \), wenn du bei einem vorgegebenen Maximalabstand der Funktionswerte \(f(x)\) und \(f(a)\) (nämlich \( \varepsilon \)) die x-Werte \(x\) und \(a\) so weit zusammenschieben kannst, d.h. du findest ein \( \delta \) mit \( |x-a| < \delta \), dass die Funktionswerte auch ganz nah beieinander liegen, nämlich höchstens Abstand \( \varepsilon \) haben, dass also dann auch \( |f(x) - f(a)| < \varepsilon \) gilt).
Klar ist, hier geht es immer um Annäherungen, bei der Konvergenz kommen die Folgenglieder einem Wert immer näher, bei der Stetigkeit kommen sich \(x\) und \(a\) bzw. \( f(x) \) und \(f(a)\) immer näher und der Maximalabstand heißt meistens \( \varepsilon \). Diese Definition ist wahnsinnig präzise, aber verlangt einiges an Einarbeitung, bis man damit zurechtkommt - Beweise von Konvergenz oder Stetigkeit sind mit diesen Epsilon-Definitionen oft recht technisch und unintuitiv. Trotzdem ist das das Mittel der Standardanalysis, die Analysis, die an Schulen und Universitäten seit Jahrhunderten gelehrt wird, weil eben der Aufbau recht einfach zu verstehen ist.
Nichtsdestotrotz war der Weg, den Personen wie Newton und Leibniz gingen, ein völlig anderer und gerade die beiden Namen gelten als wichtigste Begründer der modernen Analysis. Newton und Leibniz verwendeten beide eine Art von Annäherung, die intuitiv dem bekannten Grenzwertbegriff unglaublich nahe kommt, aber trotzdem ohne Epsilontik auskommt. Damit gelang es ihnen auch, die Differentiation und Integration limes-frei zu definieren - kennt man in der Regel den Begriff der Steigung \( m(a) \) an einer Stelle \( a \) als
$$ m(a) = \lim_{x \to a} \frac{f(x) - f(a)}{x-a} $$
(und die Epsilontik liegt hier im \( \lim \)), so umschifften Newton und Leibniz durch eine Definition à la
$$ m(a) = \operatorname{st}\left( \frac{f(x + \mathrm d x) - f(x)}{\mathrm d x} \right) $$
mit einer infinitesimalen Größe \(\mathrm d x\) die Epsilontik und die Konvergenzbetrachtung und wir werden gleich sehen, wie unglaublich elegant dieses Kalkül ist. Die Definition mag auf's erste gar nicht so anders aussehen, hat aber einen fundamentalen Unterschied in der Herangehensweise. Aber fangen wir vorne an.
Die Idee: Um die Steigung eines Graphen an einem bestimmten Punkt zu bestimmen, "zoomen" wir einfach ganz nah heran und erhalten dann, wenn wir nah genug dran sind, (fast) eine Gerade. Und dort können wir ja einfach ein Steigungsdreieck einzeichnen und dann die Steigung ablesen. Das ist im Wesentlichen tatsächlich alles, aber genügt natürlich in dieser Genauigkeit nicht als Herangehensweise (und wie soll man überhaupt so weit ranzoomen?). Aber das Prinzip ist klar, wenn man mit dem Begriff der Ableitung als Übergang von der Sekantensteigung zur Tangentensteigung vertraut ist (intuitiv: irgendwann entspricht ein Teil der Tangente genau dem Graph der Funktion und genau dieser Teil, so klein er auch sein mag, ist die Hypotenuse unseres Steigungsdreiecks).
Leibniz und Newton verwendeten dabei beide infinitesimale Größen - das ist fachchinesisch für eine unendlich kleine Zahl. Wie es das geben kann und wie man solche Größen konstruieren kann, soll uns vielleicht ein anderes Mal beschäftigen, aber die Idee von Newton und Leibniz war dann: Nehmen wir an, wir wollen die Ableitung einer Funktion an einer Stelle \( x \) berechnen. Dann setzen wir einfach am Punkt an der Stelle \( x \) auf dem Funktionsgraphen an, gehen ein winzig kleines, sogar ein unendlich kleines (infinitesimales) Stück nach rechts und dann das sich ergebende Stück nach oben. Damit haben wir ein Dreieck (das Kurvenstück entspricht, weil wir nur ein unendlich kleines Stück nach rechts gegangen sind, einem Geradenstück) und das Verhältnis der beiden Längen, die wir gegangen sind, ist dann die Steigung. Der Clue an der ganzen Geschichte ist der Begriff unendlich klein oder infinitesimal. Newton und Leibniz verwendeten diese Zahlen einfach ohne Weiteres und es gelang ihnen damit tatsächlich auch, große Teile der Analysis so zu konstruieren wie wir sie heute kennen.
Wir wollen mehr wissen: Was sind das für Zahlen, diese infinitesimalen Zahlen? Im Grunde genommen rechnen wir dabei in einem neuen Zahlensystem, einer Körpererweiterung von \( \mathbb R \) - man nennt das die hyperreellen Zahlen \({}^*\mathbb R\). Diese erweitern \( \mathbb R \) um infinite und infinitesimale Größen (unendlich groß und unendlich klein), uns sollen aber erstmal nur die infinitesimalen interessieren. Zur Unterscheidung kennzeichnen wir im Folgenden infiinitesimalen mit kleinen griechischen Buchstaben. Das Besondere an \( {}^* \mathbb R \) ist, dass er Zahlen enthält, die kleiner als jede andere reelle Zahl sind, unendlich kleine, infinitesimale Zahlen. Es gibt beispielsweise ein \( \eta \in {}^* \mathbb R \) mit \( 0 < \eta < r \) für alle \(r \in \mathbb R\) (das sollte man erstmal kurz sacken lassen). Die Frage, die sich jetzt aufdrängt, ist natürlich, was wir für Zahlen erhalten, wenn wir reelle und infinitesimale Zahlen addieren und die Antwort ist: Hyperreelle, aber keine reellen Zahlen. \( 2 + \eta \) ist beispielsweise die Zahl, die wir erhalten, wenn wir zur \( 2 \) eine infinitesimale Größe \( \eta \) addieren. \( 2 + \eta \) ist damit zwar immer noch unendlich nah an der \( 2 \) (man sagt auch, \( 2 \) und \( 2 + \eta \) sind infinitesimal benachbart), aber es ist trotzdem \( 2 \neq 2 + \eta \). Weiter können wir jetzt von jeder Zahl den infinitesimalen und den reellen Teil ablesen. Den reellen Teil nennen wir dabei Standardteil und bezeichnen ihn mit \( \operatorname{st} \), zum Beispiel ist \( \operatorname{st}(2 + \eta) = 2 \). Der Standardteil ist also der Teil, den wir intuitiv kennen und wir werden sehen, dass wir damit die Brücke von den hyperreellen Zahlen zu den reellen Zahlen zurück geschlagen haben - genauso wie man zum Lösen kubischer Gleichungen teilweise den Weg über komplexe Zahlen machen muss, dann aber wieder bei reellen Zahlen landet, nahmen Newton und Leibniz den Weg über hyperreelle Zahlen und landeten am Ende aber wieder bei den gewohnten reellen Zahlen.
Jetzt aber mal zu wirklich praktischem Nutzen: Wir wollen die Ableitung von \( f(x) = x^2 \) berechnen. Dazu benutzen wir die Definition \( (*) \). Sei also \( \eta \) infinitesimal. Wir müssen also den Differenzenquotienten \( \frac{f(x + \eta) - f(x)}{\eta} \) berechnen und davon den Standardteil nehmen. Es ist
$$ \frac{f(x + \eta) - f(x)}{\eta} = \frac{(x + \eta)^2 - x^2}{\eta} = \frac{x^2 + 2x \eta + \eta^2 - x^2}{\eta} = 2x + \eta$$
und damit haben wir fast schon die Ableitung gefunden: Nur das \( \eta \) stört noch, aber nachdem es doch eh infinitesimal, also unendlich klein ist, ändert es ja nichts und wir können es einfach weglassen, mit anderen Worten: Wir nehmen den Standardteil.
$$ \operatorname{st}(2x + \eta) = 2x $$
und damit sind wir fertig. Die infinitesimale Größe für die \(x\)-Differenz, die wir jetzt \(\eta\) genannt haben, nennt man konventionell \( \mathrm dx\), was kein Produkt oder ähnliches, sondern einfach ein Symbol für eine infinitesimale Größe ist (wie \(\eta\) ja auch), aber die Bedeutung etwas hervorhebt. Was wir festhalten können: Wir sind völlig ohne Grenzwerte und Epsilontik ausgekommen, aber haben trotzdem formal sauber argumentiert (angenommen dem Fall, wie hätten \({}^*\mathbb R\) vorher sauber definiert, damit wir auch sorgenfrei in \({}^* \mathbb R\) rechnen können).
Ich habe gesagt, alles wird einfacher. Okay, das mag hier in diesem Fall der Differentiation zwar in die Richtung gehen, aber vermutlich noch nicht die Einführung eines neuen Zahlenbereichs rechtfertigen. Aber was umhaut, wenn wir uns nochmal die Epsilon-Delta-Definition der Stetigkeit vor Augen führen, ist die Definition der Stetigkeit mit hyperreellen Zahlen:
$$ f \text{ stetig} \iff \forall x \in \mathbb R \, \forall \eta \text{ infinitesimal}: \operatorname{st}(f(x + \eta)) = f(x) $$
Ist das nicht wunderschön? Es ist ein Weg, die Analysis auf eine Weise aufzuziehen, der keine Epsilon-Delta-Abschätzungen verlangt, sondern nahe der Intuition verläuft. Im Grunde ist das nichts anderes als Grenzwertbildung, aber ohne Epsilontik (man schaue sich nochmal die Grenzwertdefinition an - aufwändig) und intuitiv.
Das Problem: Weder Newton, noch Leibniz schafften es, diesen Begriff der Infinitesimalität und der hyperreellen Zahlen sauber und widerspruchsfrei zu definieren - sie rechneten einfach damit als wäre es das normalste der Welt. Aber das reicht natürlich nicht. Um strenge Beweise führen zu können, muss die Struktur, in der wir uns bewegen, klar definiert sein. Ungefähre, Wischi-Waschi-Definitionen reichen nicht aus. Aber die Definition dieser Struktur \({}^* \mathbb R\) ist leider überhaupt nicht trivial und einfach, denn es stellen sich Fragen wie, wie man solche Zahlen eindeutig beschreiben kann, wie man sie addieren, subtrahieren, multiplizieren, dividieren kann, wann zwei infinite, finite oder infinitesimale Größten gleich sind (wir brauchen eine Äquivalenzrelation!). Erst im letzten Jahrhundert schaffte es Abraham Robinson, die hyperreellen Zahlen widerspruchsfrei und sauber durch \( {}^* \mathbb R := \mathbb R^{\mathbb N} \) mit der Äquivalenzrelation eines freien Ultrafilters zu definieren und öffnete damit das Tor zur Nichtstandardanalysis. Die Konstruktion würde aber hier zu weit führen. Vielleicht Thema für ein anderes Mal.
Aber hoffentlich hat dieser Artikel einen Einblick in die Nichtstandardanalysis und hyperreelle Zahlen gegeben, denn beide Themen sind leider viel zu unbekannt dafür, was für einen historischen Wert sie haben. Nichtstandardanalysis war das Ding, mit dem sich die Großväter der Analysis zu Anfang beschäftigten und womit sie die Analysis aufbauten. Erst später kam die heute als Standardanalysis bezeichnete Wissenschaft mit der (ebenfalls präzisen) Epsilontik.