Aufgabe:
Im Folgenden sind Fragestellungen zu verschiedensten Themen des Maschinellen Lernens zu beantworten.
Problem/Ansatz:
a) K-Means Clustering: Gegeben seien die Datenobjekte X = {x1, . . . , x1N } ⊂ ℝD mit N, D ∈ N≥1.
Sei zudem K = 1 die Anzahl der Cluster. Bestimmen eine Lösung mittels des K-Means Clustering Algorithmus. Die Konvergenz muss dazu begründet werden und spezifizieren Sie alle nötigen Parameter.
b) Kerndichteschätzung: Gegeben seien die Datenobjekte X = {x1, . . . , xN } ⊂ ℝ mit N, D ∈ N≥1.
Zeigen Sie, dass es sich bei dem nicht-parametrischen Schätzer
fh,x(x)= \( \frac{1}{N} \). \( \sum\limits_{n=1}^{\N}{\frac{1}{h}} \).k \( \frac{(x-xn)}{h} \)
um eine valide Dichtefunktion handelt. Dabei ist k : ℝ → ℝ≥0 eine integrierbare Kernfunktion und
h ∈ ℝ>0 die Bandbreite.
c) Nächste-Nachbarn-Klassifikation: Gegeben sei eine Menge von Datenobjekten mit ihren zugehörigen
Klassen D = {(x1, y1), . . . ,(xN , yN )} ⊂ ℝD x {1, 2} mit N, D ∈ N≥1. Zudem sei bekannt, dass 60% der Datenobjekte zur Klasse Y = 1 und 40% der Datenobjekte zur Klasse Y = 2 gehören. Geben Sie die A-posteriori-Klassenwahrscheinlichkeiten PD, K(Y = 1 | x) und PD,K(Y = 2 | x), geschätzt von einem (K = N)-Nächste-Nachbarn-Klassifikator, inklusive Rechenweg an.
Danke für eure Hilfe