ich programmiere gerade ein wenig an einem Programm rum, das analysieren soll, ob zwei Texte von demselben Autor stammen. Dazu werden u.A. Rechtschreibfehler in den beiden Texten verglichen.
Jetzt müssten aber verschiedene Rechtschreibfehler verschiedene Wichtungsfaktoren haben, da sie unterschiedlich häufig vorkommen.
Wenn man z.B. den Rechtschreibfehler "misserabel" statt "miserabel" betrachten würde, kommt der nur selten vor (38.300 Google-Ergebnisse).
Der Rechtschreibfehler "entgültig" statt "endgültig" kommt aber öfter vor (612.000 Google-Ergebnisse).
Also müsste "misserabel" für einen Text charakteristischer sein als "entgültig", also einen höheren Wichtungsfaktor bekommen. Kommen in zwei Texten z.B. "misserabel" vor, ist es wahrscheinlicher, dass beide Texte vom selben Autor stammen, als wenn in beiden Texten "entgültig" vorkommt.
Mal ungeachtet dessen, dass man eigentlich auch beachten müsste, wie häufig generell Wörter wie endgültig und miserabel verwendet werden (darüber habe ich noch nicht nachgedacht, wie man das mit einberechnen könnte. Vielleicht habt ihr ja eine Idee?), wie könnte man die Wichtungsfaktoren berechnen von Rechtschreibfehlern, die x-mal vorkommen und welche, die y-mal vorkommen?
Eine Idee von mir wäre jetzt, dem Rechtschreibfehler mit dem geringsten Vorkommen den Wichtungsfaktor 1 zu geben und alle anderen nur relativ zu diesem.
Also Wichtungsfaktor "misserabel" = 1
Wichtungsfaktor "entgültig" = 38.300/612.000 = 0,06258
usw.
Kenne mich mit Statistik eher überhaupt nicht aus ^^ Also was meint ihr?
Danke,
Thilo