Zwei Übungen mit der Schlange - Übung 2, Textklassifizierung
TF IDF mit Python3
Anhand verschiedener Quellen, von denen die wichtigsten zwei die folgenden sind (weitere, unsortierte Quellenangaben am Ende dieses Posts), habe ich mir eine eigene Textklassifizierungs-Maschine gebastelt:
https://stackabuse.com/text-classification-with-python-and-scikit-learn/
https://blog.codecentric.de/2019/03/natural-language-processing-basics/
Drei Ausgaben von drei Klassifizierungsversuchen:
Reden von Bundestagspräsidenten
Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden): speech person Norbert Lammert 178 Wolfgang Thierse 205
Typ: binary
Es werden zwei Klassen gebildet.
Die Klassifizierung beginnt!
Die Klassifizierung ist abgeschlossen!
So steht es um die Qualität der Vorhersage:
[[51 4]
[ 2 58]]
precision recall f1-score support
Norbert Lammert 0.96 0.93 0.94 55
Wolfgang Thierse 0.94 0.97 0.95 60
accuracy 0.95 115
macro avg 0.95 0.95 0.95 115
weighted avg 0.95 0.95 0.95 115
0.9478260869565217
Reden von Bundespräsidenten
Die Texte sind importiert! 2045 Texte sind importiert! Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden): speech person Christian Wulff 204 Horst Köhler 528 Joachim Gauck 588 Johannes Rau 568 Richard von Weizsäcker 23 Roman Herzog 134
Typ: multiclass Es werden mehr als zwei Klassen gebildet. Die Klassifizierung beginnt! Die Klassifizierung ist abgeschlossen! So steht es um die Qualität der Vorhersage:
[[ 27 18 16 5 0 0] [ 11 123 15 13 0 1] [ 7 11 150 5 0 0] [ 2 11 7 141 0 1] [ 0 0 1 1 5 0] [ 0 3 0 4 0 36]] precision recall f1-score support Christian Wulff 0.57 0.41 0.48 66 Horst Köhler 0.74 0.75 0.75 163 Joachim Gauck 0.79 0.87 0.83 173 Johannes Rau 0.83 0.87 0.85 162 Richard von Weizsäcker 1.00 0.71 0.83 7 Roman Herzog 0.95 0.84 0.89 43 accuracy 0.79 614 macro avg 0.82 0.74 0.77 614 weighted avg 0.78 0.79 0.78 614 0.7850162866449512
Reden von Mitgliedern der Bundesregierungen
Die Texte sind importiert! 2906 Texte sind importiert! Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden): speech person Angela Merkel 1128 Bernd Neumann 323 Christina Weiss 204 Gerhard Schröder 417 Hans Martin Bury 42 Helmut Kohl 332 Joschka Fischer 32 Julian Nida-Rümelin 48 Michael Naumann 64 Monika Grütters 246 Rolf Schwanitz 25 Thomas de Maizière 45
Kommentare
Kommentar veröffentlichen