Zwei Übungen mit der Schlange - Übung 2, Textklassifizierung
TF IDF mit Python3
Anhand verschiedener Quellen, von denen die wichtigsten zwei die folgenden sind (weitere, unsortierte Quellenangaben am Ende dieses Posts), habe ich mir eine eigene Textklassifizierungs-Maschine gebastelt:
https://stackabuse.com/text-classification-with-python-and-scikit-learn/
https://blog.codecentric.de/2019/03/natural-language-processing-basics/
Drei Ausgaben von drei Klassifizierungsversuchen:
Reden von Bundestagspräsidenten
Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden):
speech
person
Norbert Lammert 178
Wolfgang Thierse 205
Typ: binary
Es werden zwei Klassen gebildet.
Die Klassifizierung beginnt!
Die Klassifizierung ist abgeschlossen!
So steht es um die Qualität der Vorhersage:
[[51 4]
[ 2 58]]
precision recall f1-score support
Norbert Lammert 0.96 0.93 0.94 55
Wolfgang Thierse 0.94 0.97 0.95 60
accuracy 0.95 115
macro avg 0.95 0.95 0.95 115
weighted avg 0.95 0.95 0.95 115
0.9478260869565217
Reden von Bundespräsidenten
Die Texte sind importiert!
2045 Texte sind importiert!
Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden):
speech
person
Christian Wulff 204
Horst Köhler 528
Joachim Gauck 588
Johannes Rau 568
Richard von Weizsäcker 23
Roman Herzog 134
Typ: multiclass Es werden mehr als zwei Klassen gebildet. Die Klassifizierung beginnt! Die Klassifizierung ist abgeschlossen! So steht es um die Qualität der Vorhersage:
[[ 27 18 16 5 0 0]
[ 11 123 15 13 0 1]
[ 7 11 150 5 0 0]
[ 2 11 7 141 0 1]
[ 0 0 1 1 5 0]
[ 0 3 0 4 0 36]]
precision recall f1-score support
Christian Wulff 0.57 0.41 0.48 66
Horst Köhler 0.74 0.75 0.75 163
Joachim Gauck 0.79 0.87 0.83 173
Johannes Rau 0.83 0.87 0.85 162
Richard von Weizsäcker 1.00 0.71 0.83 7
Roman Herzog 0.95 0.84 0.89 43
accuracy 0.79 614
macro avg 0.82 0.74 0.77 614
weighted avg 0.78 0.79 0.78 614
0.7850162866449512
Reden von Mitgliedern der Bundesregierungen
Die Texte sind importiert!
2906 Texte sind importiert!
Es werden Reden der folgenden Personen verwendet (speech = Anzahl der Reden):
speech
person
Angela Merkel 1128
Bernd Neumann 323
Christina Weiss 204
Gerhard Schröder 417
Hans Martin Bury 42
Helmut Kohl 332
Joschka Fischer 32
Julian Nida-Rümelin 48
Michael Naumann 64
Monika Grütters 246
Rolf Schwanitz 25
Thomas de Maizière 45
Kommentare
Kommentar veröffentlichen