Endlich! Mein Traum von einer brauchbaren, persönlichen Spracherkennung rückt immer näher.
Ich bin grade dabei, eigene Akustikmodelle zu trainieren und eigene Sprachmodelle zu erstellen onda erstellen zu lassen (probiere beides aus).
...
MODULE: 40 Build Trees
Phase 1: Cleaning up old log files...
Phase 2: Make Questions
Phase 3: Tree building
Processing each phone with each state
A 0
A 1
A 2
AE 0
AE 1
AE 2
AU 0
AU 1
AU 2
B 0
B 1
B 2
C 0
C 1
C 2
CH 0
CH 1
CH 2
D 0
D 1
D 2
E 0
E 1
E 2
EU 0
EU 1
EU 2
F 0
F 1
F 2
G 0
G 1
G 2
H 0
H 1
H 2
I 0
I 1
I 2
J 0
J 1
J 2
K 0
K 1
K 2
L 0
L 1
L 2
M 0
M 1
M 2
N 0
N 1
N 2
NG 0
NG 1
NG 2
O 0
O 1
O 2
OE 0
OE 1
OE 2
P 0
P 1
P 2
Q 0
Q 1
Q 2
BREAK 0
BREAK 1
BREAK 2
R 0
R 1
R 2
S 0
S 1
S 2
SCH 0
SCH 1
SCH 2
Skipping SIL
SS 0
SS 1
SS 2
T 0
T 1
T 2
U 0
U 1
U 2
UE 0
UE 1
UE 2
V 0
V 1
V 2
W 0
W 1
W 2
X 0
X 1
X 2
Y 0
Y 1
Y 2
Z 0
Z 1
Z 2
MODULE: 45 Prune Trees
Phase 1: Tree Pruning
Phase 2: State Tying
MODULE: 50 Training Context dependent models
Phase 1: Cleaning up directories:
accumulator...logs...qmanager...
Phase 2: Copy CI to CD initialize
Phase 3: Forward-Backward
Baum welch starting for 256 Gaussian(s), iteration: 1 (1 of 2)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Baum welch starting for 256 Gaussian(s), iteration: 1 (2 of 2)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Normalization for iteration: 1
Current Overall Likelihood Per Frame = -193.771277659035
Baum welch starting for 256 Gaussian(s), iteration: 2 (1 of 2)
0% 10% 20% 30% 40% 50% 60%
...
Wer auch damit spielt oder spielen möchte und an einem der zahlreichen Haken hängenbleibt, dem nützt vielleicht, was ich mir während des Einrichtens und Aufbauens notiert habe (ist allerdings noch teilweise sehr hembelisch-chaotisch):
https://sites.google.com/site/hembelzomx/home/toxtelogy/textmining/das-hembelsche-tomxtoskop-zm-11-beta/meta--mega-bauelemente/spracherkennung/cmu-sphinx
Ein Ausschnitt aus dem Log von sphinxtrain (läuft grade)
...
MODULE: 40 Build Trees
Phase 1: Cleaning up old log files...
Phase 2: Make Questions
Phase 3: Tree building
Processing each phone with each state
A 0
A 1
A 2
AE 0
AE 1
AE 2
AU 0
AU 1
AU 2
B 0
B 1
B 2
C 0
C 1
C 2
CH 0
CH 1
CH 2
D 0
D 1
D 2
E 0
E 1
E 2
EU 0
EU 1
EU 2
F 0
F 1
F 2
G 0
G 1
G 2
H 0
H 1
H 2
I 0
I 1
I 2
J 0
J 1
J 2
K 0
K 1
K 2
L 0
L 1
L 2
M 0
M 1
M 2
N 0
N 1
N 2
NG 0
NG 1
NG 2
O 0
O 1
O 2
OE 0
OE 1
OE 2
P 0
P 1
P 2
Q 0
Q 1
Q 2
BREAK 0
BREAK 1
BREAK 2
R 0
R 1
R 2
S 0
S 1
S 2
SCH 0
SCH 1
SCH 2
Skipping SIL
SS 0
SS 1
SS 2
T 0
T 1
T 2
U 0
U 1
U 2
UE 0
UE 1
UE 2
V 0
V 1
V 2
W 0
W 1
W 2
X 0
X 1
X 2
Y 0
Y 1
Y 2
Z 0
Z 1
Z 2
MODULE: 45 Prune Trees
Phase 1: Tree Pruning
Phase 2: State Tying
MODULE: 50 Training Context dependent models
Phase 1: Cleaning up directories:
accumulator...logs...qmanager...
Phase 2: Copy CI to CD initialize
Phase 3: Forward-Backward
Baum welch starting for 256 Gaussian(s), iteration: 1 (1 of 2)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Baum welch starting for 256 Gaussian(s), iteration: 1 (2 of 2)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Normalization for iteration: 1
Current Overall Likelihood Per Frame = -193.771277659035
Baum welch starting for 256 Gaussian(s), iteration: 2 (1 of 2)
0% 10% 20% 30% 40% 50% 60%
...
Weite kurze Wege
Bis dahin war es ein weiter Weg, und es wird wohl noch ein weiterer weiter Weg sein, bis ich wirklich im Ziel bin. Aber so weit - und so schnell diesmal - bin ich mit Pocketsphinx noch nicht gekommen. Diesmal scheint auch kein Grund mehr zu bestehen, das ganze Unternehmen vorübergehend auf Eis zu legen. Im Grunde ist jetzt alles klar. Das Einzige, was es noch braucht, ist Muße, Geduld, Zeit & Nerven - wie bei so vielem ;-)Wer auch damit spielt oder spielen möchte und an einem der zahlreichen Haken hängenbleibt, dem nützt vielleicht, was ich mir während des Einrichtens und Aufbauens notiert habe (ist allerdings noch teilweise sehr hembelisch-chaotisch):
https://sites.google.com/site/hembelzomx/home/toxtelogy/textmining/das-hembelsche-tomxtoskop-zm-11-beta/meta--mega-bauelemente/spracherkennung/cmu-sphinx
Kommentare
Kommentar veröffentlichen