Endlich! Mein Traum von einer brauchbaren, persönlichen Spracherkennung rückt immer näher.

Ich bin grade dabei, eigene Akustikmodelle zu trainieren und eigene Sprachmodelle zu erstellen onda erstellen zu lassen (probiere beides aus).

Ein Ausschnitt aus dem Log von sphinxtrain (läuft grade)


...

MODULE: 40 Build Trees
    Phase 1: Cleaning up old log files...
    Phase 2: Make Questions
    Phase 3: Tree building
        Processing each phone with each state
        A 0
        A 1
        A 2
        AE 0
        AE 1
        AE 2
        AU 0
        AU 1
        AU 2
        B 0
        B 1
        B 2
        C 0
        C 1
        C 2
        CH 0
        CH 1
        CH 2
        D 0
        D 1
        D 2
        E 0
        E 1
        E 2
        EU 0
        EU 1
        EU 2
        F 0
        F 1
        F 2
        G 0
        G 1
        G 2
        H 0
        H 1
        H 2
        I 0
        I 1
        I 2
        J 0
        J 1
        J 2
        K 0
        K 1
        K 2
        L 0
        L 1
        L 2
        M 0
        M 1
        M 2
        N 0
        N 1
        N 2
        NG 0
        NG 1
        NG 2
        O 0
        O 1
        O 2
        OE 0
        OE 1
        OE 2
        P 0
        P 1
        P 2
        Q 0
        Q 1
        Q 2
        BREAK 0
        BREAK 1
        BREAK 2
        R 0
        R 1
        R 2
        S 0
        S 1
        S 2
        SCH 0
        SCH 1
        SCH 2
        Skipping SIL
        SS 0
        SS 1
        SS 2
        T 0
        T 1
        T 2
        U 0
        U 1
        U 2
        UE 0
        UE 1
        UE 2
        V 0
        V 1
        V 2
        W 0
        W 1
        W 2
        X 0
        X 1
        X 2
        Y 0
        Y 1
        Y 2
        Z 0
        Z 1
        Z 2
MODULE: 45 Prune Trees
    Phase 1: Tree Pruning
    Phase 2: State Tying
MODULE: 50 Training Context dependent models
    Phase 1: Cleaning up directories:
    accumulator...logs...qmanager...
    Phase 2: Copy CI to CD initialize
    Phase 3: Forward-Backward
        Baum welch starting for 256 Gaussian(s), iteration: 1 (1 of 2)
        0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
        Baum welch starting for 256 Gaussian(s), iteration: 1 (2 of 2)
        0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
        Normalization for iteration: 1
        Current Overall Likelihood Per Frame = -193.771277659035
        Baum welch starting for 256 Gaussian(s), iteration: 2 (1 of 2)
        0% 10% 20% 30% 40% 50% 60%

...

Weite kurze Wege

Bis dahin war es ein weiter Weg, und es wird wohl noch ein weiterer weiter Weg sein, bis ich wirklich im Ziel bin. Aber so weit - und so schnell diesmal - bin ich mit Pocketsphinx noch nicht gekommen. Diesmal scheint auch kein Grund mehr zu bestehen, das ganze Unternehmen vorübergehend auf Eis zu legen. Im Grunde ist jetzt alles klar. Das Einzige, was es noch braucht, ist Muße, Geduld, Zeit & Nerven - wie bei so vielem ;-)

Wer auch damit spielt oder spielen möchte und an einem der zahlreichen Haken hängenbleibt, dem nützt vielleicht, was ich mir während des Einrichtens und Aufbauens notiert habe (ist allerdings noch teilweise sehr hembelisch-chaotisch):

https://sites.google.com/site/hembelzomx/home/toxtelogy/textmining/das-hembelsche-tomxtoskop-zm-11-beta/meta--mega-bauelemente/spracherkennung/cmu-sphinx



Kommentare

Beliebte Posts aus diesem Blog

·

Es brennt.

Bye, bye Nord Stream 2!