Stellen Sie sich vor, Sie sitzen entspannt auf dem Sofa und bestellen Ihren Computer, Laptop oder Ihr Handy, um einfache Aufgaben wie das Schreiben eines Briefes oder das Ausführen weniger Befehle auszuführen. Ist es möglich?

Hier kommt natürlich die Spracherkennung ins Spiel.

Nach der Definition ist es der Prozess der Erkennung menschlicher Sprache und der Dekodierung in Textform.

Prinzip

Das Grundprinzip von Spracherkennung beinhaltet die Tatsache, dass Sprache oder Worte, die von einem Menschen gesprochen werden, Schwingungen in der Luft verursachen, die als Schallwellen bekannt sind. Diese kontinuierlichen oder analogen Wellen werden digitalisiert und verarbeitet und dann in geeignete Wörter und dann geeignete Sätze decodiert.

Spracherkennung

Komponenten eines Spracherkennungssystems

Woraus besteht ein grundlegendes Spracherkennungssystem?

Komponenten eines Spracherkennungssystems

Ein Gerät zur Sprachaufnahme : Es besteht aus einem Mikrofon, das die Schallwellensignale in elektrische Signale umwandelt, und einem Analog-Digital-Wandler, der die analogen Signale abtastet und digitalisiert, um die diskreten Daten zu erhalten, die der Computer verstehen kann.
Ein digitales Signalmodul oder ein Prozessor : Es verarbeitet das rohe Sprachsignal wie die Frequenzbereichskonvertierung und stellt nur die erforderlichen Informationen usw. wieder her.
Vorverarbeitete Signalspeicherung : Die vorverarbeitete Sprache wird im Speicher gespeichert, um eine weitere Aufgabe der Spracherkennung auszuführen.
Referenz Sprachmuster : Der Computer oder das System besteht aus vordefinierten Sprachmustern oder Vorlagen, die bereits im Speicher gespeichert sind und als Referenz für den Abgleich dienen.
Mustervergleichsalgorithmus : Das unbekannte Sprachsignal wird mit dem Referenzsprachmuster verglichen, um die tatsächlichen Wörter oder das Wortmuster zu bestimmen.

Funktionsweise des Systems

Lassen Sie uns nun sehen, wie das gesamte System tatsächlich funktioniert.

Funktionsweise des Systems

Eine Sprache kann als akustische Wellenform angesehen werden, d. H. Als Signal, das Nachrichteninformationen trägt. Ein normaler Mensch mit der begrenzten Bewegungsgeschwindigkeit seiner Artikulatoren (Sprachorgane) kann Sprache mit einer durchschnittlichen Geschwindigkeit von 10 Tönen pro Sekunde erzeugen. Die durchschnittliche Informationsrate beträgt etwa 50-60 Bit / Sekunde. Dies bedeutet, dass tatsächlich nur 50 Bits / Sekunde an Informationen im Sprachsignal erforderlich sind. Diese akustische Wellenform wird vom Mikrofon in analoge elektrische Signale umgewandelt. Der Analog-Digital-Wandler wandelt dieses analoge Signal in digitale Abtastwerte um, indem er die Welle in diskreten Intervallen präzise misst.
Das digitalisierte Signal besteht aus einem Strom von periodischen Signalen, die mit 16000 Mal pro Sekunde abgetastet werden, und ist nicht zur Ausführung der tatsächlichen Signale geeignet Spracherkennung Prozess, da das Muster nicht leicht zu finden ist. Um die tatsächlichen Informationen zu extrahieren, wird das Signal im Zeitbereich in ein Signal im Frequenzbereich umgewandelt. Dies erfolgt durch den digitalen Signalprozessor unter Verwendung der FFT-Technik. Im digitalen Signal die Komponente nach jeweils 1/100^thvon einer Sekunde wird analysiert und das Frequenzspektrum für jede solche Komponente wird berechnet. Mit anderen Worten wird das digitalisierte Signal in kleine Teile von Frequenzamplituden segmentiert.
Jedes Segment oder der Frequenzgraph repräsentiert die verschiedenen Geräusche, die von Menschen gemacht werden. Der Computer führt den Abgleich der unbekannten Segmente mit der gespeicherten Phonetik der jeweiligen Sprache durch. Dieser Mustervergleich erfolgt auf drei Arten:

Verwendung eines akustischen phonetischen Ansatzes : Beim akustischen phonetischen Ansatz wird im Allgemeinen das Hidden-Markov-Modell verwendet. Dieses Modell entwickelt ein nicht deterministisches Wahrscheinlichkeitsmodell für die Spracherkennung. Dieses Modell besteht aus zwei Variablen - den verborgenen Zuständen der im Computerspeicher gespeicherten Phoneme und dem sichtbaren Frequenzsegment des digitalen Signals. Jedes Phonem hat seine eigene Wahrscheinlichkeit und das Segment wird gemäß der Wahrscheinlichkeit mit dem Phonem abgeglichen, und die übereinstimmenden Phoneme werden dann zusammengetragen, um die richtigen Wörter gemäß den gespeicherten Grammatikregeln der Sprache zu bilden.

Verwenden eines Mustererkennungsansatzes : Bei dem Mustererkennungsansatz wird das System mit einem bestimmten Sprachmuster für jede Sprache trainiert und das unbekannte Sprachmuster wird mit dem Referenzsprachmuster verglichen, indem der Abstand zwischen den Signalen unter Verwendung der Zeitverzerrungstechnik bestimmt wird.

Künstliche Intelligenz nutzen : Der Ansatz der künstlichen Intelligenz basiert auf der Verwendung grundlegender Wissensquellen wie der Kenntnis von Tönen, die auf der Grundlage von Spektralmessungen gesprochen werden, der Kenntnis der richtigen bedeutungsvollen und syntaktischen Wörter.

Faktoren, von denen das Spracherkennungssystem abhängt

Das Spracherkennungssystem hängt von folgenden Faktoren ab:

Isolierte Wörter : Zwischen den gesprochenen aufeinanderfolgenden Wörtern muss eine Pause eingelegt werden, da sich fortlaufende Wörter überschneiden können, was es dem System erschwert, zu verstehen, wann ein Wort beginnt oder endet. Daher muss zwischen aufeinanderfolgenden Wörtern eine Stille herrschen.
Einzelner Lautsprecher : Viele Sprecher, die gleichzeitig versuchen, Spracheingabe zu geben, können zu Überlappungen der Signale und Unterbrechungen führen. Die meisten verwendeten Spracherkennungssysteme sind sprecherabhängige Systeme.
Wortschatzgröße : Sprachen mit großem Wortschatz sind für den Mustervergleich schwer zu berücksichtigen als Sprachen mit kleinem Wortschatz, da die Wahrscheinlichkeit, mehrdeutige Wörter zu haben, bei letzteren geringer ist.

Spracherkennungssystem unter Windows 7

Ich möchte die folgenden Schritte jeder Person empfehlen, die Windows 7 für das Spracherkennungssystem verwendet

Öffnen Sie die Systemsteuerung über das Startmenü oder durch Klicken auf das Symbol.
Wählen Sie Einfacher Zugriff und klicken Sie dann auf Spracherkennung.
Klicken Sie anschließend auf Mikrofon einrichten und wählen Sie Desktop-Mikrofon aus den verfügbaren Optionen aus.
Nehmen Sie als nächstes das Sprach-Tutorial und folgen Sie den Anweisungen.
Trainieren Sie anschließend Ihren Computer auf bessere Optionen, damit der Computer ein bestimmtes Muster Ihres Sprachsignals speichert. Klicken Sie dazu auf die Option 'Trainieren Sie Ihren Computer, um Sie besser zu verstehen' und befolgen Sie die Anweisungen.
Starten Sie nun das Spracherkennungssymbol und diktieren Sie Ihre Sprache dem Computer. Sie können dem Computerwörterbuch auch eigene Wörter hinzufügen.

Praktische Spracherkennungssysteme: Verwendung von HM2007

Ein praktisches Spracherkennungssystem kann unter Verwendung eines Spracherkennungs-IC aufgebaut werden HM2007 . Der HM2007 ist ein 48-poliger IC, der eine Spracherkennungsfunktion bietet. Es funktioniert in zwei Modi: Manueller Modus oder CPU-Modus. In beiden Modi wird der IC zuerst darauf trainiert, Wörter zu erkennen, indem der Benutzer jedes Wort für die entsprechende auf der Taste gedrückte Nummer sagt. Der IC speichert jedes Wortsignal in dem Speicherort, der dem Wort entspricht. Die vom IC ausgegebenen Daten sind mit dem Mikrocontroller verbunden, von wo aus sie auf dem LCD angezeigt werden.

Praktische Spracherkennungssysteme

Normalerweise verwenden wir den manuellen Modus für den HM2007-Betrieb.

Der HM2007 besteht aus einem RDY-Pin, einem aktiven Low-Pin, der anzeigt, dass der IC für Trainingszwecke bereit ist.
Die Spracheingabe erfolgt über ein Mikrofon, das an den MICIN-Pin des IC angeschlossen ist.
Der IC ist mit einer Tastatur verbunden, die zur Bereitstellung einer Zahl verwendet wird, die jedem Wort entspricht. Der IC arbeitet in zwei Funktionen - Löschen und Trainieren. Wenn die Zugtaste auf der Tastatur gedrückt wird, beginnt der IC mit dem Trainingsprozess.
Der Benutzer drückt eine Zifferntaste, bevor er die Funktionstaste „Train“ drückt, und sagt das gewünschte Wort zum Mikrofon.
Der IC sendet ein hohes Signal an den ME-Pin (Memory Enable), der mit dem entsprechenden ME-Pin des SRAM verbunden ist. Das der gedrückten Nummer entsprechende 8-Bit-Datensignal wird über den externen Bus im SRAM (externer RAM) gespeichert.
Nachdem die Spracheingabe erkannt wurde, befindet sich der RDY-Pin auf logisch hoch und der IC gelangt in den Erkennungsstatus, in dem er den Erkennungsprozess startet.
Das Ergebnis des Prozesses wird über den Datenbus mit dem DEN-Pin (Data Enable) hoch ausgegeben.
Die 8-Bit-Daten können dann über einen Serienschnittstellenprozessor an den Mikrocontroller übergeben oder zuerst mit dem Latch-IC 74HC573 zwischengespeichert werden.
Der Mikrocontroller ist mit einem LCD verbunden und so programmiert, dass das entsprechende Wort auf dem Display angezeigt wird.

Die einzige Vorsichtsmaßnahme, die getroffen werden muss, besteht darin, keine Homonyme (Wörter mit ähnlichem Klang) zu verwenden und sich auch um die Erregung in der Stimme zu kümmern.

Das ist also alles wie ein grundlegendes Spracherkennungssystem funktioniert. Weitere Eingaben können gerne hinzugefügt werden.