Speech Identification [Si]

Was genau leistet das Element?

Speech Identification [Si] bezeichnet das Verwenden akustischer Parameter zur Identifikation eines individuellen Sprechers. Dazu werden charakteristische Eigenschaften im Klangbild der Sprache eines Individuums genutzt, um diese von anderen Sprechern zu unterscheiden. Man unterscheidet zwischen eingeschränkter und uneingeschränkter Erkennung. Eingeschränkt bedeutet, dass für einen Sprecher vorgegebene Zahlen oder Worte als Muster hinterlegt sind. Flexibler ist die uneingeschränkte Variante, die anhand zufälliger Sprache die Identität feststellen kann, was höhere Anforderungen an das System mit sich bringt.

Für welche Aufgaben wird das KI-Element in Unternehmen eingesetzt?

Das Erkennen von Sprechern wird zumeist in Systemen zum Authentifizieren und Verifizieren eingesetzt. Dies geschieht zum Beispiel beim Zugang zu Gebäuden oder zu Daten innerhalb einer Software und ist neben dem Fingerabdruck und der Gesichtserkennung eine häufig genutzte Methode. In Überwachungssystemen wird Speech Identification [Si] ebenfalls genutzt. Dabei geht es entweder darum, Personen zu Gruppen zusammenzufassen oder sie konkret zu erkennen, was bei Telefonkonferenzen oder in Radiosendungen der Fall sein kann. Bei der Überführung von Kriminellen ist diese Komponente ein wichtiger Bestandteil, da anhand von Überwachungsvideos oder Tonaufnahmen ein Täter ermittelt werden kann.

Welche Marktentwicklungen zeigen die Bedeutung des KI-Elements?

Speech Identification [Si] hat sich zeitgleich zu Speech Recognition [Sr] entwickelt. Begründet ist dies in derselben Datengrundlage sowie den ähnlichen Herausforderungen. Die ersten Prototypen für Speech Identification [Si] entstanden in den 1970er Jahren und wurden von der U.S. Air Force getestet. Im November 2017 gab Amazon bekannt, dass für Alexa Echo eine Speech-Recognition-Schnittstelle entwickelt werde, um einem Sprecher personalisierte Dienste anbieten zu können. Im Mai 2015 wurde erstmalig Speech Recognition [Sr] des Unternehmens HSBC in einer BBC Show eingesetzt. Außerdem nutzen einige große Banken (z. B. die Barclays Bank) die Komponente zur Authentifizierung ihrer Kunden. Mittlerweile folgen viele Banken dieser Entwicklung.

Wie hängt dieses KI-Element mit anderen im Periodensystem zusammen?

Ein wichtiger vorbereitender Schritt für Speech Identification [Si] ist die Audio Recognition [Ar] bzw. Audio Identification [Ai], um in einem Audiosignal eine menschliche Stimme zu erkennen. Des Weiteren besteht eine enge Verbindung zu Speech Recognition [Sr], um den Sprecher in einem Audiosignal festzustellen. Ebenfalls von großer Bedeutung ist Decision Making [Dm], wenn im Anschluss der Identifizierung eine Entscheidung getroffen wird, beispielsweise um Rechte zu gewähren.

Wer bietet für dieses KI-Element Lösungen auf dem Markt an?

GoVivace bietet eine Lösung an, die eine Sprachprobe schnell mit einer Vielzahl von Sprachaufzeichnungen abgleichen kann und zum Identifizieren von Anrufern dient. Das amerikanische Unternehmen SpeechPro bietet eine Standalone Software für Speech Identification [Si] an.

Welche wirtschaftliche Bedeutung hat dieses KI-Element?

Laut eines Reports von Marketsandmarkets betrug die Größe des Marktes für Speech und Voice Recognition im Jahr 2017 6,19 Milliarden US-Dollar. Dieses Marktvolumen soll bis zum Jahr 2023 jährlich um 19,8 Prozent auf 18,3 Milliarden US-Dollar wachsen.

Welche Hürden zeigen sich beim Einsatz dieses KI-Elements in der Praxis?

Die größten Herausforderungen der Speech Identification [Si] bestehen in ihrer Empfindlichkeit gegenüber Störungen im Übertragungskanal, der Mikrofonvariabilität sowie möglichen Hintergrundgeräuschen. Zusätzlich können je nach körperlicher Verfassung des Sprechers die Tonlage oder andere Charakteristika der Stimme das Erkennen verfälschen. Des Weiteren sind Systeme zur Sprechererkennung anfällig für Cyber-Attacken.

Wer treibt die Entwicklung dieses KI-Elements voran?

Seit 1996 unterstützt das National Institute of Standards and Technology die Entwicklung von Speech Recognition [Sr] und führt jährlich Workshops und Evaluationen zu Forschungsergebnissen durch. Amazon treibt durch die Erweiterung der Alexa-Schnittstelle die Weiterentwicklung der KI-Komponente voran, wie auch Microsoft: das Unternehmen bietet in Microsoft Azure eine Schnittstelle zum Authentifizieren von Sprechern.

Speech Identification

Periodensystem der KI