Audio Identification [Ai]

Was genau leistet das KI-Element?

Vom Erkennen einzelner akustischer Ereignisse bis zur Analyse komplexer Szenen bietet dieses KI-Element eine Vielzahl von Anwendungsmöglichkeiten. Dabei wird ein datenbasierter Fingerabdruck eines akustischen Objekts oder einer akustischen Szene erstellt. Technisch gesehen separiert es ein eindeutiges Signal aus einer Geräuschkulisse, z. B. ein bestimmtes Instrument in einer Musikaufnahme, eine einzelne Maschine in einer Produktionsanlage, ein ungewöhnliches oder sicherheitskritisches Geräusch. Nachgelagert kann dann eine entsprechende Aktion ausgelöst werden, z. B. das Absetzen eines Notrufs oder einer anderen Alarmsignalisierung.

Für welche Aufgaben wird das KI-Element in Unternehmen eingesetzt?

Das Erkennen eines eindeutigen Signals im akustischen Hintergrund ist Grundlage für die maschinelle Inhaltsanalyse von akustischen Daten. Nur so gelingt z. B. die automatische Transkription von Interviews, also das Trennen individueller Stimmen in einem Gespräch. Auch der Trend zum Sprachdialog mehrerer Benutzer mit intelligenten Lautsprechern wie Alexa Echo oder Google Home setzt Audio Identification [Ai] voraus. Um die Effektivität von Werbekampagnen zu messen, erfassen Unternehmen die Reichweite von Ausstrahlungen automatisch. Hierzu werden akustische Markierungen in Werbebotschaften eingebettet, die dann bei Ausstrahlung erkannt werden können.

Der Nutzen von Musikdatenbanken steigt erheblich, wenn Anfragen durch Musikbeispiele möglich werden oder durch einfaches Summen einer Melodie. Audioanalyse ermöglicht auch die Verwaltung von Musikkatalogen und Sample-Bibliotheken, automatisches Verschlagworten von Audiodateien und die Erzeugung von Musikempfehlungen. Audio Identification [Ai] wird in der Audioforensik und in Sicherheitsanwendungen, z. B. dem Erkennen von Glasbruch, Einbrüchen, Vandalismus oder anderen kriminellen Handlungen, eingesetzt. Weitere Anwendungsfälle sind Smart Cities, z. B. zum Lärm-Monitoring, zur Sirenen-Erkennung oder für Verkehrszählungen sowie Smart-Home- und Pflegeumgebungen beim Erkennen von Notrufen oder Notsituationen und der Überwachung von Türklingeln, Babies oder Patienten. In der industriellen Produktion existieren ebenfalls zahlreiche Anwendungen. Hier können z. B. Prozesse akustisch überwacht werden, etwa zur prädiktiven Bestimmung von Wartungsintervallen für Maschinen. Veränderungen von Geräuschen, z. B. in Getrieben oder anderen mechanisch bewegten Teilen, können Hinweise für deren baldigen Ausfall geben. Auf diese Art können kostenintensive Stillstandzeiten von Maschinen minimiert werden. Die Beurteilung eines zu erfüllenden Zielklanges kann bei sogenannten End-of-Line-Tests in der Produktion eingesetzt werden, wodurch z. B. defekte Bauteile erkannt werden können.

Welche Marktentwicklungen zeigen die Bedeutung des KI-Elements?

Historisch stammt der Bedarf nach diesem KI-Element vorrangig aus der Telekommunikation. Die Technik findet z. B. Einsatz in Telekonferenzsystemen. In den meisten Fällen ist Audio Identification [Ai] kein eigenständiges Produkt, sondern integraler Bestandteil komplexerer Produkte und Dienste. Der Trend geht jedoch zum Angebot von Software-Diensten, wie bei Services zum Identifizieren von Sprechern bei Microsoft, zum Erkennen von Musikstücken bei Niland oder zum Interpretieren von Videos bei Valossa. Die Bedeutung dieses KI-Elements wird auch durch das steigende Marktinteresse an persönlichen Assistenten wie Amazon Echo oder Google Home getrieben. Im März 2016 gab Google seine Speech API für Entwickler frei und forscht an der Erkennung allgemeiner akustischer Ereignisse in Youtube-Videos; so wurden 2017 eine Million Videos auf akustische Ereignisse untersucht. Im Dezember 2017 verkündete Apple die Übernahme von Shazam, einem Anbieter eines Dienstes zum akustischen Erkennen von Musikstücken.

Wie hängt dieses KI-Element mit anderen im Periodensystem zusammen?

Einerseits ermöglicht das Identifizieren persönlicher Stimmen ein intuitives Arbeiten mit sprachgesteuerten Schnittstellen. Damit vergrößern sich Einsatzfelder wie Benutzergruppen in zwei Richtungen: Entweder vereinfacht sich der Zugriff auf bestehende digitale Dienste oder es können neue angeboten werden, die bisher nicht skalierbar sind. Wenn der Trend zu sprachgesteuerten Mehrbenutzer-Zugriffen auf Einzelgeräten anhält (z. B. Amazon Echo, Google Home), wird das Identifizieren von Stimmen zwingend erforderlich. Hier gibt es Abhängigkeiten zum Element Speech Identification [Si]. Andererseits setzen das Auswerten von Daten und die Erstellung von Prognosen das Erfassen brauchbarer Signale voraus. Je genauer akustische Klangteppiche erfasst werden können, desto einfacher ist es, in diesem Datenstrom Signale zu isolieren. Dadurch entsteht eine Beziehung zu Audio Recognition [Ar].

Wer bietet für dieses KI-Element Lösungen auf dem Markt an?

Das estnische Unternehmen Acoustid bietet eine Lösung, um Musikstücke automatisch zu verschlagworten. Der in Berlin beheimatete Anbieter Mufin bietet Lösungen, um die Reichweite von Rundfunkausstrahlungen zu messen. Das im Jahr 2002 gegründete Unternehmen Shazam findet mit seiner gleichnamigen App Musiktitel anhand kurzer Musikschnipsel. Nach eigenen Angaben hatte das Unternehmen vor fünf Jahren bereits 150 Millionen Benutzer in über 150 Ländern und verwaltete 10 Millionen Einträge von Musiktiteln. Im Jahr 2017 wurde es von Apple übernommen.

Welche wirtschaftliche Bedeutung hat dieses KI-Element?

Durch die vielfältigen Einsatzmöglichkeiten in verschiedenen Märkten hat die Technologie ein hohes Potenzial, bestehende Lösungen zu verbessern. Jedoch stehen viele Lösungen erst auf der Schwelle zum Markteintritt. Das globale Marktvolumen für Voice Recognition soll mach Schätzung von Business Wire im Jahr 2023 126,5 Milliarden US-Dollar erreichen.

Welche Hürden zeigen sich beim Einsatz dieses KI-Elements in der Praxis?

Algorithmen zum Identifizieren von Stimmen werden zunehmend besser. Sie stoßen aber weiterhin auf Grenzen beim Einsatz in Mehrbenutzer-Szenarien oder bei starker Geräuschkulisse (z. B. in Autos, Bahnhöfen oder Flughäfen). Das Identifizieren einer Stimme basiert heute auf analytischen Verfahren des akustischen Signals. Die Qualität der Auswertung könnte deutlich steigen, sobald dieses KI-Element z. B. semantische Information aus dem Kontext des Sprechers berücksichtigte. Wie für alle maschinellen Lernverfahren ist eine ausreichend große Menge an akustischen Signalen für ein Training des Systems essenziell. Insbesondere Audiodaten für selten auftretende akustische Ereignisse wie z. B. das Geräusch defekter Rotoren von Windkraftanlagen sind oft schwer für ein Training von Modellen zu beschaffen. Die zunehmende Verfügbarkeit von akustischen Datensätzen zur Modellbildung wird die Entwicklung von akustischen Modellen weiter vereinfachen.

Wer treibt die Entwicklung dieses KI-Elements voran?

Dieses KI-Element ist einerseits noch akademisch geprägt. Dafür stehen einschlägige Konferenzen wie die International Conference on Acoustics, Speech, and Signal Processing oder die International Society for Music Information Retrieval Conference. Andererseits befindet es sich gerade auf dem Sprung von akademischer Grundlagenarbeit hin zu marktreifen Produkten für neuartige Anwendungen. Typischerweise gründen Wissenschaftler ein Startup, das dieses KI-Element als Nischenprodukt platziert. Beispiele solcher Services sind eine AudioID für das Steuern von Zugriffen auf die Geräteklasse intelligenter Lautsprecher, das maschinelle Protokollieren von Dialogen zwischen mehreren Beteiligten, wie es die Lösung von Trint verspricht, oder die automatische Erkennung von Babyschreien der Firma Biloop. Häufig übernehmen Firmen wie Google, Amazon oder Facebook solche innovativen Dienste und integrieren diese in ihre Produkte und Services.

Audio Identification

Periodensystem der KI