Text Extraction [Te]

Was genau leistet das KI-Element?

Die KI-Komponente Text Extraction [Te] erkennt und versteht Entitäten (z. B. Personen, Organisationen, Städte, Produkte) und Begriffe (z. B. Kommunikation, Innovation, Produktion) in Texten. Eine Kernfähigkeit für Text Extraction [Te] ist die Auflösung von Mehrdeutigkeiten in Namen und Wörtern: »Müller« bezeichnet, je nach Kontext, den Politiker Gerd Müller, den Fußballer Thomas Müller, die Drogeriekette Müller oder den Beruf Müller. Die Mehrdeutigkeit von Namen und Wörtern wird durch die Verknüpfung mit den passenden eindeutigen Entitäten und Konzepten in einer Wissensbank aufgelöst. Solche Wissensbanken werden häufig mit Hilfe von Wikipedia erstellt, indem jeder Artikel in eine maschinenverstehbare Entität oder ein Konzept transformiert wird. Für den Einsatz in speziellen Anwendungen oder Unternehmensfeldern muss die Wissensdatenbank angepasst werden. Text Extraction [Te] ordnet Namen und Wörtern eindeutige Bedeutungen zu.

Für welche Aufgaben wird das KI-Element in Unternehmen eingesetzt?

Text Extraction [Te] ist Bestandteil von Suchmaschinen wie Google und Bing. Entitäten und Konzepte werden erkannt und helfen, Fragen direkt zu beantworten. Sucht man beispielsweise nach »Dylan Songs«, zeigt Google nicht nur die Lieder des Musikers an, sondern findet auch Webseiten, die beispielsweise »Like a Rolling Stone« erwähnen. Diese Auflistung wäre nicht möglich, ohne die Analyse der Suchanfrage, ob es sich hier um Bob Dylan (Entität) und dessen Lieder (Konzept) handelt. Diese Art von semantischer Suchfunktionalität ist für alle Unternehmen von Nutzen, die schnell große Textmengen durchforsten müssen. Ein konkretes Beispiel ist die Analyse sozialer Medien, etwa Produktbeschwerden: Schreibt ein Nutzer »Wrangler ist Mist«, sollte sich dann der Automobilhersteller oder Jeans-Hersteller Sorgen machen? Ohne Textextraktion kann diese Frage nicht eindeutig beantwortet werden. Das Zusammenspiel Text Extraction [Te] mit Language Understanding [Lu] ermöglicht viele weitere Anwendungsfälle. Beispiele hierfür finden sich im Kapitel zu Language Understanding [Lu].

Welche Marktentwicklungen zeigen die Bedeutung des KI-Elements?

Der Knowledge Graph in der Google-Suche schließt zum ersten Mal die kommerzielle Nutzung von riesigen Wissensdatenbanken mit hunderten Millionen von Entitäten und Konzepten ein. Nutzer der Suchmaschine bekommen nun direkt Bilder und relevante Fakten zu Personen und Unternehmen eingeblendet. Auch der Trend zu sprachbasierten Assistenten wie Siri, Alexa und Cortana zeigen den steigenden Bedarf an Text Extraction [Te]. Die Bedeutung des KI-Elements für den Unternehmenskontext wird dadurch ersichtlich, dass neben kleineren Unternehmen wie Ambiverse, Aylien, SpazioDati auch die großen IT-Unternehmen – allen voran Google, IBM und Microsoft – Schnittstellen für automatisiertes Textverständnis anbieten. Mit deren Hilfe können Entwickler dieses KI-Element in unternehmenseigenen Anwendungen nutzen.

Wie hängt dieses KI-Element mit anderen im Periodensystem zusammen?

Text Extraction [Te] ist die Basis für Language Understanding [Lu]. Entitäten und Konzepte in Texten agieren als Anker, deren Beziehungen Language Understanding [Lu] erlaubt. Häufig, beispielsweise bei sprachgestützten Assistenten, geht Text Extraction [Te] Speech Recognition [Sr] voraus, die Audiosignale in Text umwandelt. Die vollständige Verarbeitungskette ist dann Speech-to-Text-to-Knowledge [Sr]-[Te]-[Lu].

Wer bietet für dieses KI-Element Lösungen auf dem Markt an?

Große IT-Unternehmen wie Amazon, Google, IBM, Microsoft, SAP bieten alle Lösungen zum Erkennen und Verstehen von Entitäten und Konzepten an. Spezialanbieter erreichen häufig eine bessere Qualität oder bedienen eine besondere Nische: Ambiverse, Aylien, Basis Technologies, Bitext, SpazioDati und TextRazor.

Welche wirtschaftliche Bedeutung hat dieses KI-Element?

Marketsandmarkets schätzt die Größe des Marktes für Text Analytics für das Jahr 2022 auf 8,8 Milliarden US-Dollar.

Welche Hürden zeigen sich beim Einsatz dieses KI-Elements in der Praxis?

In einigen Anwendungsbereichen kann der volle Nutzen von Text Extraction [Te] erst bei Integration von Anwendungswissen ausgeschöpft werden. Dazu müssen unternehmenseigene Entitäten (Produkte, Partner, ...) und Konzepte (z. B. Fachbegriffe) in die Wissensdatenbanken eingebracht werden. Dies erfordert derzeit manuellen Aufwand, da die vollautomatische Integration und Erweiterung von Wissensdatenbanken in Unternehmen mit öffentlichen Wissensdatenbanken wie Wikidata, DBpedia oder YAGO noch fehlerbehaftet ist. Eine weitere Voraussetzung für die vollautomatische Integration ist die vollständige Digitalisierung unternehmensinterner Texte und Datenbanken.

Wer treibt die Entwicklung dieses KI-Elements voran?

Text Extraction [Te] ist seit Jahrzehnten Teil der Forschung. Auch heute gibt es viele Arbeiten auf Konferenzen wie der ACL, EMNLP, WWW oder ISWC oder in Fachzeitschriften wie Artificial Intelligence, die neue Methoden und Anwendungsfelder für das Erkennen und Verknüpfen von Namen und Worten mit Entitäten und Konzepten publizieren. Besonders Amazon, Google und Microsoft betreiben Forschung für Text Extraction [Te], was dem großen Nutzen des Elements bei der Websuche und sprachgesteuerten Assistenten geschuldet ist. Deutsche Unternehmen mit Produkten, die Text Extraction [Te] einsetzen, sind Intrafind und Empolis.

Text Extraction

Periodensystem der KI