Aktuelle Herausforderungen der Spracherkennung

By StephaniePublished On: Oktober 17th, 2019Categories: sprachassistenten & voice

In den letzten Jahren hat sich die Spracherkennung stetig verbessert. Insbesondere das Aufkommen von Graphic Processing und Cloud Computing haben die Weiterentwicklung der Sprachtechnologie verstärkt.

Die Entwicklung der letzten 5-10 Jahre im Bereich der Automatic Speech Recognition (ASR) legte den Fokus vor allem auf das Minimieren von Fehlern bei der Worterkennung. Dadurch wurden bekannte Systeme, wie Siri, Alexa und Google Assistant erst möglich. Mit ihnen konnte eine Integration von Sprachassistenten in unseren Alltag stattfinden. Allerdings ergeben sich natürlich auch weiterhin Entwicklungspotenziale bei der Spracherkennung.

Welche Herausforderungen es in der Spracherkennung aktuell gibt und wie das Wachstumspotential aussieht, erfahren Sie in diesem Artikel.

Herausforderungen der Spracherkennung

Die gegenwärtigen Herausforderungen der Spracherkennung ergeben sich vor allem in ihrer Reichweite und in lauten Umgebungen. Es heißt also noch genauere Systeme zu entwickeln, die für ambitioniertere Anwendungsfelder der ASR dienlich sein können. Live-Interviews, Spracherkennung während eines Familienessens oder auch in Meetings sind Beispiele für solch herausfordernde Rahmenbedingungen.

Zusätzlich geht es auch darum, die Spracherkennung für weitere Sprachen und Themengebiete auszubauen. Denn die ASR bedarf enormer Datenmengen, die für manche Sprachen und Lebensbereiche erst noch generiert werden müssen. Ohne diese Anpassungen bleiben die Einsatzfelder weiterhin eingeschränkt.

Der Einsatzbereich für Sprachassistenten und Voice-Powered User Interfaces (VUI) ist relativ klar, nämlich Menschen zu erlauben mit Maschinen zu reden, die daraufhin Aktionen ausführen. Allerdings sind Unternehmen und Nutzer immer noch dabei die besten Wege der Interaktion herauszufinden. Dabei ergeben sich natürlich immer wieder Herausforderungen für die Spracherkennung.

Ungenauigkeit und Fehlinterpretation

Spracherkennungssoftware schafft es nicht immer die gesprochenen Worte korrekt auf dem Bildschirm wiederzugeben. Weiterhin verstehen Computer im Vergleich zu Menschen häufig nicht den Kontext der gesprochenen Worte. Das führt zu Fehlern und falschen Interpretationen der Absichten des Sprechenden. Wenn wir nämlich mit anderen Menschen sprechen, dann können diese direkt dekodieren was gesagt wird und das Gesagte in Verbindung mit vorangegangenen Erfahrungen setzen.

VUIs können das auch aber nur bis zu einem bestimmten Grad. Genau zu verstehen und vor allem einzuordnen was ein bestimmtes Wort bedeutet, stellt die gegenwärtige Spracherkennung noch vor Probleme.

Zeitaufwand und tatsächliche Produktivität

Wir gehen davon aus, dass eine Computerisierung eines Prozesses zu schnelleren Abläufen führt. Das ist jedoch nicht unbedingt der Fall, wenn es um Spracherkennungssysteme geht. Es kommt oft vor, dass die Nutzung von Sprachanwendungen noch länger dauert als ihre traditionellen textbasierten Alternativen. Das liegt vor allem daran, dass die Sprachsysteme sich an die unterschiedlichen Sprachmuster von Menschen anpassen lernen müssen. So muss man in der Interaktion mit VUIs häufig immer noch die Sprechgeschwindigkeit anpassen und äußerst genau auf die Aussprache achten.

Akzente und lokale Sprachunterschiede

Spracherkennungssysteme stehen häufig vor Problemen, wenn die Sprachinputs abweichen. Vor allem Akzente stellen immer noch ein Verständnisproblem dar. Zwar werden die Programme auch hier mit der Zeit besser, aber trotzdem sind noch große Unterschiede zu bemerken wie z.B. amerikanisches oder schottisches Englisch verstanden wird. Selbst Erkältungen können dazu führen, dass die Spracheingaben um einiges schlechter verstanden werden.

Hintergrundgeräusche und laute Umgebungen

Um das Beste aus VUIs herauszuholen ist es von Vorteil sich in einer ruhigen Umgebung zu befinden. Wenn es Hintergrundgeräusche gibt, dann funktionieren sie nicht immer perfekt. Das ist vor allem im städtischen Alltag oder auch in größeren Büros problematisch. Hilfreich sind hier gesonderte Eingabegeräte, z.B. Mikrofone oder Headsets.

Privatsphäre und Datenschutz

Damit ein Sprachassistent lernen kann, braucht er Daten. Diese können in Studien zusammengetragen werden, sind dann aber natürlich recht eingeschränkt. Im Vergleich dazu ist die Datenflut durch alltägliche Interaktionen mit den Spracherkennungssystemen um einiges weitreichender. Das Problem dabei ist, dass Nutzer gerne die Kontrolle über ihre Umwelt behalten wollen. Es ist nicht unbedingt eine schöne Vorstellung, dass alle getätigten Aussagen einem globalen Datensatz hinzugefügt werden können. Vor allem wenn dieser von privaten, gewinnorientierten Unternehmen betreut wird. Zu leicht ergeben sich hier Interessenkonflikte. Eine der großen Herausforderungen besteht also darin, Lerninput für die künstliche Intelligenz zugänglich zu machen dabei aber die Sicherheits- und Privatsphärebedürfnisse der Nutzer nicht außer Acht zu lassen.

Wir befinden uns in einer Zeit, in der die Sprachsteuerung von Geräten und Computern immer mehr zur Normalität wird. Die Spracherkennung entwickelt sich unglaublich schnell, ist allerdings im Vergleich zur Entwicklung des menschlichen Verständnisses von Sprache noch sehr jung. Deswegen heißt es vorerst noch Geduld aufzubringen.

Man wächst mit seinen Herausforderungen und das Gleiche gilt auch für Spracherkennungssysteme. Durch den ständigen Input werden diese für immer differenziertere Bereiche geschult und entwickeln so ein tiefes Verständnis von menschlicher Sprache.

Dieser Prozess kann mit der passenden Software und Entwicklung beschleunigt und zielsuchend ausgebaut werden. Zu diesem Zweck bietet Onlim spannende Lösungen an, mit denen Sie direkt in den Bereich Sprachassistenten, Chatbots und KI einsteigen können. Klicken Sie hier, um weitere Informationen zu unseren Angeboten für Ihr Unternehmen und vor allem Ihre Kunden zu erhalten.

E-Book: Conversational AI im HR-Management

Das erwartet Sie im E-Book: Im E-Book “Conversational AI im HR-Management” erfahren Sie, welche Chancen Conversational AI der Personalabteilung für interne sowie externe Anwendungsfälle bietet und erhalten wichtige Tipps zur Implementierung.

E-Book herunterladen

Weiter

Mehr Beiträge

Aktuelle Herausforderungen der Spracherkennung

Herausforderungen der Spracherkennung

Ungenauigkeit und Fehlinterpretation

Zeitaufwand und tatsächliche Produktivität

Akzente und lokale Sprachunterschiede

Hintergrundgeräusche und laute Umgebungen

Privatsphäre und Datenschutz

E-Book: Conversational AI im HR-Management

Was sind Large Language Models (LLMs)?

Was sind Chatbots und wie funktionieren sie?

Künstliche Intelligenz ermöglicht das Management von Verfahrenswissen in der Industrie

Kontakt

Sprache:

Unternehmen

Ressourcen

Partner

Aus unserem Blog