Gehörlose oder schwerhörige Menschen könnten in Zukunft mit viel weniger Barrieren am Leben teilnehmen. Die gesprochene Sprache jederzeit in schnell erstellter Schriftform geliefert zu bekommen ist wohl eine Vorstellung, die jedem hörgeschädigten Menschen Freude bereitet. Am besten wäre ein Erkennungsprogramm, dass das Gesprochene direkt von den Lippen abliest und in Text darsellt. Dazu bräuchte es ein enorm großen Datensatz an erkennbaren Wörtern. Nun ist es Wissenschaftlern gelungen, ein Programm zu entwickeln, das eine Wende in der Spracherkennung zu bringen verspricht. Das ehemals britische Start-Up-Unternehmen DeepMind für Künstliche Intelligenz, das seit 2014 dem US-Konzern Google gehört, hat sich zur Verwirklichung eines solchen Projekts mit Forschern der Oxford University zusammengetan. Das Ergebnis ist das Software-System Watch, Attend and Spell (WAS). Das WAS-Programm ist ein lernendes System. Immer mehr Sätze und Vokabeln fügen sich dem Erkennungssystem und perfektionieren die bislang aus mehr als 118.000 Sätzen und 17.500 Wörtern bestehende Datenmasse. Das System nutzt zur Erweiterung seiner Erkennungsfähigkeit das maschinelle Sehen, auch Computer Vision genannt. Mit einer Datenmenge, bestehend aus 5000 Stunden Fernsehmaterial, das aus sechs verschiedenen Programmen gesammelt wurde, speisten die Forscher das von den Lippen ablesende Programm ein. In der ersten Etappe konnte sich das Programm bereits gegen einen Menschen behaupten. Beim Vergleich, in dem die WAS-Software stille Videos lesen musste, bestand es den Test mit 50% erkannten Wörtern aus dem Datensatz gegenüber dem Menschen mit lediglich 12% erkannten Wörtern. Dabei hielten sich die Fehler der Software sehr gering. Es handelte sich dabei um das Fehlen eines „s“ am Ende mancher Wörter oder einzelne Rechtschreibfehler. Die Technologie könnte in Zukunft vielseitig Einsatz finden. Das Forschungsteam Action on Hearing Loss Technology Research begrüße die Entwicklung neuer Technologien, die Menschen mit Schwerhörigkeit oder Hörverlust  Zugang zum Fernsehen in Echtzeit-Untertitelung schaffen, so der Manager Jesal Vishnuram. Auch in anderen Bereichen, wie zum Beispiel dem Diktieren an ein Telefon in lärmender Umgebung, sei die Software in der Lage, Lippenbewegungen in einen erfassbaren Text zu übertragen.

Please follow and like us:
0
20
Pin Share20

Comments

comments