1. Digital

München/Duisburg: Spracherkennungssoftware ergänzt die Tastatur

München/Duisburg : Spracherkennungssoftware ergänzt die Tastatur

Was vor 20 Jahren wie Science Fiction klang, ist heute Realität: Rechner hören aufs Wort, Tastatur und Maus sind nicht mehr unbedingt notwendig.

Das US-Unternehmen Nuance hat mit „Dragon NaturallySpeaking 10” jetzt die neueste Version seiner PC-Spracherkennungssoftware vorgestellt. Kurz zuvor hatte Konkurrent Linguatec bereits einen Nachfolger von „Voice Pro 11” für den Herbst angekündigt. Damit wird dann die jüngste Generation der beiden wichtigsten Programme zur Spracherkennung die Verkaufsregale erreicht haben. Was dürfen Kunden erwarten? Und für wen ist der Einsatz einer solchen Software überhaupt sinnvoll?

Laut Linguatec aus München wurde während der zwei Jahre langen Entwicklungsarbeit des neuen „Voice Pro” besonderes Augenmerk auf den Einsatz unter Windows Vista, eine verbesserte Erkennungsgenauigkeit und intuitive Bedienung gelegt. Ähnliche Schwerpunkte hat Nuance gesetzt. Neu bei „Dragon NaturallySpeaking 10” sollen sein: eine höhere Erkennungsgenauigkeit in weniger Zeit, intuitive Sprachbefehle und dadurch eine bessere Steuerung des gesamten PCs.

Neben den Mircosoft-Programmen Outlook, Internet Explorer und den Anwendungen des Office-Pakets unterstützt Dragon jetzt auch die Open-Source-Produkte Firefox und Thunderbird - OpenOffice dagegen nicht. „Es ist uns gelungen, dass diese Version 20 Prozent weniger Fehler macht als der Vorgänger”, sagt Nuance-Produktmanager Martin Held. Ohne Training fange der Nutzer jetzt bei rund 80 Prozent Erkennungsgenauigkeit an. Das Optimum von 99 Prozent sei hingegen nur durch Trainieren der Software zu erreichen.

Dabei muss der Anwender von der Software vorgegebene Texte laut vorlesen. „Aus diesen akustischen Signalen ermittelt das System dann die für den jeweiligen Nutzer typischen Merkmale: Wie spricht er? Macht er viele oder wenige Pausen?”, erklärt Wolfgang Hoeppner, Professor für Computerlinguistik an der Universität Duisburg-Essen. Die Herausforderung für den Rechner besteht darin, die in der Regel ohne Pause gesprochenen, ineinander übergehenden Wörter zu digitalisieren, sie nach Silben zu trennen und dann mit vorhandenen Mustern in der Datenbank der Software zu vergleichen.

Anders als vor Jahren sollen auch gleichlautende Wörter mit völlig unterschiedlicher Bedeutung moderne Programme nicht mehr aus dem Takt bringen. Dafür gibt es umfangreiche Textdatenbanken. Mit deren Hilfe kann der Rechner Wörter wie „mehr” und „Meer” anhand des Textzusammenhangs - genauer gesagt, anhand der Wahrscheinlichkeit, mit der die beiden Wörter zusammen mit anderen, bereits genannten Wörtern vorkommen - unterscheiden. Generell gilt: „Je stärker eingeschränkt der Wortschatz, desto besser ist die Spracherkennung”, sagt Wolfgang Hoeppner.

Daher habe sich die Technik bereits in Branchen durchgesetzt, in denen der Dokumentationsaufwand sehr hoch ist und der Wortschatz überschaubar: in der Medizin, im Rechtswesen oder bei Behörden etwa. Sowohl Nuance als auch Linguatec bieten für diese Nutzerkreise Versionen ihrer Software an, die den komplizierten Fachwortschatz ab Werk intus haben. Schriftsteller, Journalisten und im Prinzip jeder, der sich außerhalb eines eingeschränkten Wortschatzes bewegt, muss sich nach Hoeppners Ansicht dagegen mit einer geringeren Erkennungsgenauigkeit zufriedengeben.

Diktieren statt tippen, das ist vor allem für Nutzer interessant, die viel schreiben müssen, deren Finger aber längst nicht so schnell und zielsicher über die Tasten fliegen wie die einer Sekretärin. Nuance verspricht Schreibgeschwindigkeiten von bis zu 160 Wörtern pro Minute. So schnell sprechen Menschen einer Studie des Unternehmens zufolge. Die meisten Computernutzer würden ihr Arbeitspensum damit deutlich erhöhen: Ein Durchschnittsanwender hacke rund 35 Wörter pro Minute in die Tastatur - mit einer Genauigkeit von bloß 58 Prozent.

Die Version für Heimanwender von „Dragon NaturallySpeaking” kostet ab 99 Euro. Die Profi-Variante mit zusätzlichen Eigenschaften wie dem automatischen „Abtippen” von mit einem Diktiergerät aufgenommenen Audiodateien schlägt mit 199 Euro zu Buche. Ärzte und Anwälte müssen 999 Euro investieren. Bei Linguatec kamen Letztere bisher günstiger weg: Die noch aktuellen Mediziner- und Juristen-Ausgaben von „Voice Pro” sind für 399 Euro zu haben. Alle anderen Nutzer zahlen für eine Vollversion 199 Euro.

Zu Elektroschrott sollten Tastatur und Maus dennoch nicht werden. Denn die Hände in den Schoß zu legen und den Computer nur noch mit Sprachbefehlen steuern zu wollen, sei nicht sinnvoll, wie Nuance-Manager Martin Held einräumt: Wer effizient am Rechner arbeiten möchte, nutzt besser alle „Schnittstellen” die ihm zur Verfügung stehen: beide Hände und - sozusagen als dritte Hand - die Stimme.

Leistungsstarker PC nötig

Da Spracherkennungsprogramme parallel zur eigentlichen Anwendung - Textverarbeitung, E-Mail-Software oder Internetbrowser - laufen, ist ein leistungsstarker PC die Voraussetzung für verzögerungsfreies Arbeiten: Nuance empfiehlt mindestens ein Gigabyte (GB) Arbeitsspeicher (RAM) und einen Prozessor mit 2,4 Gigahertz (GHz) Taktfrequenz (alternativ: Dual-Core-Prozessor mit mindestens 1,7 GHz). Die noch aktuelle Version von „Voice Pro” verlangt mindestens 1,5 GHz und 512 MB RAM.