Spracherkennung: Apple will iPhone-Besitzer endlich verstehen (Spiegel Online, 19.5.2011)

Spracherkennung

Apple will iPhone-Besitzer endlich verstehen

Noch gehorcht das iPhone nicht aufs Wort: Sagt man Ole, will es Paul anrufen, Google bietet Sprachsuche, Apple nicht. Das könnte sich ändern – der iPhone-Konzern meldet Sprach-Patente an, sucht Spezialisten und verhandelt angeblich mit der mächtigen Spracherkennungsfirma Nuance.

Spiegel Online, 19.5.2011

{jumi [*3]}

Apples Ingenieure haben große Pläne für Spracherkennung bei Smartphones. Wie wäre es zum Beispiel, wenn man in Sitzungen Anrufe beantworten kann, ohne durch lautes Rumquatschen unangenehm aufzufallen? Apples Lösung, laut einem vor wenigen Tagen veröffentlichen Patentantrag aus dem Jahr 2009: Spracherkennungssoftware überträgt alles, was der Anrufer erzählt in Text, der Angerufene in der Sitzung liest auf seinem Smartphone die Nachricht und tippt eine Antwort ein. Und die Sprachsoftware liest dem Anrufer die Textnachrichten vor.

Funktioniert das System erst, werden noch ganz andere Technikträume möglich: Künftig könnten sich ein Amerikaner und ein Chinese ganz ohne Fremdsprachenkenntnisse am Telefon unterhalten, ein Computer übersetzt das Gesprochene erst in Text, den es in die jeweils andere Sprache überführen und wieder vorlesen kann. Doch dazu muss zunächst die Erkennung einer Sprache zuverlässig klappen.

Genau daran arbeitet Apple: Anders als bei vielen Patenten gibt es Anzeichen dafür, dass an einer konkreten Umsetzung der Spracherkennungsideen gearbeitet wird. Das Unternehmen hat in den vergangenen Monaten mehrere entsprechende Stellen ausgeschrieben. Die Jobbeschreibungen beginnen alle mit der Frage „Wollen Sie ein Produkt mitgestalten, das das Smartphone neu definiert?“ Das US-FachblogTechCrunch berichtet, dass Apple seit Monaten mit dem Spracherkennungsanbieter Nuance über eine Kooperation verhandelt. Das börsennotierte Unternehmen Nuance (Marktwert mehr als 6,8 Milliarden Dollar, arbeitet mit IBM zusammen) vertreibt die unter der Marke Dragon bekannten Diktierprogramme für Anwälte, Ärzte und Privatanwender und besitzt viele Patente für Spracherkennungstechnologien.

Apple sucht Entwickler für Spracherkennung

Eine Apple-Stellenanzeigen für einen „iOS Speech Operations Engineer“ führt als erwünschte Qualifikation Erfahrungen mit dem „Nuance Recognizer“ oder ähnlicher Software wie „Google Voice“ auf. Ein Anzeichen für eine mögliche Kooperation beider Unternehmen hat der kanadische Software-Entwickler Bernard Maltais in einer Vorabversion des nächsten Apple-Betriebssystems Lion entdeckt: Das System bietet den Nutzern mehrere Stimmen zur Auswahl für die Sprachausgabe von Text an – die unterschiedlichen Stimmen haben dieselben Bezeichnungen wie die in einem älteren Nuance-Produkt.

Wie gut die Nuance-Spracherkennung funktioniert, kann heute jeder ausprobieren: Das Unternehmen bietet zwei kostenlose Apps für iPhones an, die beide recht gut Deutsch verstehen. Dragon Dictation lässt sich Texte diktieren, die man dann sofort aus der Anwendung per SMS und E-Mail versenden, in die Zwischenablage kopieren, twittern oder bei Facebook veröffentlichen kann. Die Anwendung Dragon Search durchsucht Google, YouTube und Twitter nach einem gesprochenen Suchbegriff.

Für die Android-Smartphones bietet Nuance eine Anwendung namens FlexT9 mit derselben Spracherkennungstechnik und einigen anderen Extras – die kostet allerdings 3,60 Euro. Dafür bietet FlexT9 in allen Android-Eingabefenstern alternative Bedienmöglichkeiten.

Nuance bietet Gratis-Spracherkennung für iPhones

Der Versuch mit der iPhone-App zeigt: Kurze Sätze versteht Dragon Dictation problemlos. Auch bei Hintergrundgeräuschen gibt Dragon auf Anhieb als Text wieder, was man gesagt hat: „Mach mir ein Sandwich“, „Fußgängerzone in Bochum“ – all das versteht Dragon Dictation. Bei Eigennamen muss man der Software helfen: Das Programm bittet darum, die Namen aus dem iPhone-Adressbuch auf den Nuance-Server laden zu dürfen (allein die Namen, die in Zusammenhang mit der eindeutigen Gerätenummer des iPhones gespeichert werden). Tut man das nicht, verschriftlicht die Spracherkennung den Namen Ole Reißmann abwechselnd als „Ohne Reiß man“, „ohne reißt man“ oder „Ole Reis“. Ein wichtiger Hinweis: Dragon überträgt die Sprachkommandos an Nuance-Server, dort läuft die eigentliche Spracherkennung ab. Sprich: Die Sprachsteuerung braucht Bandbreite, außerdem reisen die Sprachkommandos durch das Netz.

Bei kurzen Texten wie Suchanfragen oder Tweets ist die Dragon-Spracherkennung erstaunlich hilfreich. Längere Stücke mit komplizierteren Satzkonstruktionen hat das Programm in unserem Test allerdings nur mit vielen Fehlern verschriftlicht. Aus dem Handy-Kalender wird ein Minikalender, aus dem Nutzer die Mutter. Obwohl die Software Befehle wie Komma, Gedankenstrich und Doppelpunkt zuverlässig in Satzzeichen verwandelt, scheint die kostenlose Handy-Version von Dragon Dictation ein Problem mit dem Zerlegen komplexer Sätze zu haben.

iPhone verwechselt Ole und Paul

Diese Macken stören beim Diktieren kurzer Nachrichten aber kaum – für SMS, Tweets und derlei ist das kostenlose Dragon-Werkzeug ein ideales Hilfsmittel. Hat man dem Programm mit Hilfe des Adressbuchs einmal die Namen einiger Kontakte beigebracht, verschriftlicht es zuverlässig den größten Teil – an einigen Namen scheitert das Programm aber, Reißmann zum Beispiel. Allerdings ist Dragon Dictation Apples iPhone-Sprachsteuerung überlegen. Sagt man dem iPhone, es solle Ole anrufen, wählt es den Kontakt Paul Bogaards.

Bei solchen Verständnisproblemen könnte Apple die Technik von Nuance helfen. Die Ambitionen Apple dürften aber etwas größer sein. Vor gut einem Jahr hat der Konzern das Unternehmen Siri gekauft. Einziges Produkt der Firma: eine iPhone-Anwendung, der man (auf Englisch) einfach sagen kann, was man sucht. Zum Beispiel: Welches chinesische Restaurant in der Nähe hat heute Abend freie Tische? Was steht heute Abend im Madison Square Garden auf dem Programm und gibt es noch Eintrittskarten?

Apple kauft den digitalen Assistenten Siri

Siri übersetzt nicht nur Sprache in Text, sondern kann auch die Bedeutung einzelner Begriffe innerhalb bestimmter Kategorien erfassen. Das Programm verknüpft Adresseinträge, Positionsdaten und verschiedene Datenbanken, so dass es auf Fragen die richtigen Antworten geben kann. US-Rezensenten sind begeistert von dem Angebot – in Deutschland lässt sich das Programm nicht ausprobieren, da Siri hierzulande nicht auf passende Datenbanken zurückgreift.

Bislang hat Apple Siri nicht weiter in seine Produkte integriert. Aber vielleicht kommt das mit der nächsten Version des iPhone-Betriebssystems, die möglicherweise Anfang Juni bei der Entwicklerkonferenz WWDC vorgestellt wird. Soll das iPhone wirklich zu einem persönlichen Assistenten werden, ist Apple auf die Nuance-Technologie angewiesen. Siri nutzt wie viele andere App-Entwickler auch die Nuance-Spracherkennung – für das offizielle Entwicklerprogramm haben sich in den ersten drei Monaten bis Mitte Mai 2500 Entwickler registriert.

Googles Spacherkennungschef hat Nuance gegründet

Nuance hat denselben Ursprung wie Siri: Beide Firmen sind aus Projekten des Forschungszentrums SRI International entstanden. Nuance ging schon 2000 an die Börse, die Firma besitzt viele Patente für Detaillösungen zur Spracherkennung und verklagt immer wieder Konkurrenten, die diese womöglich verletzen.

Google dürfte das einzige Unternehmen sein, das Spracherkennung in Produkten für Endanwender anbietet, die sich mit der von Nuance messen kann. Google Voice transkribiert zum Beispiel Aufnahmen auf der Mailbox, YouTube untertitelt Videoclips automatisch und Googles Sprachsuche erkennt recht treffsicher Kommandos – das kann jeder mit einem Android-Smartphone oder der kostenlosen Google-App fürs iPhone ausprobieren.

Das ist Mike Cohen zu verdanken. Der Mitgründer von Nuance leitet seit 2004 Googles Spracherkennungsteam. In einem Interview formulierte er 2010 dieses langfristige Ziel für seine Arbeit: „Wir wollen Spracherkennung allgegenwärtig machen. Wenn es einfacher ist, etwas zu sagen als es zu tippen, dann sollte das möglich sein. Wenn Menschen Sprache durchsuchen oder übersetzen wollen, sollte das funktionieren.“

Wenn es wirklich so kommt, muss man sich auf ganz neue verstörende Erlebnisse im öffentlichen Nahverkehr einstellen. Man hört nicht nur halbe Handy-Gespräche über die letzte Nacht mit, sondern auch, wenn jemand eine Anleitung zur geräuschlosen Zerteilung von Schweinehälften recherchiert.