Hörbuch-Ersatz? Google und Amazon verbesseren Text-to-Speech-Funktionen
In Zeiten, wo verbale Kommunikation mit den eigenen elektronischen Geräten immer mehr zum Usus wird, arbeiten die Plattform-Betreiber fortwährend auch am "Rückkanal". Die typischen Roboterstimmen weichen zunehmend natürlicheren Sprachausgaben, in den letzten Tagen verbesserten Google und Apple die Qualität ihrer Text-to-Speech-Funktionen. Schon heute ein Ersatz für professionell eingelesene Hörbücher?
Gescheiterte Experimente im E-Reading-Kosmos
eBooks bestehen zu nahezu 100 Prozent aus simpel formatiertem Text, der maschinell eingelesen und vorgelesen werden kann – die perfekte Basis für Text-to-Speech-Funktionen. Dachten sich auch die Gerätehersteller: Schon der 2007 erschienene erste Kindle verfügte über Lautsprecher und einen 3,5mm Kopfhöreranschluss, die Anfang 2009 ausgerollte und später auch internationalisierte zweite Gerätegeneration hatte dann Text To Speech als eines der Key Features auf dem Datenblatt.
Allerdings die Computerstimme den Buchtext mehr schlecht als recht vor, und Verleger fürchteten eine Kannibalisierung ihrer Hörbücher-Verkäufe und übten massiven Druck auf Amazon auf. Infolge dessen rüstete der Online-Händler eine Funktion nach, mit der Verlage und Autoren Text To Speech für ihre Werke deaktivieren konnten, was dann auch auf breiter Basis passierte. Mit dem 2012 eingeführten ersten Kindle Paperwhite, der überhaupt keine Audio-Funktion mehr mitbrachte, wurde das Feature dann endgültig zu Grabe getragen. Statt dessen bündelt Amazon seit anderthalb Jahren Kindle Books mit vergünstigten Audible-Hörbüchern, bei Besitz beider Versionen kann in den Kindle-App jederzeit zwischen Lesen und Hören gewechselt werden.
Mit dem 2013 eingeführten Pocketbook Touch Lux erlebte Text-to-Speech dann noch einmal ein kurzes Revival in einem eBook Reader, auch hier machte die stakkatoartige Stimme das Zuhören allerdings nicht gerade zum Vergnügen (Demo aus unserem Testbericht). Die Zeit war wohl einfach noch nicht reif.
Siri, Cortana & Alexa verbessern auch Text-to-Speech
Das ändert sich allerdings gerade sukzessive. Apple Siri, Google Now, Microsoft Cortana, Amazon Alexa: Alle großen Plattform-Betreiber verfügen inzwischen über eigene digitale Assistenten, die Anweisungen per Sprache entgegennehmen und häufig auch per Sprachausgabe antworten. Diese Sprachausgabe möglichst natürlich klingen zu lassen ist ein großes Anliegen, der Unternehmen aus dem Silicon Valley, in das viel Geld investiert wird. Wie groß die Fortschritte selbst innerhalb eines Update sind, zeigt das folgende Video. Es demonstriert die Sprachausgabe vor beziehungsweise nach einem Update, das Google vergangene Woche für seine Sprachsuche einspielte.
Google bietet für seine Lese-App Google Play Books im hauseigenen Android-System als einziger der großen Plattform-Betreiber auch eine integrierte Text-to-Speech-Funktion an. die "eingebaute" Stimme ist eher mäßig, auf Wunsch kann man sich allerdings auch eine wirklich annehmbare Vorlesestimme streamen lassen. Wie es sich in alternativen Lese-Apps für Android erhält, hat das Fachblog The Digital Reader in einem Übersichtsartikel zusammen gestellt.
The Digital Reader berichtete außerdem als erster über ein neues Firmware Update für Ivona, die Vorlesefunktion der Amazon-Tablets und -Apps. Die Ivona-Stimme wird auch innerhalb der Kindle-App für Text-to-Speech genutzt, wie gesagt aber nur bei denjenigen eBooks, die dafür freigegeben sind.
Abstand zu "echten" Hörbüchern wird geringer
So weit entwickelt die Vorlesestimmen inzwischen sind: Einen wirklichen Ersatz für professionell eingelesene Hörbücher stellen sie noch nicht dar. Naturgemäß ist die Lücke umso größer, desto besser die Fähigkeiten des menschlichen Vorlesers sind. Autoren wie Marc-Uwe Kling und Benjamin von Stuckrad-Barre, die die wortgetreuen Vertonungen ihrer Bücher zu hörspielartigen Erlebnissen machen, wird auch perspektivisch keine Maschine das Wasser reichen können.
Gegenüber den berüchtigten monotonen Autoren-Lesungen müssen sich die inzwischen wirklich menschlich klingenden Computerstimmen allerdings immer weniger verstecken, wobei die englischsprachigen Ausgaben schon erkennbar natürlicher sind als die deutschen – der viel größere Markt hat hier naturgemäß Priorität. Das lässt sich etwa bei der Amazon-Tochter Ivona austesten, die beliebige Texteingaben in Dutzenden Sprachen und alternativen Stimmen vorliest (deutsch: "Marlene" und "Hans").
<Bildnachweis: Hörbücher von Shutterstock>
Kommentare
Immer besser: Text-to-Speech-Funktionen bei Google und Amazon | AUTHORS CHOICE 6. April 2016 um 17:39
[…] lesen.net und googlewatchblog.de […]