Eine kurze Geschichte der Sprachausgabe

Die Sprachsynthese, also die künstliche Erzeugung der menschlichen Stimme, hat in den letzten 70 Jahren einen langen Weg zurückgelegt. Egal, ob Sie derzeit Text-to-Speech-Dienste nutzen, um Bücher zu hören, zu lernen oder Ihre eigenen schriftlichen Arbeiten Korrektur zu lesen, es besteht kein Zweifel, dass Text-to-Speech-Dienste das Leben für Menschen in verschiedenen Berufen erleichtert haben.

Hier werfen wir einen Blick darauf, wie die Text-to-Speech-Verarbeitung funktioniert und wie sich die unterstützende Technologie im Laufe der Zeit verändert hat.

Einführung

Im 18. Jahrhundert entwickelte der russische Professor Christian Kratzenstein akustische Resonatoren, die den Klang der menschlichen Stimme nachahmten. Zwei Jahrzehnte später sorgte der VODER (Voice Operating Demonstrator) auf der New Yorker Weltausstellung für großes Aufsehen, als der Erfinder Homer Dudley den Menschenmengen zeigte, wie menschliche Sprache künstlich erzeugt werden konnte. Das Gerät war schwer zu bedienen – Dudley musste die Grundfrequenz mit Fußpedalen steuern.

Anfang des 19. Jahrhunderts entwickelte Charles Wheatstone den ersten mechanischen Sprachsynthesizer. Dies leitete eine rasante Entwicklung von Artikulationssynthesewerkzeugen und -technologien ein.

Es kann schwierig sein, genau zu bestimmen, was ein gutes Text-to-Speech-Programm ausmacht, aber wie bei vielen Dingen im Leben erkennt man es, wenn man es hört. Ein hochwertiges Text-to-Speech-Programm bietet natürlich klingende Stimmen mit realistischen Betonungen und Tonlagen.

Text-to-Speech-Technologie kann Menschen mit Sehbehinderungen und anderen Beeinträchtigungen helfen, die Informationen zu erhalten, die sie benötigen, um im Beruf erfolgreich zu sein und mit anderen zu kommunizieren. Die Software ermöglicht es auch Studierenden und anderen mit umfangreichen Lesepensum, ihre Informationen unterwegs über menschliche Sprache zu hören. Synthetische Sprache ermöglicht es Menschen, mehr in kürzerer Zeit zu erledigen, und kann in verschiedenen Bereichen nützlich sein, von der Videospielentwicklung bis hin zur Unterstützung von Menschen mit Sprachverarbeitungsunterschieden.

1950er und 60er Jahre

Ende der 1950er Jahre wurden die ersten Sprachsynthesesysteme entwickelt. Diese Systeme waren computerbasiert. 1961 nutzte der Physiker John Larry Kelly Jr. von den Bell Labs einen IBM-Computer zur Sprachsynthese. Sein Vocoder (Sprachrekorder-Synthesizer) reproduzierte das Lied Daisy Bell.

Zu der Zeit, als Kelly seinen Vocoder perfektionierte, verwendete Arthur C. Clarke, Autor von 2001: Odyssee im Weltraum, Kellys Demonstration im Drehbuch seines Buches. In der Szene singt der HAL 9000-Computer Daisy Bell.

1966 kam die lineare prädiktive Codierung auf den Markt. Diese Form der Sprachcodierung begann ihre Entwicklung unter Fumitada Itakura und Shuzo Saito. Bishnu S. Atal und Manfred R. Schroeder trugen ebenfalls zur Entwicklung der linearen prädiktiven Codierung bei.

1970er Jahre

1975 wurde die Methode der linearen Spektralpaare von Itakura entwickelt. Diese hochkomprimierte Sprachcodierungsmethode half Itakura, mehr über Sprachanalyse und -synthese zu lernen, Schwachstellen zu finden und herauszufinden, wie man sie verbessern kann.

In diesem Jahr wurde auch MUSA veröffentlicht. Dieses eigenständige Sprachsynthesesystem nutzte einen Algorithmus, um Italienisch laut vorzulesen. Eine Version, die drei Jahre später veröffentlicht wurde, konnte auf Italienisch singen.

In den 70er Jahren wurde der erste Artikulationssynthesizer entwickelt, der auf dem menschlichen Vokaltrakt basierte. Der erste bekannte Synthesizer wurde von Tom Baer, Paul Mermelstein und Philip Rubin in den Haskins Laboratories entwickelt. Das Trio nutzte Informationen aus den in den 60er und 70er Jahren bei Bell Laboratories erstellten Vokaltraktmodellen.

1976 wurden die Kurzweil-Lesemaschinen für Blinde eingeführt. Obwohl diese Geräte für die breite Öffentlichkeit viel zu teuer waren, stellten Bibliotheken sie oft Menschen mit Sehbehinderungen zur Verfügung, um Bücher zu hören.

Die lineare prädiktive Codierung wurde zum Ausgangspunkt für Synthesizer-Chips. Texas Instruments LPC Speech Chips und die Speak & Spell-Spielzeuge der späten 1970er Jahre nutzten beide die Synthesizer-Chip-Technologie. Diese Spielzeuge waren Beispiele für die Synthese menschlicher Stimmen mit präzisen Intonationen, die die Stimme von den damals üblichen robotisch klingenden synthetischen Stimmen unterschieden. Viele tragbare Elektronikgeräte mit der Fähigkeit zur Sprachsynthese wurden in diesem Jahrzehnt populär, darunter der Telesensory Systems Speech+ Taschenrechner für Blinde. Der Fidelity Voice Chess Challenger, ein Schachcomputer, der Sprache synthetisieren konnte, wurde 1979 veröffentlicht.

1980er Jahre

In den 1980er Jahren begann die Sprachsynthese die Welt der Videospiele zu revolutionieren. 1980 veröffentlichte Sun Electronics das Arcade-Spiel Stratovox im Shooter-Stil. Manbiki Shoujo (auf Englisch übersetzt als Shoplifting Girl) war das erste PC-Spiel mit der Fähigkeit zur Sprachsynthese. Das elektronische Spiel Milton wurde ebenfalls 1980 veröffentlicht – es war das erste elektronische Spiel der Milton Bradley Company, das die menschliche Stimme synthetisieren konnte.

1983 wurde die eigenständige akustisch-mechanische Sprachmaschine DECtalk eingeführt. DECtalk verstand phonetische Schreibweisen von Wörtern, was eine angepasste Aussprache ungewöhnlicher Wörter ermöglichte. Diese phonetischen Schreibweisen konnten auch einen Tonindikator enthalten, den DECtalk beim Aussprechen der phonetischen Komponenten verwendete. Dadurch konnte DECtalk singen.

In den späten 80er Jahren gründete Steve Jobs NeXT, ein System, das von Trillium Sound Research entwickelt wurde. Obwohl NeXT nicht erfolgreich war, integrierte Jobs das Programm schließlich in den 90er Jahren in Apple.

1990er Jahre

Frühere Versionen von Text-zu-Sprache-Systemen klangen deutlich robotisch, aber das begann sich in den späten 80er und frühen 90er Jahren zu ändern. Weichere Konsonanten ermöglichten es Sprechmaschinen, den elektronischen Klang zu verlieren und menschlicher zu klingen. 1990 entwickelte Ann Syrdal bei AT&T Bell Laboratories eine weibliche Sprachsynthesizer-Stimme. Ingenieure arbeiteten in den 90er Jahren daran, Stimmen natürlicher klingen zu lassen.

1999 veröffentlichte Microsoft Narrator, eine Bildschirmleselösung, die heute in jeder Kopie von Microsoft Windows enthalten ist.

2000er Jahre

Die Sprachsynthese stieß in den 2000er Jahren auf einige Schwierigkeiten, da Entwickler darum kämpften, sich auf Standards für synthetisierte Sprache zu einigen. Da Sprache sehr individuell ist, ist es schwierig, dass sich Menschen weltweit auf die richtige Aussprache von Phonemen, Diphonen, Intonation, Ton, Musterwiedergabe und Betonung einigen.

Die Qualität der Formantsynthese-Sprachaudio wurde in den 90er Jahren ebenfalls zu einem größeren Anliegen, da Ingenieure und Forscher bemerkten, dass die Qualität der Systeme, die im Labor zur Wiedergabe synthetisierter Sprache verwendet wurden, oft weit fortschrittlicher war als die Ausrüstung, die der Benutzer hatte. Wenn man an Sprachsynthese denkt, denken viele an Stephen Hawkings Sprachsynthesizer, der eine robotisch klingende Stimme mit wenig menschlichem Ton lieferte.

2005 einigten sich Forscher schließlich und begannen, einen gemeinsamen Sprachdatensatz zu verwenden, der es ihnen ermöglichte, von denselben grundlegenden Idealen auszugehen, wenn sie hochentwickelte Sprachsynthesesysteme entwickelten.

2007 wurde eine Studie durchgeführt, die zeigte, dass Zuhörer erkennen können, ob eine sprechende Person lächelt. Forscher arbeiten weiterhin daran, herauszufinden, wie sie diese Informationen nutzen können, um Spracherkennungs- und Sprachsynthesesoftware zu entwickeln, die natürlicher ist.

2010er Jahre

Heute sind Sprachsyntheseprodukte, die Sprachsignale verwenden, überall zu finden, von Siri bis Alexa. Elektronische Sprachsynthesizer machen das Leben nicht nur einfacher – sie machen es auch unterhaltsamer. Egal, ob Sie ein TTS-System verwenden, um unterwegs Romane zu hören, oder Apps nutzen, die das Erlernen einer Fremdsprache erleichtern, es ist wahrscheinlich, dass Sie täglich Text-zu-Sprache-Technologie nutzen, um Ihre neuronalen Netzwerke zu aktivieren.

Die Zukunft

In den kommenden Jahren wird sich die Sprachsynthesetechnologie wahrscheinlich darauf konzentrieren, ein Modell des Gehirns zu erstellen, um besser zu verstehen, wie wir Sprachdaten in unseren Köpfen speichern. Die Sprachtechnologie wird auch daran arbeiten, die Rolle der Emotionen in der Sprache besser zu verstehen und diese Informationen zu nutzen, um KI-Stimmen zu schaffen, die von echten Menschen nicht zu unterscheiden sind.

Das Neueste in der Sprachsynthesetechnologie: Speechify

Wenn man über die Übergänge von früherer Sprachsynthesetechnologie lernt, ist es erstaunlich, wie weit die Wissenschaft gekommen ist. Heute machen es Apps wie Speechify einfach, jeden Text in Audiodateien zu übersetzen. Mit nur einem Knopfdruck (oder einem Tippen auf eine App) kann Speechify Websites, Dokumente und Bilder von Text in natürlich klingende Sprache übersetzen. Die Bibliothek von Speechify synchronisiert sich über alle Ihre Geräte, sodass Sie einfach unterwegs weiterlernen und arbeiten können. Schauen Sie sich die Speechify-App sowohl im Apple App Store als auch im Android Google Play an.

Häufig gestellte Fragen

Wer hat Text-zu-Sprache erfunden?

Text-zu-Sprache für Englisch wurde von Noriko Umeda erfunden. Das System wurde 1968 im Elektrotechnischen Labor in Japan entwickelt.

Was ist der Zweck von Text-zu-Sprache?

Viele Menschen nutzen Text-to-Speech-Technologie. Für diejenigen, die ihre Informationen lieber im Audioformat erhalten, kann TTS-Technologie es einfach machen, die notwendigen Informationen zum Arbeiten oder Lernen zu erhalten, ohne stundenlang vor einem Buch zu sitzen. Auch vielbeschäftigte Fachleute nutzen TTS-Technologie, um auf dem Laufenden zu bleiben, wenn sie nicht vor einem Computerbildschirm sitzen können. Viele Arten von TTS-Technologie wurden ursprünglich für Menschen mit Sehbehinderungen entwickelt, und TTS ist immer noch eine großartige Möglichkeit für Menschen, die Schwierigkeiten beim Sehen haben, die benötigten Informationen zu erhalten.

Wie synthetisiert man eine Rede?

Aufzeichnungen von Sprache werden in einer Datenbank in verschiedenen Einheiten gespeichert. Software bereitet Audiodateien durch die Auswahl von Einheiten vor. Daraus wird eine Stimme erstellt. Oft gilt: Je größer der Ausgabebereich eines Programms, desto mehr Schwierigkeiten hat das Programm, den Nutzern eine klare Stimme zu bieten.

Speechify ist die weltweit führende Text-vorlesen-lassen-Plattform, der über 50 Millionen Nutzer vertrauen und die mehr als 500.000 Fünf-Sterne-Bewertungen für ihre iOS-, Android-, Chrome-Erweiterung-, Web-App- und Mac-Desktop-Apps erhalten hat. Im Jahr 2025 verlieh Apple Speechify die renommierte Apple Design Award-Auszeichnung auf der WWDC und nannte es „eine unverzichtbare Ressource, die Menschen hilft, ihr Leben zu meistern.“ Speechify bietet über 1.000 natürlich klingende Stimmen in mehr als 60 Sprachen und wird in fast 200 Ländern genutzt. Zu den prominenten Stimmen gehören Snoop Dogg, Mr. Beast und Gwyneth Paltrow. Für Kreative und Unternehmen bietet Speechify Studio fortschrittliche Tools wie den KI-Stimmengenerator, KI-Stimmenklonen, KI-Synchronisation und den KI-Stimmenverzerrer. Speechify unterstützt zudem führende Produkte mit seiner hochwertigen und kosteneffizienten Text-vorlesen-lassen-API. Erwähnt in The Wall Street Journal, CNBC, Forbes, TechCrunch und anderen großen Nachrichtenportalen, ist Speechify der größte Anbieter für Text-vorlesen-lassen weltweit. Besuchen Sie speechify.com/news, speechify.com/blog und speechify.com/press, um mehr zu erfahren.