1. Startseite
  2. API
  3. Wie die Speechify Text-to-Speech API SSML unterstützt
Social Proof

Wie die Speechify Text-to-Speech API SSML unterstützt

Wir freuen uns, die Entwicklung einer Text-to-Speech-API vorzustellen, die Entwicklern weltweit die natürlichsten und beliebtesten KI-Stimmen von Speechify direkt zur Verfügung stellt.

Suchen Sie unseren Text-to-Speech-Reader?

Bekannt aus

forbes logocbs logotime magazine logonew york times logowall street logo
Diesen Artikel mit Speechify anhören!
Speechify

Entfesseln Sie das volle Potenzial der Speechify Text-to-Speech API mit SSML-Unterstützung.

Speechify Text to Speech (TTS) API steht an der Spitze der anpassbaren Sprachtechnologie und bietet umfassende Unterstützung für Speech Synthesis Markup Language (SSML). Diese fortschrittliche Funktionalität ermöglicht es Entwicklern, fein abgestimmte Sprachdarstellungen direkt durch Code zu erstellen, wodurch die Wiedergabe digitaler Texte mit präziser Intonation, Rhythmus und emotionaler Tiefe verbessert wird. In diesem Artikel untersuchen wir, wie die Speechify Text to Speech API SSML nutzt, um einfachen Text in reichhaltige, ausdrucksstarke gesprochene Ausgaben zu verwandeln, sodass Anwendungen in verschiedenen Sektoren natürlichere und ansprechendere Benutzererlebnisse bieten können.

Überblick über die Speechify Text-to-Speech API

Speechify Text to Speech API ist ein leistungsstarkes Werkzeug, das geschriebenen Text in lebensechte gesprochene Worte verwandelt. Durch den Einsatz fortschrittlicher neuronaler Netzwerke und maschineller Lerntechniken kann diese API Sprache erzeugen, die natürlich und ansprechend klingt. Sie unterstützt eine Vielzahl von Sprachen und Dialekten und bietet diverse Stimmoptionen von männlich bis weiblich, um eine breite Anziehungskraft bei verschiedenen Benutzergruppen zu gewährleisten. Diese Flexibilität macht die Speechify Text to Speech API zu einer ausgezeichneten Wahl für Entwickler, die Text-to-Speech-Funktionen in Apps, Websites oder interaktive Dienste integrieren möchten, um ein nahtloses und inklusives Benutzererlebnis zu gewährleisten.

Was ist SSML?

Speech Synthesis Markup Language (SSML) ist eine wesentliche XML-basierte Auszeichnungssprache, die Entwickler verwenden, um zu bestimmen, wie Text-to-Speech-Systeme geschriebenen Text in gesprochene Sprache umwandeln. SSML ermöglicht die Spezifikation verschiedener Aspekte der Sprache wie Tonhöhe, Geschwindigkeit, Lautstärke und Aussprache, was eine kontrolliertere und präzisere Ausgabe ermöglicht, die menschliche Intonation und Rhythmus nachahmen kann. Diese Technologie ist besonders vorteilhaft in Szenarien, in denen der Ton und die Nuance der Sprache entscheidend für die Effektivität der Kommunikation sind, wie z.B. in Bildungsinhalten, interaktiven Antworten oder Erzählungen.

Die Rolle von SSML bei der Verbesserung von Text-to-Speech

Die Integration von SSML verbessert die Text-to-Speech-Technologie, indem sie Werkzeuge bereitstellt, um die erzeugte Sprache auf nuancierte Weise zu manipulieren, die mit einfachen Text-to-Speech-Systemen zuvor nicht erreichbar waren. Diese Verbesserung unterstützt natürlichere Dialogabläufe und kann die Sprachausgabe an kontextspezifische Anforderungen anpassen, wie z.B. das Hinzufügen von Pausen für dramatische Effekte oder das Anpassen der Sprachgeschwindigkeit an die Verarbeitungsgeschwindigkeit des Zuhörers. Die Rolle von SSML in der Text-to-Speech-Technologie markiert einen bedeutenden Schritt zur Überbrückung der Kluft zwischen menschlicher und computergenerierter Sprache, wodurch digitale Interaktionen nachvollziehbarer und leichter verständlich werden.

Wie Speechify SSML unterstützt

Speechify Text to Speech API verpflichtet sich, ein überragendes Hörerlebnis zu bieten und unterstützt SSML, um den Text-zu-Sprache Umwandlungsprozess zu bereichern. Durch die Nutzung von SSML ermöglicht Speechify Entwicklern, die Audioausgabe besser an die spezifischen Bedürfnisse verschiedener Projekte anzupassen. Diese Unterstützung umfasst die Anpassung der Dynamik der Sprache, wie Intonation und Betonung, die entscheidend sind, um mehr Emotion und Absicht zu vermitteln. Speechify Text to Speech API’s SSML Fähigkeiten stellen sicher, dass die Endnutzer ein verfeinertes und zielgerichtetes Hörerlebnis erhalten, das die Benutzerfreundlichkeit und den Genuss der Anwendung erheblich steigern kann.

Vorteile der Verwendung von SSML in Speechify

Die Nutzung von SSML mit Speechify Text to Speech API bietet zahlreiche Vorteile, darunter: 

  • Anpassung: SSML passt die Sprachausgabe umfassend an den Kontext oder Zweck der Anwendung an und bietet ein personalisierteres Benutzererlebnis.
  • Erhöhte Benutzerbindung: SSML fesselt Benutzer mit dynamischen Sprachinteraktionen, die klar, verständlich und angenehm anzuhören sind.
  • Barrierefreiheit Verbesserungen: SSML mit Text-zu-Sprache macht Technologie zugänglicher und verbessert die Gesamtbenutzerfreundlichkeit für alle Nutzer, insbesondere für Menschen mit Behinderungen.
  • Erhöhte Effektivität: SSML verbessert die Effektivität der Kommunikation in Anwendungen, bei denen Sprachqualität und Klarheit entscheidend sind.

Die Grundlagen von Speechify Text to Speech API’s SSML 

Speechify Text to Speech API integriert das leistungsstarke Werkzeug der Speech Synthesis Markup Language, um die Sprachausgabe zu verbessern und zu steuern, sodass digitale Interaktionen lebendiger und ansprechender klingen. Durch das Beherrschen dieser SSML Techniken können Sie die Ausdruckskraft und Effektivität Ihrer Text-zu-Sprache Anwendungen erheblich steigern. Ob für Barrierefreiheit, Unterhaltung oder Bildung, SSML bietet die Werkzeuge, um digitale Interaktionen menschlicher und ansprechender klingen zu lassen. Hier sind die Grundlagen:

Entkommene Zeichen in SSML

Um sicherzustellen, dass SSML Code von Parsern korrekt interpretiert wird, müssen bestimmte Zeichen im Text entkommen werden. Dies verhindert, dass sie fälschlicherweise als Markup-Syntax erkannt werden. Nachfolgend sind häufige Zeichen und ihre entkommenen Entsprechungen aufgeführt:

  • Ampersand (&) wird zu &
  • Größer-als-Zeichen (>) wird zu >
  • Kleiner-als-Zeichen (<) wird zu &lt;
  • Doppeltes Anführungszeichen (") wird zu &quot;
  • Apostroph (') wird zu &apos;

Beispiel: Umwandlung einer Zeile mit Sonderzeichen:

const escapeSSMLChars = (text: string) =>

  text

    .replaceAll('&', '&amp;')

    .replaceAll('<', '&lt;')

    .replaceAll('>', '&gt;')

    .replaceAll('"', '&quot;')

    .replaceAll('\'', '&apos;')

Zum Beispiel, die Umwandlung des Textes: Some "text" with 5 < 6 & 4 > 8 in it ergibt: <speak>Some &quot;text&quot; with 5 &lt; 6 &amp; 4 &gt; 8 in it</speak>

Sprach-Expressivität

SSML ermöglicht die Anpassung von Tonhöhe, Geschwindigkeit und Lautstärke der Sprache, um ein reichhaltiges Hörerlebnis zu bieten:

  1. Tonhöhe: Passen Sie den Ton von extra niedrig (x-low) bis extra hoch (x-high) an oder stellen Sie spezifische Prozentsätze ein, um die Tonhöhe der Stimme fein abzustimmen.
  2. Geschwindigkeit: Steuern Sie, wie schnell die Sprache geliefert wird, von extra langsam (x-slow) bis extra schnell (x-fast), oder passen Sie die Geschwindigkeit durch spezifische Prozentsätze präzise an.
  3. Lautstärke: Stellen Sie die Lautstärke von stumm bis extra laut (x-loud) ein oder passen Sie sie in Dezibel oder Prozent an, um den Kontext der Sprache zu berücksichtigen.

Beispiel:

<speak>

    Dies ist ein normales Sprachmuster.

    <prosody pitch="high" rate="fast" volume="+20%">

        Ich spreche mit einer höheren Tonhöhe, schneller als gewöhnlich und lauter!

    </prosody>

    Zurück zum normalen Sprachmuster.

</speak>

Sprachpausen und Betonung

SSML Tags wie <break> und <emphasis> sind entscheidend, um die Sprache natürlicher und ausdrucksstärker klingen zu lassen:

  • Pause: Fügen Sie Pausen mit bestimmter Stärke oder Dauer ein, um Punkte zu betonen oder Abschnitte innerhalb der Sprache zu trennen.
  • Betonung: Erhöhen oder verringern Sie die Betonung von Wörtern, um Emotionen oder Wichtigkeit zu vermitteln und das Engagement des Zuhörers zu steigern.

<speak>

    Manchmal kann es nützlich sein, am Ende des Satzes eine längere Pause einzufügen.

    <break strength="medium" />

    Oder <break time="100ms" /> manchmal in der <break time="1s" /> Mitte.

</speak>

Erweiterte Sprachsteuerung

Speechify verfügt auch über einen proprietären Tag namens <speechify:style>, mit dem Sie die Emotion und den Rhythmus der Stimme anpassen können, um die Sprache nachvollziehbarer und eindrucksvoller zu gestalten.

Beispiel:

<speak>

    <speechify:style emotion="angry" cadence="fast">

        Wie oft kannst du mich das noch fragen?

    </speechify:style>

</speak>

SSML mit Speechify implementieren

Entwickler können SSML mit der Speechify-API integrieren, indem sie diese Schritte befolgen:

  1. Umgebungssetup: Konfigurieren Sie Ihre Entwicklungsumgebung, um HTTP-Anfragen zu unterstützen.
  2. API-Authentifizierung: Sichern Sie sich einen API-Schlüssel von Speechify und fügen Sie ihn in den Anfrage-Header ein.
  3. Erstellen Sie SSML Inhalte: Gestalten Sie Ihr SSML-Skript, um den spezifischen Sprachanforderungen Ihrer Anwendung gerecht zu werden.
  4. API-Anfrage senden: Betten Sie das SSML-Skript in eine POST-Anfrage ein und senden Sie es an den Speechify API-Endpunkt.
  5. Antwort verarbeiten: Abrufen und Bearbeiten der Audioausgabe, um sicherzustellen, dass sie den Standards Ihrer Anwendung entspricht.

Anwendungsfälle für die Speechify Text-to-Speech API’s SSML

Speechify Text-to-Speech API’s SSML-Fähigkeiten sind entscheidend, um Sprache an spezifische Bedürfnisse und Kontexte anzupassen und die akustische Landschaft der digitalen Kommunikation zu verändern. Tatsächlich zeigt sich die Vielseitigkeit von SSML in Speechifys API in verschiedenen Anwendungen:

  1. Barrierefreiheit: SSML ist entscheidend für die Schaffung zugänglicher Technologien, die Nutzern mit Sehbehinderungen oder Leseschwierigkeiten helfen.
  2. E-Learning Plattformen: SSML verbessert Bildungsinhalte durch den Einsatz verschiedener Tonlagen und Betonungen, um das Engagement der Schüler zu fördern.
  3. Virtuelle Assistenten: SSML bringt virtuelle Interaktionen näher an menschliche Gespräche heran und verbessert die Benutzerzufriedenheit.
  4. Hörbücher: SSML verwendet verschiedene Stimmen und emotionale Tonlagen, um Geschichten zum Leben zu erwecken.
  5. Kundendienst Bots: SSML nutzt maßgeschneiderte Antworten, um klarere und angenehmere Kundeninteraktionen zu bieten, Missverständnisse zu reduzieren und die Servicequalität zu verbessern.
  6. Sprachlern-Tools: SSML unterstützt den Sprachunterricht, indem es die Aussprache hervorhebt und das Hörverständnis fördert.
  7. Öffentliche Durchsagen: SSML sorgt dafür, dass Informationen in lauten oder öffentlichen Umgebungen klar und effektiv vermittelt werden.
  8. Videospiele: SSML verleiht Charakteren Tiefe durch dynamische Dialogfähigkeiten.
  9. Podcast Produktion: SSML erleichtert die Erstellung von abwechslungsreichen und ansprechenden Audioinhalten für Zuhörer.
  10. Gesundheitswesen Kommunikation: SSML kommuniziert mit Patienten in beruhigenden und vertrauensvollen Tonlagen.
  11. Navigationssysteme: SSML verbessert die Klarheit und Betonung bei wichtigen Richtungsanweisungen.
  12. Telefonsysteme: SSML verbessert interaktive Sprachdialogsysteme (IVR) mit natürlich klingenden Sprachoptionen.
  13. Multimedia-Präsentationen: SSML hebt die Qualität von Präsentationen mit professionell klingenden Erzählungen an.
  14. Smart Home Geräte: SSML integriert reaktionsfähigere und intuitivere Sprachinteraktionen.

Beste SSML-Praktiken für Entwickler 

Egal, ob Sie interaktive Sprachdialoge, Hörbücher oder virtuelle Assistenten erstellen, das effektive Nutzen von SSML kann die Qualität und Effektivität Ihrer Sprachsyntheseprojekte erheblich steigern. Hier sind einige der besten Praktiken für Entwickler:

  • Experimentieren Sie mit verschiedenen SSML-Tags, um die optimalen Einstellungen für Ihren Anwendungsfall zu entdecken.
  • Aktualisieren und verfeinern Sie regelmäßig SSML-Skripte basierend auf Benutzerfeedback, um die Qualität und Effektivität der Sprachausgabe zu verbessern.
  • Stellen Sie sicher, dass die SSML-Tags korrekt verschachtelt sind und den XML-Standards entsprechen, um Verarbeitungsfehler zu vermeiden.

Fazit

Durch die Unterstützung der nuancierten Fähigkeiten von SSML ermöglicht Speechify Entwicklern, reichhaltigere und menschlichere Spracherlebnisse in verschiedenen Anwendungen zu schaffen. Ob durch präzise Steuerung von Tonhöhe, Geschwindigkeit und Lautstärke oder durch die Implementierung fortschrittlicher Tags für emotionale und rhythmische Anpassungen, die API stellt sicher, dass jedes gesprochene Wort nicht nur gehört, sondern auch gefühlt wird. Diese Integration von SSML mit Speechifys robuster TTS-Technologie erweitert nicht nur den Umfang sprachgesteuerter Anwendungen, sondern vertieft auch die Interaktion und Zugänglichkeit digitaler Inhalte und macht es zu einem unverzichtbaren Werkzeug für Entwickler, die im Bereich gesprochener digitaler Interaktionen innovativ sein möchten.

FAQ

Unterstützt die Speechify Text-to-Speech-API SSML?

Ja, die Speechify Text-to-Speech-API unterstützt vollständig die Speech Synthesis Markup Language (SSML), um die Ausdruckskraft und Anpassungsfähigkeit der Sprachausgabe zu verbessern.

Wofür steht SSML? 

SSML steht für Speech Synthesis Markup Language, eine standardisierte Auszeichnungssprache, die es Entwicklern ermöglicht, Aspekte der synthetischen Sprache wie Tonhöhe, Geschwindigkeit und Ton zu steuern.

Wie profitiert Text-to-Speech von SSML? 

SSML verbessert Text-to-Speech, indem es eine präzise Kontrolle über die Sprachausgabe ermöglicht, sodass sie natürlicher klingt und auf spezifische Kontexte und Benutzerbedürfnisse zugeschnitten ist.

Was ist die Bedeutung von SSML? 

Die Bedeutung von SSML liegt in seiner Fähigkeit, eine nuancierte Kontrolle über synthetische Sprache zu bieten, was die Klarheit und das Engagement von gesprochenem Text in verschiedenen Anwendungen verbessert.

Wo kann ich mehr über die SSML der Speechify Text-to-Speech-API erfahren?

Sie können mehr über die Speechify Text-to-Speech-API-Fähigkeiten von SSML und deren Implementierung erfahren, indem Sie die offizielle Speechify-API-Dokumentation und Ressourcen auf deren Website besuchen.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman ist ein Verfechter für Legasthenie und der CEO und Gründer von Speechify, der weltweit führenden Text-zu-Sprache-App mit über 100.000 5-Sterne-Bewertungen und dem ersten Platz im App Store in der Kategorie Nachrichten & Zeitschriften. 2017 wurde Weitzman für seine Arbeit, das Internet für Menschen mit Lernschwierigkeiten zugänglicher zu machen, in die Forbes 30 unter 30 Liste aufgenommen. Cliff Weitzman wurde in führenden Medien wie EdSurge, Inc., PC Mag, Entrepreneur und Mashable vorgestellt.