1. Inicio
  2. API
  3. Cómo Speechify Text to Speech API Soporta SSML
Social Proof

Cómo Speechify Text to Speech API Soporta SSML

Estamos emocionados de anunciar el desarrollo de una API de texto a voz que ofrece las voces de IA más naturales y queridas de Speechify directamente a desarrolladores de todo el mundo.

¿Buscas nuestro Lector de Texto a Voz?

Destacado en

forbes logocbs logotime magazine logonew york times logowall street logo
¡Escucha este artículo con Speechify!
Speechify

Desbloquea todo el potencial de Speechify Text to Speech API con soporte para SSML.

Speechify Text to Speech (TTS) API está a la vanguardia de la tecnología de voz personalizable, ofreciendo un sólido soporte para Lenguaje de Marcado de Síntesis de Voz (SSML). Esta avanzada funcionalidad permite a los desarrolladores crear interpretaciones vocales finamente ajustadas directamente a través del código, mejorando la entrega de texto digital con entonación precisa, ritmo y profundidad emocional. En este artículo, exploramos cómo Speechify Text to Speech API aprovecha SSML para transformar texto plano en una salida hablada rica y expresiva, permitiendo que aplicaciones en diversos sectores ofrezcan experiencias de usuario más naturales y atractivas.

Visión General del API de Speechify Text to Speech

Speechify Text to Speech API es una herramienta robusta que transforma texto escrito en palabra hablada realista. Utilizando redes neuronales avanzadas y técnicas de aprendizaje automático, este API puede generar una voz que suena natural y atractiva. Soporta una amplia gama de idiomas y dialectos, ofreciendo diversas opciones de voz que van desde tonos masculinos a femeninos, asegurando un amplio atractivo entre diferentes bases de usuarios. Esta flexibilidad hace que Speechify Text to Speech API sea una excelente opción para desarrolladores que buscan integrar capacidades de texto a voz en aplicaciones, sitios web o cualquier servicio interactivo, asegurando una experiencia de usuario fluida e inclusiva.

¿Qué es SSML?

Lenguaje de Marcado de Síntesis de Voz (SSML) es un lenguaje de marcado basado en XML esencial que los desarrolladores utilizan para dictar cómo los sistemas de texto a voz convierten texto escrito en voz hablada. SSML permite especificar varios aspectos del habla como tono, velocidad, volumen y pronunciación, permitiendo una salida más controlada y precisa que puede imitar la entonación y el ritmo humano. Esta tecnología es particularmente beneficiosa en escenarios donde el tono y el matiz del habla son críticos para la efectividad de la comunicación, como en contenido educativo, respuestas interactivas o narración de historias.

El Papel de SSML en la Mejora del Texto a Voz

La integración de SSML mejora la tecnología de texto a voz al proporcionar herramientas para manipular el habla generada de maneras sutiles que antes eran inalcanzables con sistemas básicos de texto a voz. Esta mejora soporta flujos de diálogo más naturales y puede adaptar la salida de voz para ajustarse a requisitos específicos del contexto, como añadir pausas para efecto dramático o alterar la velocidad del habla para coincidir con la velocidad de procesamiento del oyente. El papel de SSML en la tecnología de texto a voz marca un avance significativo hacia cerrar la brecha entre el habla humana y la generada por computadora, haciendo las interacciones digitales más comprensibles y fáciles de entender.

Cómo Speechify Soporta SSML

API de Texto a Voz de Speechify se compromete a ofrecer una experiencia auditiva superior y es compatible con SSML para enriquecer el proceso de conversión de texto a voz. Al adoptar SSML, Speechify permite a los desarrolladores ajustar la salida de audio para adaptarse mejor a las necesidades específicas de diferentes proyectos. Este soporte incluye ajustar la dinámica del habla, como la entonación y el énfasis, que son cruciales para transmitir más emoción e intención. Las capacidades de SSML de la API de Texto a Voz de Speechify aseguran que los usuarios finales reciban una experiencia auditiva pulida y orientada al propósito que puede mejorar significativamente la usabilidad y el disfrute de la aplicación.

Beneficios de Usar SSML en Speechify

Utilizar SSML con la API de Texto a Voz de Speechify ofrece numerosas ventajas, incluyendo: 

  • Personalización: SSML adapta extensamente las salidas de voz para ajustarse al contexto o propósito de la aplicación, proporcionando una experiencia de usuario más personalizada.
  • Mayor Compromiso del Usuario: SSML involucra a los usuarios con interacciones de voz dinámicas que son claras, comprensibles y agradables de escuchar.
  • Mejoras en Accesibilidad: SSML con texto a voz hace que la tecnología sea más accesible, mejorando la usabilidad general para todos los usuarios, especialmente aquellos con discapacidades.
  • Mayor Eficacia: SSML mejora la eficacia de la comunicación en aplicaciones donde la calidad y claridad de la voz son cruciales.

Los Fundamentos del SSML de la API de Texto a Voz de Speechify 

La API de Texto a Voz de Speechify incorpora la poderosa herramienta del Lenguaje de Marcado de Síntesis de Voz para mejorar y controlar la salida de voz, haciendo que las interacciones digitales suenen más realistas y atractivas. Al dominar estas técnicas de SSML, puedes mejorar significativamente la expresividad y efectividad de tus aplicaciones de texto a voz. Ya sea para accesibilidad, entretenimiento o educación, SSML proporciona las herramientas para que las interacciones digitales suenen más humanas y atractivas. Aquí están los fundamentos:

Caracteres Escapados en SSML

Para asegurar que el código SSML sea interpretado correctamente por los analizadores, ciertos caracteres dentro del texto deben ser escapados. Esto evita que sean confundidos con la sintaxis de marcado. A continuación se presentan los caracteres comunes y sus equivalentes escapados:

  • Ampersand (&) se convierte en &
  • Signo mayor que (>) se convierte en >
  • Signo menor que (<) se convierte en &lt;
  • Comillas dobles (") se convierten en &quot;
  • Apóstrofo (') se convierte en &apos;

Ejemplo: Convertir una línea con caracteres especiales:

const escapeSSMLChars = (text: string) =>

  text

    .replaceAll('&', '&amp;')

    .replaceAll('<', '&lt;')

    .replaceAll('>', '&gt;')

    .replaceAll('"', '&quot;')

    .replaceAll('\'', '&apos;')

Por ejemplo, transformar el texto: Some "text" with 5 < 6 & 4 > 8 in it yields: <speak>Some &quot;text&quot; with 5 &lt; 6 &amp; 4 &gt; 8 in it</speak>

Expresividad del Habla

SSML permite manipular el tono, la velocidad y el volumen del habla, proporcionando una experiencia auditiva enriquecida:

  1. Tono: Ajusta el tono desde extra bajo (x-low) hasta extra alto (x-high), o establece porcentajes específicos para afinar sutilmente el tono de la voz.
  2. Velocidad: Controla la rapidez con la que se entrega el discurso, desde extra lento (x-slow) hasta extra rápido (x-fast), o ajusta por porcentajes específicos para un control preciso de la velocidad.
  3. Volumen: Establece la intensidad desde silencioso hasta extra fuerte (x-loud), o ajusta por decibelios o porcentaje para adaptarse al contexto del discurso.

Ejemplo:

<speak>

    Este es un patrón de habla normal.

    <prosody pitch="high" rate="fast" volume="+20%">

        ¡Estoy hablando con un tono más alto, más rápido de lo habitual y más fuerte!

    </prosody>

    De vuelta al patrón de habla normal.

</speak>

Pausas y Énfasis en el Habla

SSML utiliza etiquetas como <break> y <emphasis> que son cruciales para hacer que el habla suene más natural y expresiva:

  • Pausa: Inserta pausas de fuerza o duración especificada para enfatizar puntos o separar secciones dentro del discurso.
  • Énfasis: Aumenta o disminuye el énfasis de las palabras para transmitir emoción o importancia, mejorando el compromiso del oyente.

<speak>

    A veces puede ser útil añadir una pausa más larga al final de la oración.

    <break strength="medium" />

    O <break time="100ms" /> a veces en el <break time="1s" /> medio.

</speak>

Control Avanzado del Habla

Speechify también tiene una etiqueta propietaria llamada <speechify:style>, que te permite ajustar la emoción y el ritmo de la voz, haciendo que el discurso sea más relatable e impactante.

Ejemplo:

<speak>

    <speechify:style emotion="angry" cadence="fast">

        ¿Cuántas veces puedes preguntarme esto?

    </speechify:style>

</speak>

Implementación de SSML con Speechify

Los desarrolladores pueden integrar SSML con la API de Speechify siguiendo estos pasos:

  1. Configuración del Entorno: Configura tu entorno de desarrollo para soportar solicitudes HTTP.
  2. Autenticación de API: Obtén una clave API de Speechify e inclúyela en el encabezado de la solicitud.
  3. Diseña Contenido SSML : Crea tu script SSML para adaptarse a los requisitos de voz específicos de tu aplicación.
  4. Envía la Solicitud API: Inserta el script SSML en una solicitud POST y envíala al endpoint de la API de Speechify.
  5. Procesa la Respuesta: Recupera y maneja la salida de audio, asegurando que cumpla con los estándares de tu aplicación.

Casos de Uso para el API de Texto a Voz de Speechify con SSML

API de Texto a Voz de Speechify con las capacidades de SSML son vitales para adaptar el habla a necesidades y contextos específicos, transformando el paisaje auditivo de las comunicaciones digitales. De hecho, así es como la versatilidad de SSML en la API de Speechify puede mostrarse en diversas aplicaciones:

  1. Accesibilidad: SSML es vital para crear tecnologías accesibles que asisten a usuarios con discapacidades visuales o dificultades de lectura.
  2. Plataformas de e-learning: SSML mejora el contenido educativo utilizando tonos y énfasis variados para mantener el interés de los estudiantes.
  3. Asistentes Virtuales: SSML acerca las interacciones virtuales a intercambios más humanos, mejorando la satisfacción del usuario.
  4. Audiolibros: SSML emplea diferentes voces y tonos emocionales para dar vida a las historias.
  5. Bots de Atención al Cliente: SSML utiliza respuestas personalizadas para ofrecer interacciones más claras y agradables, reduciendo malentendidos y mejorando la calidad del servicio.
  6. Herramientas de Aprendizaje de Idiomas: SSML ayuda en la educación de idiomas destacando la pronunciación y facilitando la comprensión auditiva.
  7. Anuncios Públicos: SSML asegura que la información se transmita de manera clara y efectiva en entornos ruidosos o públicos.
  8. Videojuegos: SSML añade profundidad a los personajes a través de diálogos dinámicos.
  9. Producción de Podcasts: SSML facilita la creación de contenido de audio variado y atractivo para los oyentes.
  10. Comunicaciones en Salud: SSML se comunica con los pacientes utilizando tonos calmados y tranquilizadores.
  11. Sistemas de Navegación: SSML mejora la claridad y el énfasis en las direcciones críticas.
  12. Sistemas de Telefonía: SSML mejora los sistemas de respuesta de voz interactiva (IVR) con opciones de habla más naturales.
  13. Presentaciones Multimedia: SSML eleva la calidad de las presentaciones con narraciones de sonido profesional.
  14. Dispositivos Inteligentes para el Hogar: SSML integra interacciones de voz más receptivas e intuitivas.

Mejores Prácticas de SSML para Desarrolladores 

Ya sea que estés creando respuestas de voz interactivas, audiolibros, o asistentes virtuales, entender cómo usar efectivamente SSML puede elevar significativamente la calidad y efectividad de tus proyectos de síntesis de voz. Aquí tienes algunas de las mejores prácticas para desarrolladores:

  • Experimenta con diferentes etiquetas SSML para descubrir la configuración óptima para tu caso de uso.
  • Actualiza y mejora regularmente los scripts SSML basándote en la retroalimentación de los usuarios para mejorar la calidad y efectividad de la salida de voz.
  • Asegúrate de que las etiquetas SSML estén correctamente anidadas y cumplan con los estándares XML para evitar errores de procesamiento.

Conclusión

Al apoyar las capacidades matizadas de SSML, Speechify permite a los desarrolladores crear experiencias de voz más ricas y humanas en diversas aplicaciones. Ya sea a través del control preciso del tono, la velocidad y el volumen, o implementando etiquetas avanzadas para ajustes emocionales y rítmicos, la API asegura que cada palabra hablada no solo se escuche, sino que también se sienta. Esta integración de SSML con la robusta tecnología TTS de Speechify no solo amplía el alcance de las aplicaciones habilitadas por voz, sino que también profundiza el compromiso y la accesibilidad del contenido digital, convirtiéndolo en una herramienta indispensable para los desarrolladores que buscan innovar en el ámbito de las interacciones digitales habladas.

Preguntas Frecuentes

¿El API de Texto a Voz de Speechify soporta SSML?

Sí, el API de Texto a Voz de Speechify soporta completamente el Lenguaje de Marcado de Síntesis de Voz (SSML) para mejorar la expresividad y personalización de la salida de voz.

¿Qué significa SSML? 

SSML significa Lenguaje de Marcado de Síntesis de Voz, un lenguaje de marcado estandarizado que permite a los desarrolladores controlar aspectos del habla sintética como el tono, la velocidad y el timbre.

¿Cómo beneficia SSML al texto a voz? 

SSML beneficia al texto a voz al permitir un control preciso sobre la salida de voz, haciéndola sonar más natural y adaptada a contextos específicos y necesidades del usuario.

¿Cuál es la importancia de SSML? 

La importancia de SSML radica en su capacidad para proporcionar un control matizado sobre el habla sintética, mejorando la claridad y el compromiso del texto hablado en diversas aplicaciones.

¿Dónde puedo aprender más sobre las capacidades de SSML del API de Texto a Voz de Speechify?

Puedes aprender más sobre las capacidades del API de Texto a Voz de Speechify y cómo implementarlas visitando la documentación oficial del API de Speechify y los recursos en su sitio web.

Cliff Weitzman

Cliff Weitzman

Cliff Weitzman es un defensor de la dislexia y el CEO y fundador de Speechify, la aplicación de texto a voz número uno en el mundo, con más de 100,000 reseñas de 5 estrellas y ocupando el primer lugar en la categoría de Noticias y Revistas de la App Store. En 2017, Weitzman fue incluido en la lista de Forbes 30 menores de 30 por su trabajo haciendo que internet sea más accesible para personas con discapacidades de aprendizaje. Cliff Weitzman ha sido destacado en EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre otros medios líderes.