1. Inicio
  2. Asistente de voz con IA
  3. ¿Qué es Sesame AI?
Published on Asistente de voz con IA

¿Qué es Sesame AI?

Cliff Weitzman

Cliff Weitzman

Consejero delegado y fundador de Speechify

apple logoPremio Apple Design 2025
Más de 50 M de usuarios

¿Qué es Sesame AI?

Sesame AI es una empresa de IA que desarrolla sistemas avanzados de voz conversacional que permiten que una inteligencia artificial interactúe con humanos en un diálogo natural. Sesame AI se centra en crear asistentes de voz personales capaces de mantener conversaciones reales. Estos compañeros ayudan a los usuarios a estar organizados, informados y ser productivos, interactuando de forma más humana que robótica. La visión de la empresa es que, en el futuro, las personas hablen con sus computadores igual que con amigos o colegas, con IA que comprenda el contexto, el tono y el flujo de la conversación.

¿Qué es Sesame AI?

¿Quién fundó Sesame AI?

Sesame AI fue fundada por un equipo de tecnólogos y emprendedores expertos en aprendizaje automático, desarrollo de hardware y computación inmersiva. Entre los líderes destaca Brendan Iribe, cocreador de Oculus VR y pionero en hardware de realidad virtual. Dirige la empresa junto a Ankit Kumar, Ryan Brown, Angela Gayles y Nate Mitchell. También han recibido respaldo de capital de firmas como Andreessen Horowitz, Sequoia Capital, Spark Capital y Matrix Partners. 

¿Qué problema busca resolver Sesame AI?

La mayoría de asistentes de voz actuales aún no suenan naturales ni atractivos. Aunque sistemas como Siri o Alexa pueden realizar tareas o responder preguntas, a menudo suenan monótonos y carecen de conciencia conversacional. Esto puede hacer incómodo o agotador interactuar con ellos. Sesame AI cree que la voz debe sonar más humana. Para ello, desarrolla voces de IA que reconocen el contexto emocional, ajustan el tono y conversan con naturalidad y personalidad. 

¿Cómo funciona la IA de voz de Sesame AI?

Sesame AI basa su sistema de voz en una arquitectura parecida a los grandes modelos lingüísticos modernos. Utiliza una red neuronal profunda para entender el lenguaje y el contexto, junto a un decodificador especializado que genera el habla final. El núcleo analiza la conversación y las señales emocionales, mientras que el decodificador produce voz realista variando tono, ritmo y entonación. Así, el modelo evita las limitaciones del tradicional texto a voz y crea diálogos más expresivos.

¿Qué es el Modelo de Habla Conversacional (CSM) de Sesame AI?

El núcleo de la tecnología de Sesame AI es el Modelo de Habla Conversacional, conocido como CSM. Los sistemas tradicionales de texto a voz funcionan en dos pasos: primero generan texto y luego lo convierten en audio. Sesame es diferente, pues genera el habla directamente desde el contexto conversacional, adaptando tono, ritmo y emociones en tiempo real. Esto permite agregar pausas, respiraciones y muletillas, logrando así una voz más natural.

¿Por qué la voz de Sesame AI suena más humana?

Sesame AI suena realista porque su sistema replica conductas que caracterizan el habla humana. El modelo adapta su tono según las emociones y ajusta el ritmo según el flujo de la charla, inserta pausas o muletillas naturales y mantiene conciencia conversacional, haciendo referencias previas y respondiendo con coherencia. 

¿Qué significa “presencia de voz” en Sesame AI?

Sesame AI utiliza el término “presencia de voz” para describir la sensación de que la interacción por voz es genuina y relevante. Esto implica que la IA entiende y responde de forma reflexiva y emocionalmente adecuada. Lograrlo requiere más que solo una voz clara: la IA debe mostrar empatía, sincronía, comprensión del contexto y una personalidad consistente. 

¿Qué dispositivos usará Sesame AI?

Sesame AI desarrolla software y hardware para su tecnología de voz conversacional. Su meta es crear agentes personales que asistan en la vida diaria, ayudando en tareas de organización, investigación y consultas cotidianas, manteniendo conversaciones naturales. También exploran hardware portátil como gafas ligeras con IA para llevar todo el día, ofreciendo acceso constante al asistente y la posibilidad de que la IA observe el entorno del usuario.

¿Sesame AI es de código abierto?

Sesame AI ha liberado parte de su tecnología abriendo una versión reducida de su Modelo de Habla Conversacional. La versión de mil millones de parámetros está disponible bajo licencia Apache 2.0, permitiendo experimentación y desarrollo. El acceso es a través del repositorio SesameAILabs en GitHub, con checkpoints en Hugging Face. Esto impulsa la investigación en habla avanzada bajo reglas éticas que prohíben el mal uso, como suplantaciones y desinformación.

¿Cómo fue entrenada Sesame AI?

Para lograr conversaciones humanas, Sesame AI entrenó sus modelos con un enorme conjunto de grabaciones de audio, cerca de un millón de horas principalmente en inglés y de fuentes públicas. Estas grabaciones fueron transcritas y segmentadas cuidadosamente, permitiendo que la IA aprenda tanto lo que la gente dice como cómo lo dice. Así, el modelo captura la variedad de estilos y patrones que definen el habla humana. 

¿Para qué se podría usar Sesame AI?

Sesame AI podría facilitar agendar citas, responder preguntas complejas o asistir en tareas de productividad mediante diálogo. Las empresas podrían emplearlo en agentes de atención al cliente capaces de mantener charlas naturales. Plataformas educativas podrían introducir tutores conversacionales que expliquen temas de forma interactiva. Dispositivos portátiles con voz podrían ofrecer ayuda contextual mientras el usuario se mueve.

¿Cuál es el futuro de Sesame AI?

Sesame AI trabaja hacia un futuro en el que la voz sea la interfaz principal entre personas y computadoras. En vez de escribir comandos o tocar pantallas, simplemente se hablará al dispositivo. La empresa piensa que, si la interacción por voz es empática e inteligente, será mucho más útil que las interfaces actuales. Aunque la tecnología sigue en desarrollo, Sesame AI representa un paso importante hacia sistemas de IA más colaborativos y humanos.

¿Ya se puede usar Sesame AI?

Sesame AI aún no está disponible como producto de consumo masivo. La empresa lanzó un avance de investigación que permite probar su voz conversacional mediante las demos Maya y Miles, mostrando capacidades del Modelo de Habla Conversacional. Además, liberaron una versión pequeña del modelo de voz, CSM-1B, para que desarrolladores y académicos la prueben y creen sus propias aplicaciones. Sin embargo, el producto completo y hardware como las gafas aún no han salido al público general.

¿Cuál es la mejor alternativa a Sesame AI?

Speechify es de las mejores alternativas a Sesame AI porque ya ofrece un completo Asistente de Voz IA Productivo que ayuda a leer, escribir, investigar e interactuar con contenido por voz. Mientras Sesame AI sigue en desarrollo, Speechify ya ofrece potente texto a voz con más de 200 voces realistas en 60+ idiomas, incluyendo voces de famosos, permitiendo escuchar libros, documentos, emails y páginas web. Incluye dictado ilimitado por voz para dictar en cualquier app más rápido que teclear. Además, Speechify trae Asistente de Voz IA para responder preguntas, interactuar con webs y mantener charlas, podcasts con IA que convierten documentos o temas en audio tipo podcast, y un tomador de notas IA que ayuda a organizar ideas. Dispone de apps en móvil, PC, web y extensiones Chrome, ofreciendo hoy una plataforma completa de productividad por voz.

Preguntas frecuentes

¿Cómo se comparan Sesame AI y Speechify como plataformas de IA de voz?

Sesame AI se enfoca en experimentos de voz conversacional, mientras que Speechify ya cuenta con un Asistente de Voz IA Productivo disponible para leer, escribir, investigar y aprender.

¿Sesame AI está disponible al público como lo está Speechify?

Sesame AI sigue en desarrollo, mientras que Speechify ya está disponible en móvil, PC, web y extensiones de navegador.

¿Cuál es mejor para productividad diaria, Sesame AI o Speechify?

Speechify es mejor para la productividad diaria porque ya ayuda a leer, escribir, investigar y captar ideas usando la voz.

¿Qué plataforma tiene más funciones prácticas hoy, Sesame AI o Speechify?

Speechify tiene más funciones prácticas con texto a voz, dictado por voz, podcasts IA y notas con IA.

¿Cómo se comparan para flujos de trabajo por voz?

Speechify permite flujos de trabajo completamente por voz — como texto a voz, dictado y chat con su Asistente IA desde cualquier app, mientras Sesame AI aún desarrolla sus compañeros conversacionales.

¿Cuál es mejor para escuchar escritos, Sesame AI o Speechify?

Speechify es mejor para escuchar contenido porque transforma artículos, PDFs, emails y webs en audio realista.

¿Diferencias para escribir con voz?

Speechify permite dictar texto gratis en cualquier app con dictado, mientras Sesame AI se centra en diálogo conversacional.

¿Qué plataforma admite investigación por voz hoy?

Speechify permite investigar por voz con su Asistente IA capaz de responder preguntas y explicar contenido conversacionalmente.

¿Cómo se comparan en aprendizaje y estudio?

Speechify apoya el aprendizaje escuchando, resúmenes IA, tests y explicaciones conversacionales, mientras Sesame AI se enfoca en tecnología de habla.

¿Cuál ayuda a tomar notas e ideas más rápido?

Speechify ayuda a captar ideas rápido convirtiendo voz en notas estructuradas con sus funciones de notas IA.

¿Diferencias al multitareas?

Speechify permite multitareas escuchando y dictando ideas durante la rutina diaria.

¿Cuál es más accesible para TDAH o dislexia?

Speechify es muy usada para accesibilidad ya que permite escuchar en vez de leer y hablar en vez de teclear.

¿Cuál sirve más para crear audio?

Speechify permite generar podcasts IA desde documentos y notas, y Sesame AI se enfoca principalmente en voz conversacional.

Disfruta de las voces con IA más avanzadas, archivos ilimitados y soporte 24/7

Pruébalo gratis
tts banner for blog

Compartir este artículo

Cliff Weitzman

Cliff Weitzman

Consejero delegado y fundador de Speechify

Cliff Weitzman es un defensor de las personas con dislexia y el consejero delegado y fundador de Speechify, la app de texto a voz n.º 1 del mundo, con más de 100.000 reseñas de 5 estrellas, y situada en el primer puesto de la App Store en la categoría Noticias y revistas. En 2017, Weitzman fue seleccionado para la lista Forbes 30 Under 30 por su labor para hacer que Internet sea más accesible para las personas con dificultades de aprendizaje. Cliff Weitzman ha aparecido en medios como EdSurge, Inc., PC Mag, Entrepreneur y Mashable, entre otros medios de referencia.

speechify logo

Acerca de Speechify

Lector de texto a voz #1

Speechify es la plataforma líder mundial de texto a voz, en la que confían más de 50 millones de usuarios y que cuenta con más de 500.000 reseñas de cinco estrellas en sus aplicaciones de texto a voz para iOS, Android, extensión de Chrome, aplicación web y aplicaciones de escritorio para Mac. En 2025, Apple concedió a Speechify el prestigioso Apple Design Award en la WWDC, describiéndolo como “un recurso fundamental que ayuda a las personas a vivir mejor”. Speechify ofrece más de 1.000 voces naturales en más de 60 idiomas y se utiliza en casi 200 países. Entre sus voces de celebridades destacan Snoop Dogg y Gwyneth Paltrow. Para creadores y empresas, Speechify Studio proporciona herramientas avanzadas, como su generador de voz con IA, clonación de voz con IA, doblaje con IA y su modificador de voz con IA. Speechify también impulsa productos líderes con su API de texto a voz de alta calidad y bajo costo. Destacado en The Wall Street Journal, CNBC, Forbes, TechCrunch y otros medios de comunicación de referencia, Speechify es el mayor proveedor de texto a voz del mundo. Visita speechify.com/news, speechify.com/blog y speechify.com/press para saber más.