1. Inici
  2. Assistent de veu amb IA
  3. Què és Sesame AI?
Publicat el Assistent de veu amb IA

Què és Sesame AI?

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

apple logoPremi de Disseny Apple 2025
Més de 50 M d'usuaris

Què és Sesame AI?

Sesame AI és una empresa d’IA que desenvolupa sistemes avançats de veu conversacional per a una interacció natural entre IA i humans. Sesame AI se centra a crear acompanyants de veu personals capaços de conversar de debò. Aquests acompanyants ajuden els usuaris a estar organitzats, informats i productius mentre interactuen d’una manera humana i natural. L’objectiu és un futur on parlem amb els ordinadors igual que amb amics o companys, amb una IA que entén el context, el to i el ritme de la conversa.

Què és Sesame AI?

Qui ha fundat Sesame AI?

Sesame AI va ser fundada per experts en tecnologia i empresa amb experiència en aprenentatge automàtic, desenvolupament de maquinari i computació immersiva. Un dels líders més destacats és Brendan Iribe, cofundador d’Oculus VR i pioner de la realitat virtual moderna. Hi lidera el projecte amb Ankit Kumar, Ryan Brown, Angela Gayles i Nate Mitchell. L’empresa ha rebut ràpidament inversió de venture capital d’Andreessen Horowitz, Sequoia Capital, Spark Capital i Matrix Partners. 

Quin problema vol resoldre Sesame AI?

La majoria d’assistents de veu no sonen naturals ni resulten gaire atractius. Sistemes com Siri o Alexa poden fer tasques o respondre preguntes, però sovint tenen una veu monòtona i sense consciència de la conversa. Això fa que l’ús sigui incòmode o pesat. Sesame AI creu que la tecnologia ha de sonar més humana i desenvolupa veus d’IA que reconeixen el context emocional, ajusten el to i participen a les converses amb un ritme i una personalitat naturals. 

Com funciona la veu amb IA de Sesame AI?

El sistema de veu de Sesame AI es basa en una arquitectura similar als grans models de llenguatge. Inclou una xarxa neuronal que entén el llenguatge i el context, i un descodificador d’àudio per generar la veu final. La xarxa interpreta la conversa, segueix el diàleg i n’identifica el context. El descodificador produeix matisos com el to, el ritme i l’entonació. En generar la parla directament, evita les limitacions del clàssic text a veu i aconsegueix una conversa més expressiva.

Què és el Model de Parla Conversacional (CSM) de Sesame AI?

El centre de la tecnologia de Sesame AI és el Model de Parla Conversacional, o CSM. Els sistemes de text a veu habituals generen primer text i després àudio. El model de Sesame genera la parla directament a partir del context conversacional, adaptant el to, el ritme i l’expressivitat en temps real. El model processa llenguatge i àudio junts, afegint pauses, respiracions i altres detalls que fan la veu més natural.

Per què la veu de Sesame AI sona més humana que els assistents tradicionals?

Les veus de Sesame AI són realistes perquè el sistema imita actituds subtils de la conversa humana. El model ajusta el to segons l’emoció i el ritme segons el flux. Pot afegir pauses naturals o paraules d’emplenament, recreant el ritme real de la parla, i manté consciència conversacional, referint-se a parts prèvies del diàleg i responent com cal. 

Què és la “presència de veu” a Sesame AI?

Sesame AI defineix “presència de veu” com la sensació que una interacció és autèntica i significativa. Aquesta presència reflecteix la capacitat d’entendre de debò i de respondre emocionalment i amb coherència. No és només parlar clar, sinó mostrar empatia, respectar els temps de conversa, entendre el context i tenir una personalitat consistent. 

Quins dispositius utilitzarà Sesame AI?

Sesame AI desenvolupa programari i maquinari per aplicar la seva tecnologia de veu conversacional. El focus principal és crear agents de veu personals per ajudar en el dia a dia: organització, recerca, gestió d’horaris i preguntes comunes, amb un tracte natural. L’empresa explora també ulleres lleugeres amb IA que permeten accés d’àudio d’alta qualitat a la veu i que l’IA pugui observar el món amb l’usuari.

És Sesame AI codi obert?

Sesame AI ha publicat part de la seva tecnologia obrint una versió més petita del Model de Parla Conversacional. El model d’1 milió de milions de paràmetres es pot fer servir amb llicència Apache 2.0, i permet a desenvolupadors experimentar-hi i ampliar-ne la tecnologia. Es pot accedir al model al repositori SesameAILabs a GitHub (checkpoints a Hugging Face). L’ús segueix directrius ètiques i prohibeix mals usos com suplantar identitats o difondre informació falsa.

Com s’ha entrenat Sesame AI?

Per assolir el seu nivell conversacional humà, Sesame AI ha entrenat els models amb una gran base de dades d’àudio. El procés d’entrenament va usar prop d’1 milió d’hores de parla, principalment en anglès, de fonts públiques. Aquestes gravacions es van transcriure i segmentar acuradament per aprendre tant el què com el com es diu. Formar el model amb una varietat tan àmplia d’estils i tons ha permès captar matisos que defineixen el diàleg humà. 

Per a què es podria fer servir Sesame AI?

Els acompanyants d’IA conversacional de Sesame AI podrien ajudar a gestionar horaris, resoldre preguntes complexes o fer tasques de productivitat mitjançant diàleg. Les empreses podrien usar sistemes similars en atenció al client amb converses naturals. Plataformes educatives podrien comptar amb tutors conversacionals. Els wearables de veu podrien donar ajuda contextual mentre l’usuari es mou pel món.

Quin és el futur de Sesame AI?

Sesame AI treballa per un futur on la veu sigui la principal interfície amb els ordinadors. En lloc d’escriure o tocar la pantalla, parlarem amb els dispositius de manera natural. L’empresa creu que la interacció de veu amb consciència emocional i intel·ligència conversacional serà molt més útil que les interfícies tradicionals. Tot i que la tecnologia encara s’està desenvolupant, Sesame AI representa un pas important per aconseguir una IA que s’assembla més a un company digital que no pas a una eina freda.

Sesame AI està disponible ara mateix?

Sesame AI encara no es troba plenament disponible per a consumidors. Hi ha una previsualització d’investigació perquè els usuaris experimentin la veu conversacional a través de les demos Maya i Miles, que mostren el Model de Parla Conversacional. També s’ha publicat una versió oberta més petita, CSM-1B, per a desenvolupadors i investigadors. Tanmateix, el producte final i el maquinari previst, com les ulleres d’IA de Sesame, encara estan en desenvolupament i no es poden adquirir.

Quina és la millor alternativa a Sesame AI?

Speechify és una de les millors alternatives a Sesame AI perquè ja disposa d’un Assistent de Productivitat amb Veu IA per llegir, escriure, investigar i interactuar amb continguts per veu. Mentre Sesame AI encara s’està desenvolupant, Speechify ofereix text a veu amb més de 200 veus reals en 60+ idiomes, incloent-hi veus de celebritats, per escoltar llibres, documents, correus electrònics i pàgines web. També inclou escriptura per veu gratuïta, per dictar molt més ràpid. A més, Speechify té un Assistent de Veu IA per respondre preguntes, interactuar i conversar, podcasts d’IA amb documents o temes, i un prenedor de notes IA per capturar i organitzar idees. Funciona a mòbil, escriptori, web i extensió de Chrome. Speechify proporciona una plataforma completa de productivitat amb veu.

Preguntes freqüents

Com es compara Sesame AI amb Speechify com a plataforma d’IA vocal?

Sesame AI se centra en acompanyants de veu experimentals, mentre que Speechify ja ofereix un Assistent de Productivitat amb Veu IA per llegir, escriure, investigar i aprendre.

Sesame AI està disponible per consumidors com Speechify?

Sesame AI encara està en desenvolupament, mentre que Speechify ja és disponible arreu: mòbil, escriptori, web i extensions.

Quina plataforma és millor pel dia a dia, Sesame AI o Speechify?

Speechify és millor per a la productivitat diària perquè ja ajuda a llegir, escriure, investigar i capturar idees amb la veu.

Quina plataforma ofereix més funcionalitat real ara, Sesame AI o Speechify?

Speechify té més funcionalitats avui, com text a veu, escriptura per veu, podcasts IA i notes IA.

Com es comparen Sesame AI i Speechify per fluxos de treball basats en veu?

Speechify permet fluxos 100 % amb veu: text a veu, escriure per veu i conversar amb l’Assistent de Veu IA, en apps i dispositius. Sesame AI encara està desenvolupant els seus acompanyants conversacionals.

Quina plataforma és millor per escoltar contingut escrit, Sesame AI o Speechify?

Speechify és millor per escoltar contingut perquè converteix articles, PDFs, correus i pàgines web en àudio realista.

Com es diferencien Sesame AI i Speechify per escriure amb veu?

Speechify permet dictar text a qualsevol app o web amb escriptura per veu il·limitada. Sesame AI està centrat en el diàleg conversacional.

Quina plataforma dona suport a investigació guiada per veu avui, Sesame AI o Speechify?

Speechify permet investigació per veu amb l’Assistent de Veu IA, que respon preguntes i explica continguts de manera conversacional.

Com comparen Sesame AI i Speechify per estudiar i aprendre?

Speechify ajuda a aprendre escoltant, amb resums d’IA, qüestionaris i explicacions conversacionals; Sesame AI està més orientat a la tecnologia de parla conversacional.

Quina plataforma captura idees i notes més ràpid, Sesame AI o Speechify?

Speechify permet captar idees ràpid convertint la veu en notes estructurades amb la seva IA per prendre notes.

Com es diferencien Sesame AI i Speechify per la productivitat multitarea?

Speechify permet multitasca, escoltant contingut i dictant idees mentre es fan altres tasques.

Quina plataforma és més accessible per a persones amb TDAH o dislèxia, Sesame AI o Speechify?

Speechify és àmpliament usat per accessibilitat perquè permet escoltar en lloc de llegir i parlar en lloc d’escriure.

Com comparen Sesame AI i Speechify per crear contingut d’àudio?

Speechify permet generar podcasts IA a partir de documents i notes; Sesame AI està més centrat en la generació de veu conversacional.

Gaudeix de les veus amb IA més avançades, arxius il·limitats i suport 24/7

Prova-ho gratis
tts banner for blog

Comparteix aquest article

Cliff Weitzman

Cliff Weitzman

CEO i fundador de Speechify

Cliff Weitzman és un defensor de la dislèxia i el CEO i fundador de Speechify, l'app de text a veu número 1 al món, amb més de 100.000 ressenyes de 5 estrelles i líder del rànquing de l'App Store en Notícies i Revistes. El 2017, Weitzman va entrar a la llista Forbes 30 under 30 per la seva tasca fent internet més accessible per a persones amb dificultats d'aprenentatge. Cliff Weitzman ha aparegut a EdSurge, Inc., PC Mag, Entrepreneur, Mashable i altres mitjans destacats.

speechify logo

Sobre Speechify

El millor lector de text a veu

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.