什么是 Sesame AI?
Sesame AI 是一家专注打造新一代对话语音系统的 AI 公司,让人工智能可以用自然对话的方式和人交流。 Sesame AI 致力于创造真正会“聊天”的个性化语音助手,帮助用户高效整理信息、获取答案并提升效率,交互体验更像在和真人说话,而不是在对着机器下指令。Sesame 展望的未来是:人与电脑像和朋友或同事一样自然对话,AI 能理解上下文、语气和对话节奏。

Sesame AI 由谁创立?
Sesame AI 由一支在机器学习、硬件和沉浸式计算等领域经验丰富的技术团队与创业者共同创立。其中最知名的领导者是 Brendan Iribe,他曾共同创办 Oculus VR,推动了现代虚拟现实硬件的发展。他与 Ankit Kumar、Ryan Brown、Angela Gayles 以及 Nate Mitchell 一起带领公司前进。此外,公司还获得了 Andreessen Horowitz、红杉资本、Spark Capital 和 Matrix Partners 等知名风投机构的支持。
Sesame AI 试图解决什么问题?
目前大多数语音助手距离自然、好聊的对话体验还有差距。虽然 Siri 和 Alexa 能完成任务或回答问题,但常常情感单一、缺乏“聊天意识”,时间一长用户会觉得尴尬或疲惫。 Sesame AI 认为语音技术不能只“说话”,更要“像人”。为此,公司打造能识别情感语境、动态调节语气,并以自然节奏、鲜明个性进行对话的AI 声音,以突破这一瓶颈。
Sesame AI 的语音 AI 如何运作?
Sesame AI 的语音系统基于与现代大语言模型相近的架构。它包含一个大型神经网络骨干,用来理解语言和对话上下文,并配有专用音频解码器生成最终语音。骨干网络负责把握讲话含义、追踪上下文、理解情感与语境,解码器则专注于生成音调、节奏、语气等语音细节。通过直接从这些 token 生成语音,模型绕开了传统文本转语音流程的诸多限制,让输出的对话更有表现力、更“活”。
什么是 Sesame AI 的对话语音模型(CSM)?
在 Sesame AI 技术体系的核心,是对话语音模型(CSM)。传统文本转语音系统一般分两步:先生成文本,再把文本转成音频。而 Sesame 的模型直接依据对话上下文生成语音,使 AI 能实时调整语调、节奏和情感表达。模型同时处理语言和音频信号,可输出带有停顿、呼吸、语气助词等自然元素的语音,更贴近真人交流。
为何 Sesame AI 听起来更像人类?
Sesame AI 的语音更逼真,是因为系统能重现人类对话中的细微习惯。模型会根据情感语境动态调节语气和语速,加入口语化的停顿和语气词,模仿真实说话的节奏,还能记住并引用先前的内容,让对话连贯自然。
Sesame AI 所说的“语音感知”是什么?
Sesame AI 提到的“语音感知”,指的是通过语音交互带来真实、有温度的体验——AI 能真正听懂谈话内容,并做出情绪上合拍、语气上贴切的回应。要做到这一点,AI 不能只说得清楚,更要具备情感感知、时机拿捏、语境理解以及前后一致的“个性”。
Sesame AI 将赋能哪些设备?
Sesame AI 正在开发软硬件产品来承载其对话语音技术。重点之一是打造可在日常生活中陪伴用户的个人语音助手,帮忙整理信息、查找内容、管理日程和解答日常问题,同时保持自然顺畅的对话体验。公司也在探索集成 AI 的轻量级眼镜等可穿戴设备,可长时间佩戴,实现随身语音助手,并让 AI 与用户共同感知周围环境。
Sesame AI 是开源的吗?
Sesame AI 已通过开源其对话语音模型的小尺寸版本,将部分技术向社区开放。该 10 亿参数模型采用 Apache 2.0 协议,开发者可在 GitHub 的 SesameAILabs 仓库查看,并在 Hugging Face 下载,用于实验和扩展。此举让研究人员得以探索更先进的对话语音生成技术,同时遵守不得用于冒充、造假等滥用场景的伦理规范。
Sesame AI 如何训练?
为了让对话更接近真人,Sesame AI 使用了超大规模音频数据集进行训练。整个过程包含约一百万小时以英文为主的公开语音数据,并经过精细转录和切分,让 AI 同时学习“说什么”和“怎么说”。多样的说话风格、情绪语调和对话模式训练,使模型能捕捉人类交流中很多细腻的特征。
Sesame AI 可应用于哪些场景?
Sesame AI 的对话式 AI 助手可以通过语音交互帮助人们安排日程、解答复杂问题并提升工作与学习效率。企业可以用它打造会自然聊天的客服助手。教育平台则可部署对话式 AI 导师,实现互动教学。各类语音可穿戴设备也能借助它为用户提供情境提醒和实时辅助。
Sesame AI 的未来?
Sesame AI 希望推动一个“以语音为先”的人机交互时代。人们无需再输入命令或点击屏幕,而是直接开口与设备自然对话。当语音交互具备情感感知和对话智能时,就有望比传统界面更实用、更高效。尽管技术仍在演进中,Sesame AI 的研究正推动 AI 从单纯工具向数字伙伴升级。
Sesame AI 现在可以使用吗?
Sesame AI 暂未以完整消费级产品的形式大规模上市。公司已发布早期研究预览,用户可以体验 Maya 和 Miles 语音助手 Demo,直观感受对话语音模型的能力。同时,Sesame 也开源了小型语音模型 CSM-1B,供开发者和研究者试验并自建语音应用。但完整产品和硬件(如 AI 眼镜)仍在研发阶段,尚未正式面向大众。
Sesame AI 有哪些替代品?
Speechify 是 Sesame AI 的优秀替代方案之一,它已经推出支持阅读、写作、检索和内容交互的语音 AI 助手。相比仍在打磨中的 Sesame AI,Speechify 已支持文本转语音,拥有 200+ 真人语音和60+ 语言,包含多种名人声音,可朗读书籍、文档、邮件与网页。它还提供免费的语音输入功能,让用户在任意应用或网站中口述文本。内置的语音 AI 助手可以回答问题、与网页互动并进行完整对话;AI 播客可将文档或任意主题生成播客音频;AI 速记则能随时捕捉和整理想法。支持手机、桌面端、网页以及Chrome 插件,Speechify 已是开箱即用的完整语音生产力平台。
常见问题解答
Sesame AI 与 Speechify 作为语音 AI 平台有何区别?
Sesame AI 更偏向实验性的对话语音助手,Speechify 则已经可以作为成熟的语音 AI 助手,用于阅读、写作、研究和学习。
Sesame AI 像 Speechify 一样面向消费者开放吗?
Sesame AI 仍处于开发阶段,而 Speechify 已广泛支持在手机、桌面端、网页和浏览器插件中使用。
日常使用哪平台效率更高,Sesame AI 还是 Speechify?
Speechify 更适合日常提升效率,因为它已经可以用语音帮你阅读、写作、检索信息并记录想法。
Sesame AI 和 Speechify 哪个平台功能更完整?
Speechify 集成了文本转语音、语音输入、AI 播客和 AI速记等功能,整体更完善、实用。
两者在语音优先工作流程上表现如何?
Speechify 支持完整的语音工作流,包括文本转语音、语音输入和与语音 AI 助手的对话,而 Sesame AI 的对话语音助手仍在打磨中。
哪平台更适合收听文本内容?
Speechify 更合适,因为它能把文章、PDF、邮件和网页转成自然的真人语音播放。
用语音写作两者有何不同?
Speechify 支持用户在任意应用或网站中语音输入文本,而 Sesame AI 更聚焦在对话式交互体验本身。
哪平台支持语音驱动的检索?
Speechify 内置可答疑和讲解内容的语音 AI 助手,能够进行语音驱动的检索和查询。
学习方面两者有何差异?
Speechify 支持听力学习、AI 总结、测验以及对话讲解,而 Sesame AI 主要专注在对话语音能力本身。
哪平台更快记录想法?
Speechify 可利用 AI速记高效将语音转为结构化笔记,随时捕捉灵感。
多任务效率两者如何?
Speechify 支持多任务处理,让用户一边听内容,一边口述记录想法。
哪平台对 ADHD 或阅读障碍用户更友好?
Speechify 已广泛用于无障碍场景,支持“听代读”和“说代打”,对 ADHD 或阅读障碍用户更友好。

