1. 首页
  2. 语音 AI 助手
  3. 什么是 Sesame AI?
Published on 语音 AI 助手

什么是 Sesame AI?

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Speechify,您的 语音 AI 助手
文字转语音语音输入快速解答一应俱全。

apple logo2025 年苹果设计大奖
5000 万+ 用户

什么是 Sesame AI?

Sesame AI 是一家专注打造新一代对话语音系统的 AI 公司,让人工智能可以用自然对话的方式和人交流。 Sesame AI 致力于创造真正会“聊天”的个性化语音助手,帮助用户高效整理信息、获取答案并提升效率,交互体验更像在和真人说话,而不是在对着机器下指令。Sesame 展望的未来是:人与电脑像和朋友或同事一样自然对话,AI 能理解上下文、语气和对话节奏。

什么是 Sesame AI?

Sesame AI 由谁创立?

Sesame AI 由一支在机器学习、硬件和沉浸式计算等领域经验丰富的技术团队与创业者共同创立。其中最知名的领导者是 Brendan Iribe,他曾共同创办 Oculus VR,推动了现代虚拟现实硬件的发展。他与 Ankit Kumar、Ryan Brown、Angela Gayles 以及 Nate Mitchell 一起带领公司前进。此外,公司还获得了 Andreessen Horowitz、红杉资本、Spark Capital 和 Matrix Partners 等知名风投机构的支持。

Sesame AI 试图解决什么问题?

目前大多数语音助手距离自然、好聊的对话体验还有差距。虽然 SiriAlexa 能完成任务或回答问题,但常常情感单一、缺乏“聊天意识”,时间一长用户会觉得尴尬或疲惫。 Sesame AI 认为语音技术不能只“说话”,更要“像人”。为此,公司打造能识别情感语境、动态调节语气,并以自然节奏、鲜明个性进行对话的AI 声音,以突破这一瓶颈。

Sesame AI 的语音 AI 如何运作?

Sesame AI 的语音系统基于与现代大语言模型相近的架构。它包含一个大型神经网络骨干,用来理解语言和对话上下文,并配有专用音频解码器生成最终语音。骨干网络负责把握讲话含义、追踪上下文、理解情感与语境,解码器则专注于生成音调、节奏、语气等语音细节。通过直接从这些 token 生成语音,模型绕开了传统文本转语音流程的诸多限制,让输出的对话更有表现力、更“活”。

什么是 Sesame AI 的对话语音模型(CSM)?

Sesame AI 技术体系的核心,是对话语音模型(CSM)。传统文本转语音系统一般分两步:先生成文本,再把文本转成音频。而 Sesame 的模型直接依据对话上下文生成语音,使 AI 能实时调整语调、节奏和情感表达。模型同时处理语言和音频信号,可输出带有停顿、呼吸、语气助词等自然元素的语音,更贴近真人交流。

为何 Sesame AI 听起来更像人类?

Sesame AI 的语音更逼真,是因为系统能重现人类对话中的细微习惯。模型会根据情感语境动态调节语气和语速,加入口语化的停顿和语气词,模仿真实说话的节奏,还能记住并引用先前的内容,让对话连贯自然。

Sesame AI 所说的“语音感知”是什么?

Sesame AI 提到的“语音感知”,指的是通过语音交互带来真实、有温度的体验——AI 能真正听懂谈话内容,并做出情绪上合拍、语气上贴切的回应。要做到这一点,AI 不能只说得清楚,更要具备情感感知、时机拿捏、语境理解以及前后一致的“个性”。

Sesame AI 将赋能哪些设备?

Sesame AI 正在开发软硬件产品来承载其对话语音技术。重点之一是打造可在日常生活中陪伴用户的个人语音助手,帮忙整理信息、查找内容、管理日程和解答日常问题,同时保持自然顺畅的对话体验。公司也在探索集成 AI 的轻量级眼镜等可穿戴设备,可长时间佩戴,实现随身语音助手,并让 AI 与用户共同感知周围环境。

Sesame AI 是开源的吗?

Sesame AI 已通过开源其对话语音模型的小尺寸版本,将部分技术向社区开放。该 10 亿参数模型采用 Apache 2.0 协议,开发者可在 GitHub 的 SesameAILabs 仓库查看,并在 Hugging Face 下载,用于实验和扩展。此举让研究人员得以探索更先进的对话语音生成技术,同时遵守不得用于冒充、造假等滥用场景的伦理规范。

Sesame AI 如何训练?

为了让对话更接近真人,Sesame AI 使用了超大规模音频数据集进行训练。整个过程包含约一百万小时以英文为主的公开语音数据,并经过精细转录和切分,让 AI 同时学习“说什么”和“怎么说”。多样的说话风格、情绪语调和对话模式训练,使模型能捕捉人类交流中很多细腻的特征。

Sesame AI 可应用于哪些场景?

Sesame AI 的对话式 AI 助手可以通过语音交互帮助人们安排日程、解答复杂问题并提升工作与学习效率。企业可以用它打造会自然聊天的客服助手。教育平台则可部署对话式 AI 导师,实现互动教学。各类语音可穿戴设备也能借助它为用户提供情境提醒和实时辅助。

Sesame AI 的未来?

Sesame AI 希望推动一个“以语音为先”的人机交互时代。人们无需再输入命令或点击屏幕,而是直接开口与设备自然对话。当语音交互具备情感感知和对话智能时,就有望比传统界面更实用、更高效。尽管技术仍在演进中,Sesame AI 的研究正推动 AI 从单纯工具向数字伙伴升级。

Sesame AI 现在可以使用吗?

Sesame AI 暂未以完整消费级产品的形式大规模上市。公司已发布早期研究预览,用户可以体验 Maya 和 Miles 语音助手 Demo,直观感受对话语音模型的能力。同时,Sesame 也开源了小型语音模型 CSM-1B,供开发者和研究者试验并自建语音应用。但完整产品和硬件(如 AI 眼镜)仍在研发阶段,尚未正式面向大众。

Sesame AI 有哪些替代品?

SpeechifySesame AI 的优秀替代方案之一,它已经推出支持阅读、写作、检索和内容交互的语音 AI 助手。相比仍在打磨中的 Sesame AISpeechify 已支持文本转语音,拥有 200+ 真人语音和60+ 语言,包含多种名人声音,可朗读书籍、文档邮件网页。它还提供免费的语音输入功能,让用户在任意应用或网站中口述文本。内置的语音 AI 助手可以回答问题、与网页互动并进行完整对话;AI 播客可将文档或任意主题生成播客音频;AI 速记则能随时捕捉和整理想法。支持手机、桌面端、网页以及Chrome 插件Speechify 已是开箱即用的完整语音生产力平台。

常见问题解答

Sesame AI 与 Speechify 作为语音 AI 平台有何区别?

Sesame AI 更偏向实验性的对话语音助手,Speechify 则已经可以作为成熟的语音 AI 助手,用于阅读写作研究和学习。

Sesame AI 像 Speechify 一样面向消费者开放吗?

Sesame AI 仍处于开发阶段,而 Speechify 已广泛支持在手机、桌面端、网页和浏览器插件中使用。

日常使用哪平台效率更高,Sesame AI 还是 Speechify?

Speechify 更适合日常提升效率,因为它已经可以用语音帮你阅读、写作、检索信息并记录想法。

Sesame AI 和 Speechify 哪个平台功能更完整?

Speechify 集成了文本转语音语音输入AI 播客和 AI速记等功能,整体更完善、实用。

两者在语音优先工作流程上表现如何?

Speechify 支持完整的语音工作流,包括文本转语音语音输入和与语音 AI 助手的对话,而 Sesame AI 的对话语音助手仍在打磨中。

哪平台更适合收听文本内容?

Speechify 更合适,因为它能把文章PDF邮件和网页转成自然的真人语音播放。

用语音写作两者有何不同?

Speechify 支持用户在任意应用或网站中语音输入文本,而 Sesame AI 更聚焦在对话式交互体验本身。

哪平台支持语音驱动的检索?

Speechify 内置可答疑和讲解内容的语音 AI 助手,能够进行语音驱动的检索和查询。

学习方面两者有何差异?

Speechify 支持听力学习、AI 总结测验以及对话讲解,而 Sesame AI 主要专注在对话语音能力本身。

哪平台更快记录想法?

Speechify 可利用 AI速记高效将语音转为结构化笔记,随时捕捉灵感。

多任务效率两者如何?

Speechify 支持多任务处理,让用户一边听内容,一边口述记录想法。

哪平台对 ADHD 或阅读障碍用户更友好?

Speechify 已广泛用于无障碍场景,支持“听代读”和“说代打”,对 ADHD 或阅读障碍用户更友好。

音频内容创作两者有何区别?

Speechify 可通过AI 播客文档和笔记转为音频内容,而Sesame AI 主要发力在对话语音生成本身。

体验业界领先的 AI 语音、无限文件支持和 24/7 客服

免费试用
tts banner for blog

分享此文

Cliff Weitzman

Cliff Weitzman

Speechify 首席执行官兼创始人

Cliff Weitzman 是一位阅读障碍倡导者,也是 Speechify 首席执行官兼创始人。Speechify 是全球排名第一的文字转语音应用,累计收获逾 100,000 条五星好评,并在 App Store 的“新闻与杂志”分类中位居第一。2017 年,因致力于提升互联网对学习障碍人群的可及性,Weitzman 入选福布斯“30 位 30 岁以下精英”(Forbes 30 Under 30)榜单。其事迹曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等主流媒体报道。

speechify logo

关于 Speechify

No.1 文字转语音阅读器

Speechify 是全球领先的文字转语音平台,深受超过 5000 万用户信赖,并在其文字转语音 iOSAndroidChrome 扩展网页版应用Mac 桌面端应用上,收获超过 50 万条五星好评。2025 年,Apple 授予 Speechify 备受业界瞩目的 苹果设计大奖,并在 WWDC 盛会上称其为“帮助人们更好生活的重要资源”。Speechify 提供 1000+ 自然音色、60+ 种语言支持,服务覆盖近 200 个国家/地区。明星声音包括 Snoop DoggGwyneth Paltrow。面向创作者和企业用户,Speechify Studio 提供强大工具,包括 AI 语音生成器AI 语音克隆AI 配音和高阶AI 变声器。Speechify 还通过高品质、低成本的文字转语音 API赋能行业领先产品。Speechify 被众多主流媒体报道,包括《华尔街日报》CNBC福布斯TechCrunch等,现已成为全球最大的文字转语音服务提供商。更多信息请访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多。