1. 首页
  2. API
  3. Speechify 文字转语音 API 如何支持 SSML
API

Speechify 文字转语音 API 如何支持 SSML

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

Speechify API提供300ms延迟、人类质量的声音和50多种语言

2025年苹果设计奖
超过5000万用户
用Speechify收听这篇文章!
speechify logo

Speechify 文字转语音 (TTS) API 处于可定制语音技术的前沿,提供对 语音合成标记语言 (SSML) 的强大支持。此高级功能使开发人员能够通过代码直接打造精细调整的语音表现,增强数字文本的传递效果,具有精确的语调、节奏和情感深度。在本文中,我们探讨 Speechify 文字转语音 API 如何利用 SSML 将普通文本转化为丰富、富有表现力的语音输出,使各个行业的应用能够提供更自然和吸引人的用户体验。

Speechify 文字转语音 API 概述

Speechify 文字转语音 API 是一个强大的工具,可以将书面文本转化为逼真的语音。利用先进的神经网络和机器 学习 技术,该 API 能够生成听起来自然且引人入胜的语音。它支持多种语言和方言,提供从男性到女性的多样化语音选项,确保在不同用户群体中具有广泛的吸引力。这种灵活性使 Speechify 文字转语音 API 成为开发人员将文字转语音功能集成到应用程序、网站或任何互动服务中的绝佳选择,确保无缝和包容的用户体验。

什么是 SSML?

语音合成标记语言 (SSML) 是一种基于 XML 的重要标记语言,开发人员用来指示 文字转语音 系统如何将书面文本转换为语音。 SSML 允许指定语音的各种方面,如音调、速度、音量和发音,从而实现更受控和精确的输出,可以模仿人类的语调和节奏。这项技术在语音的语气和细微差别对沟通效果至关重要的场景中尤其有用,例如教育内容、互动响应或讲故事。

SSML 在增强文字转语音中的作用

通过整合 SSML ,增强了 文字转语音技术,提供了以前基本 文字转语音 系统无法实现的细微操控工具。这种增强支持更自然的对话流,并可以根据特定情境需求调整语音输出,例如为戏剧效果添加停顿或调整语速以匹配听众的处理速度。 SSML文字转语音 技术中的作用标志着在缩小人类与计算机生成语音之间差距方面的重大进步,使数字互动更具亲和力和易于理解。

Speechify 如何支持 SSML

Speechify 文字转语音 API 致力于提供卓越的听觉体验,并支持 SSML 来丰富 文字转语音 转换过程。通过采用 SSML,Speechify 允许开发者微调音频输出,以更好地满足不同项目的特定需求。这种支持包括调整语音的动态,如语调和重音,这对于传达更多情感和意图至关重要。 Speechify 文字转语音 APISSML 功能确保最终用户获得精致且目标明确的聆听体验,这可以显著提升应用程序的可用性和乐趣。

使用 SSML 在 Speechify 中的好处

使用 SSML Speechify 文字转语音 API 提供了众多优势,包括: 

  • 定制化: SSML 广泛定制语音输出以适应应用程序的上下文或目的,提供更个性化的用户体验。
  • 增强用户参与度: SSML 通过动态的语音互动吸引用户,语音清晰、易懂且令人愉悦。
  • 无障碍 改进: SSML文字转语音 使技术更具可访问性,提升所有用户的整体可用性,尤其是那些有障碍的用户。
  • 提高效率: SSML 提高了在语音质量和清晰度至关重要的应用程序中的沟通效果。

Speechify 文字转语音 API 的 SSML 基础 

Speechify 文字转语音 API 集成了强大的 语音合成标记语言 工具,以增强和控制语音输出,使数字互动听起来更逼真和吸引人。通过掌握这些 SSML 技巧,您可以显著增强 文字转语音 应用程序的表现力和效果。无论是用于 无障碍、娱乐还是教育,SSML 提供了使数字互动听起来更具人性化和吸引力的工具。以下是基础知识:

SSML 中的转义字符

为了确保 SSML 代码被解析器正确解释,文本中的特定字符必须进行转义。这可以防止它们被误认为是标记语法。以下是常见字符及其转义等价物:

  • 和号 (&) 变为 &
  • 大于号 (>) 变为 >
  • 小于号 (<) 变为 &lt;
  • 双引号 (") 变为 &quot;
  • 撇号 (') 变为 &apos;

示例:转换包含特殊字符的行:

const escapeSSMLChars = (text: string) =>

  text

    .replaceAll('&', '&amp;')

    .replaceAll('<', '&lt;')

    .replaceAll('>', '&gt;')

    .replaceAll('"', '&quot;')

    .replaceAll('\'', '&apos;')

例如,将文本:Some "text" with 5 < 6 & 4 > 8 in it 转换为:<speak>Some &quot;text&quot; with 5 &lt; 6 &amp; 4 &gt; 8 in it</speak>

语音表现力

SSML 允许操控语音的音调、速度和音量,提供丰富的听觉体验:

  1. 音调:从超低(x-low)到超高(x-high)调整音调,或设置特定百分比以微调音高。
  2. 速度:控制语音的快慢,从超慢(x-slow)到超快(x-fast),或通过特定百分比精确调整速度。
  3. 音量:设置从静音到超响(x-loud)的音量,或通过分贝或百分比调整以适应语音的上下文。

示例:

<speak>

    这是正常的语音模式。

    <prosody pitch="high" rate="fast" volume="+20%">

        我正在以更高的音调、更快的速度和更大的音量说话!

    </prosody>

    回到正常的语音模式。

</speak>

语音停顿和强调

SSML 标签如 <break> 和 <emphasis> 对于使语音听起来更自然和富有表现力至关重要:

  • 停顿:插入指定强度或时长的停顿以强调要点或分隔语音中的部分。
  • 强调:增加或减少词语的强调程度,以传达情感或重要性,增强听众的参与感。

<speak>

    有时在句子末尾添加较长的停顿会很有用。

    <break strength="medium" />

    或者 <break time="100ms" /> 有时在 <break time="1s" /> 中间。

</speak>

高级语音控制

Speechify 还有一个专有标签 <speechify:style>,可以调整语音的情感和节奏,使语音更具亲和力和影响力。

示例:

<speak>

    <speechify:style emotion="angry" cadence="fast">

        你能问我多少次这个问题?

    </speechify:style>

</speak>

使用 Speechify 实现 SSML

开发者可以通过以下步骤将 SSML 与 Speechify 的 API 集成:

  1. 环境设置:配置您的开发环境以支持HTTP请求。
  2. API认证:从Speechify获取API密钥,并将其包含在请求头中。
  3. 编写SSML内容:设计您的SSML脚本以满足应用程序的特定语音需求。
  4. 发送API请求:将SSML脚本嵌入POST请求中并发送到Speechify API端点。
  5. 处理响应:检索并处理音频输出,确保其符合应用程序的标准。

Speechify文本转语音API的SSML使用案例

Speechify文本转语音API的SSML功能在定制语音以满足特定需求和情境方面至关重要,改变了数字通信的听觉体验。事实上,以下是Speechify API中SSML的多样性如何在各种应用中展示:

  1. 无障碍: SSML 对于创建帮助视力障碍或阅读困难用户的无障碍技术至关重要。
  2. 在线学习平台: SSML 通过使用不同的语调和重音来增强教育内容,保持学生的参与度。
  3. 虚拟助手: SSML 使虚拟互动更接近人类交流,提高用户满意度。
  4. 有声书: SSML 使用不同的声音和情感语调使故事栩栩如生。
  5. 客户服务机器人: SSML 使用定制化的回应提供更清晰和愉快的客户互动,减少误解并提高服务质量。
  6. 语言学习工具: SSML 通过强调发音和帮助听力理解来辅助语言教育。
  7. 公共公告: SSML 确保在嘈杂或公共环境中信息传达清晰有效。
  8. 电子游戏: SSML 通过动态对话能力增加角色深度。
  9. 播客制作: SSML 促进创作多样且吸引听众的音频内容。
  10. 医疗沟通: SSML 使用平和和安抚的语调与患者沟通。
  11. 导航系统: SSML 增强对关键方向的清晰度和强调。
  12. 电话系统: SSML 通过自然的语音选项改善交互式语音应答(IVR)系统。
  13. 多媒体演示: SSML 通过专业的旁白提升演示质量。
  14. 智能家居设备: SSML 集成更具响应性和直观的语音互动。

开发者的最佳SSML实践 

无论您是在制作交互式语音应答、有声书,还是虚拟助手,了解如何有效使用SSML可以显著提升您的语音合成项目的质量和效果。以下是开发者的一些最佳实践:

  • 尝试不同的SSML标签,以发现最适合您使用场景的设置。
  • 根据用户反馈定期更新和优化SSML脚本,以提高语音输出的质量和效果。
  • 确保SSML标签正确嵌套并符合XML标准,以避免处理错误。

结论

通过支持SSML的细致功能,Speechify让开发者能够在各种应用中创造更丰富、更具人性化的语音体验。无论是通过精确控制音调、速度和音量,还是通过实现情感和节奏调整的高级标签,API确保每个发出的词不仅被听到,还能被感受到。将SSML与Speechify强大的TTS技术相结合,不仅拓宽了语音应用的范围,还加深了数字内容的可访问性,使其成为开发者在语音数字交互领域创新的不可或缺的工具。

常见问题

Speechify文本转语音API支持SSML吗?

是的,Speechify文本转语音API完全支持语音合成标记语言SSML),以增强语音输出的表现力和定制化。

SSML代表什么?

SSML代表语音合成标记语言,这是一种标准化的标记语言,允许开发者控制合成语音的音调、速度和语气等方面。

SSML如何提升文本转语音的效果?

SSML通过使语音输出更自然,并根据特定的上下文和用户需求进行定制,提升了文本转语音的效果。

SSML的重要性是什么?

SSML的重要性在于它能够提供对合成语音的细致控制,提高了在各种应用中口语文本的清晰度和吸引力。

我可以在哪里了解更多关于Speechify文本转语音API的SSML信息?

您可以通过访问Speechify官方网站上的API文档和资源,了解更多关于Speechify文本转语音APISSML功能及其实现方法。

通过API快速、可扩展且对开发者友好地访问Speechify的受欢迎声音

获取API访问
api access banner

分享这篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

Cliff Weitzman 是一位阅读障碍倡导者,同时也是 Speechify 的首席执行官和创始人。Speechify 是全球排名第一的文字转语音应用,拥有超过 10 万条五星好评,并在 App Store 的新闻与杂志类别中名列前茅。2017 年,Weitzman 因其在帮助学习障碍人士更好地使用互联网方面的贡献,被评为福布斯 30 岁以下 30 人榜单之一。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒体报道。

Choose your language to get the best Speechify experience