文本转语音(TTS)方案已成为辅助技术的关键,帮助无数PC用户更轻松地“读”文本,不论是娱乐、学习还是工作场景。
TTS市场如今竞争激烈,可选的应用和浏览器插件五花八门。大多数都很实用,能显著提升效率和使用体验。今天就来重点聊聊微软的TTS方案——Azure。

什么是微软文本转语音?
那么,Azure到底是什么?换句话说:你是否想用自然流畅的合成语音制作内容,或让自己爱看的网页“读”给你听?还能自定义语速、语调、发音等参数?这些微软Azure都能帮你搞定,而且远不止于此。
Azure是一个功能强大的云平台。除了Azure认知服务带来的出色文本转语音和语音转文本方案外,还可以借助Azure的云存储与分析能力提升效率,无需掌握复杂的机器学习知识。
Azure兼容多种开源工具,灵活度很高。你可以把语音合成功能集成进自己的应用,让目标用户轻松享受深度机器学习带来的优势。Azure还支持100多种语言和变体,足以覆盖绝大多数场景。
如何在iPhone或电脑上使用微软文本转语音应用
在你的设备上配置微软Azure非常简单,只需在Azure官网按提示走几步即可注册。如果你只用Outlook、Word、PowerPoint、Docs和OneNote,则无需单独安装,因为这些软件中都内置了名为“朗读”的语音合成功能。
虽然“朗读”算不上顶级语音服务,但在需要时非常好用,而且设置起来极其简单:
- 点击“自定义工具栏”
- 选择“更多命令”
- 点击“所有命令”
- 找到“朗读”,点击后点“添加”
微软文本转语音应用的替代方案
前面提到,如今的文本朗读工具可谓应有尽有,从昂贵的专业软件到Github上的语音识别SDK一应俱全。若微软文本转语音助手不太对你的胃口,或者你想多试试别的选择,下面几款替代方案都值得一试。
Speechify
第一位是Speechify,一款顶级TTS工具,可将网站、网页、谷歌文档、论文,甚至照片里的文字,通过OCR功能转成音频。支持iOS、安卓、网页、Mac、Windows、Chrome扩展和文本转语音API。
此外,Speechify提供1,000多种富有情感的AI语音,覆盖60多种语言,还包括名人语音。配合强大的文本转语音API,几乎可以满足各种使用场景。
Amazon Polly
第二位是Amazon Polly,以自然语音和多样说话风格见长,支持多种语言,神经文本转语音技术可满足多种自定义设定,播放效果更逼真。
Google Cloud Text to Speech
第三位是Google Cloud文本转语音。谷歌一直走在技术前沿,在TTS领域同样表现亮眼。该方案支持按字符计费的SSML,非常适合一次性项目,高效又省钱。
IBM Watson Text to Speech
第四位是IBM Watson。Watson以其在企业环境下的多样性脱颖而出,可用作虚拟助手、客服系统和文本转语音工具。此外价格相对亲民,灵活度高,是不错的选择。
Readspeaker
第五位是老牌Readspeaker,拥有近25年经验,把TTS打磨到近乎“艺术”的水准。支持100多种语言,适合语音工作室和在线教育场景,也支持离线使用。
NaturalReader
第六位是NaturalReader。这款应用在实时语音合成方面表现出色,兼容PC上大部分软件。它的“阅读模式”可以去除广告等多余内容,显著提升阅读体验。
VoiceDream Reader
第七位是VoiceDream Reader,作为今天介绍的最后一个微软Azure文本转语音替代方案。它适合处理一些简单任务,但不少用户反映可访问性和同步体验一般。如果你只需要一个临时解决方案,VoiceDream也能派上用场。
常见问题
Windows 10 TTS免费吗?
Windows 10提供了多种TTS方案,有些免费,有些收费。内置的“朗读”功能可在Outlook和Word等软件中使用,完全免费。如果你需要定制AI语音等高级能力,比如使用微软Azure,则需额外订阅。
最逼真的TTS语音是什么?
目前较为逼真的TTSAI语音多见于Amazon Polly、Google文本转语音API和Speechify等高级工具。真实感主要取决于所选语言、语音模型以及具体设置。
文本转语音和语音识别有何区别?
许多TTS程序同时具备文本转语音和语音识别功能,但两者并不一样。文本转语音是把文字变成音频,方便你解放双手,用“听”的方式获取信息;语音识别则用来分析人声,帮助识别或转写说话内容。

