TTS 朗读器需求量大、选择众多。但这是否意味着所有 文字转语音 技术的效果都一样?许多TTS屏幕阅读器可以处理来自Microsoft Word文档、HTML网页或其他文本文件中复制粘贴的数字文本。但能把图片里的受限数字文本和纸质文本转成自然语音的产品却不多。具备此功能的,通常采用光学字符识别(OCR)技术。

什么是OCR?
OCR,即光学字符识别或文字识别,是一种专为数据提取设计的技术,在商务和日常娱乐等场景中都有广泛应用。它通常包含两部分:硬件用于扫描图像,软件则负责提取并再次利用数据。而软件才是其中最复杂也最有看头的部分。OCR软件可以单独识别字母和完整的单词,并将其组织成句子。此外,它还能让用户编辑本来“锁定”的内容,就像编辑PDF中的受限文本一样。
OCR的工作原理
光学字符识别(OCR)是一种将各种文档类型(如扫描的纸质文档、PDF文件或用数码相机拍摄的图像)转换为可编辑和可搜索数据的技术。处理流程大致是:OCR软件先分析文档图像的结构,检测包含文字的区域,再把这些区域拆分成行、单词和字符。每个字符都会与预设的模式进行比对,或通过机器学习模型进行识别,从而转换为机器可读文本。完成转换后,图像中的文字就能像普通数字文本一样进行编辑、搜索和处理。
文字转语音与OCR结合
将光学字符识别与文字转语音技术结合,可以打造更强大的工具,大幅提升无障碍性和效率。OCR能从扫描文档、图片或印刷材料中提取文本,转换为机器可读文本,再把这些文字输入TTS系统,实现从文字到语音的转换。这种组合的应用非常广泛,例如帮助视障人士“阅读”印刷资料,将书籍和文档转换为有声读物,或为印刷的外文文本提供实时语音翻译。通过把OCR与TTS结合,用户能更灵活地与文本内容互动,让信息对所有人——无论是普通读者还是视障人士——都更容易获取。
文字转语音OCR的应用场景
将OCR和TTS技术结合,可以在各种场景下让信息获取和内容消费变得更加轻松、便捷。以下是文字转语音OCR的一些典型应用:
- 视障辅助技术:将书籍、文档或屏幕上的文字内容转为语音,帮助视障或盲人“听”内容。
- 学习与教育:
- 为阅读障碍学生提供帮助:将文字转为音频,方便有阅读障碍(如阅读障碍症)或其他阅读困难的学生学习。
- 多模态学习:让学习者既能阅读又能收听内容,提升理解和记忆效果。
- 翻译和语言学习:将外语文本转为语音,帮助练习发音、加深理解。
- 数字内容消费:把书籍、新闻文章等印刷文本转化为有声读物或播客,方便随时随地收听。
- 文档无障碍访问:让PDF、扫描文档及其他不可编辑格式,对需要或偏好音频内容的人来说更易获取。
- 历史文献分析:将旧手稿或档案文献转换为音频,方便研究者或历史爱好者通过收听了解历史文本。
- 商务与效率提升:把纸质、非数字报告转为语音,为忙碌的职场人士提供更省时的选择。
- 校对:通过“听”纸质内容,帮助作家或编辑更容易发现文字错误。
- 娱乐:把漫画、图像小说或以视觉为主的媒介转化为听觉体验。
如何从一张图片中朗读文字
并不是每一位苹果和安卓用户都知道,自家设备其实可能已经内置了OCR技术和TTS朗读器,可以完成基础的文字转语音功能。内置TTS功能相当于免费的语音朗读应用,或者通过摄像头免费读取文字的应用,不过效果通常不如专业的文字转语音软件。下面分别介绍在安卓和苹果设备上如何通过图片使用文字朗读功能:
安卓
安卓设备(至少运行安卓12及以上系统)都配备了内置TTS朗读器,这是一个用于导航、阅读小字体等的实用工具。当然,你也可以用它实现图片文字朗读。具体设置步骤如下:
- 通过“设置”应用进入“辅助功能”菜单。
- 启用“选择朗读”选项。
- 进入TTS朗读器的“设置”标签,开启“读取图片上的文字”功能。
- 返回主屏幕,打开“相机”应用。
- 将相机对准一本书、报纸或有数字文本的屏幕。
- 在“相机”应用中点击“选择朗读”按钮,再点选一个单词。
安卓TTS朗读器会从你高亮的那个单词开始朗读。你可以像在文字处理软件中那样,用手指拖动屏幕选择多段内容,让其连续朗读。
苹果
在iPhone上朗读纸质文字,你需要一部摄像头正常工作的手机、iOS 15及以上系统,并开启内置的TTS朗读功能。
- 通过“设置”菜单进入“辅助功能”标签。
- 点击“朗读内容”功能。
- 启用“朗读所选内容”和“朗读屏幕”功能。
- 返回主屏幕,打开摄像头。
- 对准页面,等待底部工具栏出现“实况文本”按钮。
- 点击该按钮以启用OCR屏幕朗读。
- 用两根手指从屏幕顶部向下滑动,从页面顶部开始朗读。
- 在屏幕上点选单词或选择句子、段落,只朗读你想听的部分。
和安卓设备类似,iPad和iPhone的OCR和TTS功能也比较有限。虽然识别文字的准确度还不错,但语音听起来更像机器人,说话生硬不够自然。
Speechify——TTS与OCR结合的最佳方案
虽然移动设备上的内置TTS朗读器和OCR软件使用方便,但在音色和功能上往往差强人意。好在你还有其他阅读类应用可以选择。Speechify是一款文字转语音阅读器,将OCR技术与高品质AI语音相结合,功能远超默认的移动文字朗读器,可扫描整本书或纸质文档并将纸面文字转为数字文本。之后,系统会通过复杂算法生成自然流畅的语音,你还可以根据自己的习惯调整朗读速度。Speechify文字转语音软件支持以下平台:
无论你是在苹果App Store、谷歌Play商店获取,还是下载桌面Mac版或Chrome浏览器扩展版,只需一份授权,即可在所有桌面和移动设备上使用Speechify。界面友好、上手简单,各年龄段及不同技术水平的用户都能轻松使用。Speechify还支持实时在线OCR扫描并朗读。
Speechify的辅助技术不仅适用于阅读障碍者、视障用户和需要一心多用的人群,更是远远超出了传统全屏阅读器的范畴。它可以轻松将任何数字或纸质文本转为 有声读物,制作播客,提升阅读效率,让你事半功倍、更容易集中注意力。 试用免费的 Speechify 文字转语音应用,打造属于你的沉浸式阅读体验。Speechify还上线了在线 AI语音生成器,随时输入文字即可体验多种声音。

