精选推荐
了解照片文字转语音的基础知识——如何在任何移动或桌面设备和操作系统上拍摄页面并朗读。
照片文字转语音——如何拍摄页面并朗读
TTS 阅读器需求量大且供应充足。但这是否意味着所有文字转语音技术都能提供相同的性能?许多 TTS 屏幕阅读器可以处理来自 Microsoft Word 文档、HTML 网页或其他文本文件中复制粘贴的数字文本。但很少有能将图像中的锁定数字和物理文本转换为自然听感的叙述。那些可以做到的使用光学字符识别 (OCR)。
什么是 OCR?
OCR,即光学字符识别或文本识别,是一种专为数据提取而设计的技术。它在商业应用和休闲娱乐中有着广泛的用途。这种技术通常有两个组成部分。它有一个硬件部分用于扫描图像,还有一个软件部分用于提取和重新利用数据。但软件部分是最令人兴奋和复杂的。OCR 软件可以识别单个字母和整个单词,并将它们排列成句子。此外,它还允许用户编辑原始锁定内容,类似于编辑带有锁定文本内容的 PDF 文件。
OCR 的工作原理
实际的处理过程非常有趣。虽然存在其他双色方法,但 OCR 软件将物理文档转换为黑白数字副本。然后,OCR 应用程序分析图像中的深浅区域,知道深色区域代表字符。根据软件的复杂程度,它可以同时关注字符、单词或文本块。然后,软件使用特征识别或模式识别算法识别字符。特征检测算法使用更复杂的过程,包括线条和曲线关联以及 ASCII 代码转换。无论 OCR 应用程序的算法如何,它还会分析文档结构以区分文本、表格、图片和其他元素。这样,提取的只有文本。这项技术的主要好处是能够将平装小说、物理文档和纸质教科书的每一页转换为数字机器可读文本。这种先进的处理技术本身已经非常强大。它可以自动化数据输入流程并简化许多行业的工作流程。然而,当与人工智能 (AI) 和机器学习算法结合使用时,它提供了更多优势。支持 AI 的 OCR 可以超越标准文本处理,识别不同的语言、书写风格等。结合文字转语音技术,OCR 软件可以扫描物理文档,处理文本,并允许TTS 阅读器将该数字文本转换为语音。
文字转语音 OCR 的用途
结合 OCR 和 TTS 技术可以在各种场景中使信息更易获取和消费。以下是文字转语音 OCR 的一些用途:
- 辅助技术为视障人士服务:将书籍、文档或屏幕上的书面内容转换为口语,帮助视障或盲人“阅读”内容。
- 学习和教育:
- 为阅读障碍学生提供帮助:通过将书面文本转换为音频,帮助有阅读障碍的学生。
- 多模态学习:允许学习者同时阅读和聆听内容,提高理解和记忆。
- 翻译和语言学习:将书面外语文本转换为口语,帮助发音和理解。
- 数字内容消费:将书籍、新闻文章和其他印刷文本内容转换为有声书或播客,便于随时随地消费。
- 文档可访问性:使 PDF、扫描文档和其他不可编辑格式对需要或偏好音频内容的人可访问。
- 历史文档分析:将旧手稿或档案文档转换为音频内容,供研究人员或爱好者聆听历史文本。
- 商业和生产力:将打印的非数字报告转换为口语内容,供忙碌的专业人士使用。
- 校对:帮助作家或编辑通过聆听纸上内容来识别错误。
- 娱乐:将漫画书、图画小说或其他主要视觉媒体转换为听觉体验。
如何从图片中朗读文本
并不是每个苹果和安卓移动设备用户都知道他们的应用程序可能具有 OCR 技术和 TTS 阅读器,能够完成简单的文字转语音转换任务。可以将内置的 TTS 功能视为免费为您朗读的应用程序,或类似于从相机读取文本的免费应用程序,但其质量不如更高级的文字转语音软件。以下是在安卓和苹果设备上访问图像文本阅读器的方法:
安卓
Android设备,至少是运行Android 12及以上系统的设备,配备了内置的TTS阅读器。这是一个用于导航、阅读小字体等的实用工具。您还可以用它来读取图片中的文字。以下是设置设备的方法:
- 通过“设置”应用进入“辅助功能”菜单。
- 启用“选择朗读”选项。
- 进入TTS阅读器的“设置”选项卡,打开“读取图像上的文字”选项。
- 返回主屏幕并启动“相机”应用。
- 将相机对准书籍、报纸或其他带有数字文本的屏幕。
- 在“相机”应用中点击“选择朗读”按钮,然后点击一个单词。
TTS Android阅读器将从高亮显示的单词开始朗读。您可以像在文字处理器中一样,通过在屏幕上拖动手指来选择文本块。
苹果
使用iPhone朗读实体文本需要一个可用的相机、iOS 15及以上版本,并启用内置的TTS阅读器。
- 从“设置”菜单中进入“辅助功能”选项卡。
- 点击“朗读内容”功能。
- 启用“朗读选择”和“朗读屏幕”选项。
- 返回主屏幕并打开相机。
- 将相机对准页面,等待底部工具栏上出现“实时文本”按钮。
- 点击按钮以启用OCR屏幕阅读。
- 用两根手指向下滑动,从页面顶部开始阅读。
- 点击屏幕上的一个单词或进行选择,以朗读特定的单词、句子或段落。
与Android设备类似,iPad和iPhone的OCR和TTS功能有限。虽然文字处理的准确性高于平均水平,但由于声音的机械性质,语音质量令人失望。
Speechify—最佳TTS与OCR技术结合
虽然内置的TTS阅读器和OCR软件在移动设备上很不错,但它们的质量和性能不尽如人意。幸运的是,您有一个替代的文本阅读应用。Speechify是一款文本转语音阅读器,结合了OCR技术和高质量的AI生成语音。其功能超越了默认的移动文本阅读器,可以扫描整本书和实体文件,将实体文本处理成数字文本。然后,复杂的算法生成自然的语音,您可以根据需要控制和调整阅读速度。Speechify文本转语音软件可在以下平台使用:
无论您是从Apple App Store或Google Play Store获取,还是下载桌面Mac版本或Chrome浏览器扩展,一个许可证足以在所有桌面和移动设备上使用Speechify。用户友好的界面吸引了各个年龄段和技术背景的用户。Speechify的OCR扫描可用于实时在线阅读。或者,您可以将PDF文件、截图和其他图像转换为高比特率的音频文件,并在离线时以自己的节奏收听。Speechify的辅助技术专为有阅读障碍、视觉障碍和多任务处理需求的用户设计,功能远超典型的全屏阅读器。这是您想要将任何数字和实体文本转换为有声书、创建播客,并以更少的努力和更高的专注力提高阅读技能的应用程序。 试用免费的Speechify文本转语音应用,个性化沉浸式阅读体验。SEO标题:照片文本转语音——如何拍摄页面并让其朗读 SEO描述:了解照片文本转语音的基础知识——如何拍摄页面并在任何移动或桌面设备和操作系统上朗读。
Cliff Weitzman
Cliff Weitzman 是一位阅读障碍倡导者,也是全球排名第一的文字转语音应用Speechify的首席执行官和创始人,该应用在App Store新闻与杂志类中排名第一,拥有超过10万个五星好评。2017年,Weitzman因其在提高学习障碍人士网络可访问性方面的贡献,被评为福布斯30位30岁以下精英之一。Cliff Weitzman曾被EdSurge、Inc.、PC Mag、Entrepreneur、Mashable等知名媒体报道。