1. 首页
  2. 无障碍访问
  3. 照片文字转语音——如何拍摄页面并朗读
无障碍访问

照片文字转语音——如何拍摄页面并朗读

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

#1 文字转语音阅读器。
让Speechify为您朗读。

2025年苹果设计奖
超过5000万用户
用Speechify收听这篇文章!
speechify logo

TTS 阅读器需求量大且供应充足。但这是否意味着所有 文字转语音 技术都能提供相同的性能?许多 TTS 屏幕阅读器可以处理来自 Microsoft Word 文档、HTML 网页或其他文本文件中复制粘贴的数字文本。但很少有能将图像中的锁定数字和物理文本转换为自然听感的叙述。那些能够做到的使用了光学字符识别 (OCR)。

什么是 OCR?

OCR,即光学字符识别或文本识别,是一种专为数据提取而设计的技术。它在商业应用和休闲娱乐中有着广泛的用途。这种技术通常有两个组成部分。它有一个硬件部分用于扫描图像,还有一个软件部分用于提取和重新利用数据。但软件组件是最令人兴奋和复杂的部分。OCR 软件可以识别单个字母和整个单词,并将它们排列成句子。此外,它使用户能够编辑原始锁定内容,类似于编辑带有锁定文本内容的 PDF 文件。

OCR 的工作原理

光学字符识别 (OCR) 是一种将不同类型的文档,如扫描的纸质文档、PDF 文件或数码相机拍摄的图像,转换为可编辑和可搜索数据的技术。该过程始于 OCR 软件分析文档图像的结构,检测包含文本的区域。然后将这些区域分割成行、单词和字符。每个字符与一组预定义的模式进行比较,或通过机器学习模型进行训练,以识别并转换为机器编码文本。这种转换使图像中的文本可以被编辑、搜索和数字化处理。

结合文字转语音和 OCR

将光学字符识别与文字转语音技术结合,创造出一种强大的工具,提升了可访问性和效率。OCR 从扫描文档、图像或印刷材料中提取文本,并将其转换为机器可读文本。然后,这些文本可以输入到 TTS 系统中,将书面文字转换为语音音频。这种协同作用允许广泛的应用,例如帮助视障人士“阅读”印刷材料,将书籍和文档转换为有声读物,或提供印刷外文文本的实时音频翻译。通过将 OCR 与 TTS 集成,用户可以更动态地与文本内容互动,使信息对所有人更易获取,无论他们的阅读能力或视力障碍如何。

文字转语音 OCR 的用途

结合 OCR 和 TTS 技术在各种场景中开辟了许多可能性,使信息更易获取和消费。以下是文字转语音 OCR 的一些用途:

  • 辅助技术为视障人士服务:将书籍、文档或屏幕上的书面内容转换为语音,帮助视障或盲人“阅读”内容。
  • 学习和教育:
    • 帮助阅读障碍学生:通过将书面文本转换为音频,帮助有阅读障碍的学生。
    • 多模态学习:允许学习者同时阅读和聆听内容,提高理解和记忆。
  • 翻译和语言学习:将书面外语文本转换为语音,帮助发音和理解。
  • 数字内容消费:将书籍、新闻文章和其他印刷文本内容转换为有声读物或播客,便于随时随地消费。
  • 文档可访问性:使 PDF、扫描文档和其他不可编辑格式对需要或偏好音频内容的人可访问。
  • 历史文档分析:将旧手稿或档案文档转换为音频内容,供研究人员或爱好者聆听历史文本。
  • 商业和生产力:将印刷的非数字报告转换为语音内容,供忙碌的专业人士使用。
  • 校对:帮助作家或编辑通过聆听纸上书面内容来识别错误。
  • 娱乐:将漫画书、图画小说或其他主要视觉媒体转换为听觉体验。

如何从图片中朗读文本

并不是每个苹果和安卓手机用户都知道,他们的应用程序可能具备OCR技术和TTS阅读器,能够完成简单的文本转语音转换任务。内置的TTS功能就像是免费的应用程序,可以为你朗读,或者像是从相机读取文本的免费应用程序,但其质量不如更高级的文本转语音软件。以下是在安卓和苹果设备上如何从图像访问文本阅读器的方法:

安卓

安卓设备,至少是运行安卓12操作系统及以上的设备,配备了内置的TTS阅读器。这是一个用于导航、阅读小字体等的有用工具。你也可以用它来读取图片中的文本。以下是设置设备的方法:

  • 通过“设置”应用进入“辅助功能”菜单。
  • 启用“选择朗读”选项。
  • 进入TTS阅读器的“设置”选项卡,打开“读取图像上的文本”选项。
  • 返回主屏幕并启动“相机”应用。
  • 将相机对准书籍、报纸或其他带有数字文本的屏幕。
  • 在“相机”应用中点击“选择朗读”按钮,然后点击一个单词。

TTS安卓阅读器将从高亮显示的单词开始朗读。你可以像使用文字处理器一样,通过在屏幕上拖动手指来选择文本块。

苹果

使用iPhone朗读实体文本需要一个正常工作的相机、iOS 15及以上版本,并启用内置的TTS阅读器。

  • 从“设置”菜单中进入“辅助功能”选项卡。
  • 点击“朗读内容”功能。
  • 启用“朗读选择”和“朗读屏幕”选项。
  • 返回主屏幕并打开相机。
  • 将相机对准页面,等待底部工具栏上出现“实时文本”按钮。
  • 点击按钮以启用OCR屏幕阅读。
  • 用两根手指向下滑动,从页面顶部开始阅读。
  • 点击一个单词或在屏幕上选择一段文字,以朗读特定的单词、句子或段落。

与安卓设备类似,iPad和iPhone的OCR和TTS功能有限。虽然文字处理的准确性高于平均水平,但由于其机械化的声音,语音质量令人失望。

Speechify—最佳的TTS与OCR技术结合

虽然内置的TTS阅读器和OCR软件在移动设备上很不错,但它们的质量和性能不够令人满意。幸运的是,你有一个替代的文本阅读应用。Speechify是一款文本转语音阅读器,结合了OCR技术和高质量的AI语音。其功能超越了默认的移动文本阅读器,可以扫描整本书和实体文件,将实体文本处理成数字文本。然后,复杂的算法生成自然的语音,你可以根据需要控制和调整阅读速度。Speechify文本转语音软件可在以下平台使用:

无论你是从苹果应用商店还是谷歌应用商店获取,或是下载桌面Mac版本或Chrome浏览器扩展,一个许可证足以在所有桌面和移动设备上使用Speechify。用户友好的界面适合所有年龄段和技术背景。Speechify的OCR扫描可用于实时在线阅读。

Speechify 的辅助技术专为有阅读障碍、视觉障碍和多任务处理需求的用户设计,不仅仅是一个普通的全屏阅读器。它是您想要将任何数字和实体文本转换为有声书的应用程序,创建播客,并以更少的努力和更高的专注力提高您的阅读技能。试用免费的 Speechify文字转语音应用程序,个性化沉浸式阅读体验。Speechify 还提供在线AI 语音生成器,允许您使用任何输入的文本亲自测试其语音。

享受最先进的AI语音、无限文件和全天候支持

免费试用
tts banner for blog

分享这篇文章

Cliff Weitzman

Cliff Weitzman

Speechify 的首席执行官/创始人

Cliff Weitzman 是一位阅读障碍倡导者,同时也是 Speechify 的首席执行官和创始人。Speechify 是全球排名第一的文字转语音应用,拥有超过 10 万条五星好评,并在 App Store 的新闻与杂志类别中名列前茅。2017 年,Weitzman 因其在帮助学习障碍人士更好地使用互联网方面的贡献,被评为福布斯 30 岁以下 30 人榜单之一。Cliff Weitzman 曾被 EdSurge、Inc.、PC Mag、Entrepreneur、Mashable 等知名媒体报道。

speechify logo

关于Speechify

#1 文字转语音阅读器

Speechify 是全球领先的 文字转语音 平台,受到超过5000万用户的信赖,并在其文字转语音 iOSAndroidChrome 扩展网页应用Mac 桌面 应用中获得超过50万条五星好评。2025年,苹果公司授予 Speechify 备受瞩目的 苹果设计奖,称其为“帮助人们生活的重要资源”。Speechify 提供超过1000种自然语音,支持60多种语言,用户遍布近200个国家。名人语音包括 Snoop DoggMr. BeastGwyneth Paltrow。对于创作者和企业,Speechify Studio 提供高级工具,包括 AI 语音生成器AI 语音克隆AI 配音,以及其AI 语音变声器。Speechify 还通过其高质量、经济实惠的 文字转语音 API 为领先产品提供支持。曾被 华尔街日报CNBC福布斯TechCrunch 等主要新闻媒体报道,Speechify 是全球最大的文字转语音提供商。访问 speechify.com/newsspeechify.com/blogspeechify.com/press 了解更多信息。