1. Главная
  2. Доступность
  3. Фото текст в речь — Как сделать снимок страницы и прослушать его
Social Proof

Фото текст в речь — Как сделать снимок страницы и прослушать его

Speechify — аудиочиталка номер один в мире. Читайте книги, документы, статьи, PDF, электронные письма — всё, что вы читаете, быстрее.

Упоминается в

forbes logocbs logotime magazine logonew york times logowall street logo
Прослушать статью с помощью Speechify!
Speechify

Узнайте основы преобразования фото текста в речь — как сделать снимок страницы и прослушать его на любом мобильном или настольном устройстве и операционной системе.

TTS чтецы пользуются большим спросом и широко доступны. Но означает ли это, что вся технология преобразования текста в речь обеспечивает одинаковую производительность? Многие TTS чтецы экрана могут обрабатывать цифровой текст из документов Microsoft Word, HTML-страниц или скопированных слов из других текстовых файлов. Но немногие из них могут преобразовать заблокированный цифровой и физический текст из изображений в естественно звучащее повествование. Те, которые могут, используют оптическое распознавание символов (OCR).

Что такое OCR?

OCR, известное как оптическое распознавание символов или распознавание текста, — это технология, предназначенная для специализированного извлечения данных. Она имеет множество бизнес-приложений и широко используется в досуге и развлечениях. Этот тип технологии обычно имеет два компонента. Это аппаратный элемент для сканирования изображений и программный элемент для извлечения и повторного использования данных. Но программный компонент является самым захватывающим и сложным. Программное обеспечение OCR может выделять отдельные буквы и целые слова и организовывать их в предложения. Кроме того, оно позволяет пользователям редактировать оригинальный заблокированный контент, аналогично редактированию PDF-файла с заблокированным текстом.

Как работает OCR

Оптическое распознавание символов (OCR) — это технология, которая преобразует различные типы документов, такие как отсканированные бумажные документы, PDF-файлы или изображения, снятые цифровой камерой, в редактируемые и доступные для поиска данные. Процесс начинается с анализа структуры изображения документа программным обеспечением OCR, которое обнаруживает области, содержащие текст. Затем эти области сегментируются на строки, слова и символы. Каждый символ сравнивается с набором предопределенных шаблонов или обучается с помощью моделей машинного обучения для идентификации и преобразования в машинный текст. Это преобразование позволяет редактировать, искать и обрабатывать текст на изображении в цифровом виде.

Сочетание текста в речь и OCR

Сочетание оптического распознавания символов с технологией преобразования текста в речь создает мощный инструмент, который повышает доступность и эффективность. OCR извлекает текст из отсканированных документов, изображений или печатных материалов и преобразует его в машиночитаемый текст. Этот текст затем может быть передан в систему TTS, которая преобразует написанные слова в аудио. Это взаимодействие позволяет использовать широкий спектр приложений, таких как помощь людям с нарушениями зрения в "чтении" печатных материалов, преобразование книг и документов в аудиокниги или предоставление аудиопереводов печатных иностранных текстов в реальном времени. Интегрируя OCR с TTS, пользователи могут более динамично взаимодействовать с текстовым контентом, делая информацию более доступной для всех, независимо от их способности к чтению или нарушений зрения.

Применение OCR для текста в речь

Сочетание технологий OCR и TTS открывает множество возможностей для того, чтобы сделать информацию более доступной и удобной в различных сценариях. Вот несколько применений OCR для текста в речь:

  • Ассистивные технологии для людей с нарушениями зрения: Преобразует письменный контент из книг, документов или экранов в устную речь, помогая людям с нарушениями зрения или слепым "читать" контент.
  • Обучение и образование:
    • Помощь для студентов с дислексией: Помогает студентам с дислексией или другими трудностями в чтении, преобразуя письменный текст в аудио.
    • Мультимодальное обучение: Позволяет учащимся как читать, так и слушать контент, улучшая понимание и запоминание.
  • Перевод и изучение языков: Преобразует письменный текст на иностранном языке в устную речь, помогая в произношении и понимании.
  • Потребление цифрового контента: Преобразует книги, новостные статьи и другие печатные тексты в аудиокниги или подкасты для прослушивания на ходу.
  • Доступность документов: Делает PDF-файлы, отсканированные документы и другие нередактируемые форматы доступными для людей, которые предпочитают или нуждаются в аудиоконтенте.
  • Анализ исторических документов: Преобразует старые рукописи или архивные документы в аудиоконтент для исследователей или энтузиастов, которые хотят слушать исторические тексты.
  • Бизнес и производительность: Преобразует печатные недигитальные отчеты в устный контент для занятых профессионалов.
  • Корректура: Помогает писателям или редакторам выявлять ошибки в письменном контенте на бумаге, прослушивая его.
  • Развлечения: Преобразует комиксы, графические романы или другие в основном визуальные медиа в аудиовосприятие.

Как читать текст вслух с картинки

Не каждый пользователь мобильных устройств Apple и Android знает, что их приложения могут иметь технологию OCR и TTS-ридер, способный выполнять простые задачи по преобразованию текста в речь. Рассматривайте встроенные функции TTS как приложения, которые будут читать вам бесплатно, или как бесплатное приложение, которое читает текст с камер, однако их качество не так хорошо, как у более продвинутого программного обеспечения для преобразования текста в речь. Вот как получить доступ к текстовому ридеру с изображений на устройствах Android и Apple:

Android

Устройства Android, по крайней мере те, которые работают на ОС Android 12 и выше, имеют встроенный TTS-ридер. Это полезный инструмент для навигации, чтения мелкого шрифта и т.д. Но вы также можете использовать его для чтения текста с изображений. Вот как настроить ваше устройство:

  • Перейдите в меню «Специальные возможности» через приложение «Настройки».
  • Включите опцию «Выбор для озвучивания».
  • Перейдите на вкладку «Настройки» TTS-ридера и включите опцию «Чтение текста на изображениях».
  • Вернитесь на главный экран и запустите приложение «Камера».
  • Направьте камеру на книгу, газету или другой экран с цифровым текстом.
  • Нажмите кнопку «Выбор для озвучивания» перед тем, как нажать на слово в приложении «Камера».

TTS-ридер Android начнет озвучивать с выделенного слова. Вы можете выделять фрагменты текста, проводя пальцем по экрану, как при использовании текстового редактора.

Apple

Для чтения физического текста вслух с помощью iPhone требуется работающая камера, iOS 15 и выше, а также включение встроенного TTS-ридера.

  • Перейдите на вкладку «Специальные возможности» в меню «Настройки».
  • Нажмите на функцию «Озвучивание контента».
  • Включите опции «Озвучивание выделенного» и «Озвучивание экрана».
  • Вернитесь на главный экран и включите камеру.
  • Направьте камеру на страницу и дождитесь появления кнопки «Живой текст» на нижней панели инструментов.
  • Нажмите кнопку, чтобы включить чтение экрана с помощью OCR.
  • Проведите двумя пальцами вниз, чтобы начать чтение с верхней части страницы.
  • Нажмите на слово или выделите текст на экране, чтобы прочитать вслух конкретное слово, предложение или абзац.

Как и устройства Android, iPad и iPhone имеют ограниченные возможности OCR и TTS. Хотя точность обработки текста выше среднего, качество голоса оставляет желать лучшего из-за его роботизированного характера.

Speechify — лучший TTS с технологией OCR

Хотя встроенные TTS-ридеры и программное обеспечение OCR полезны на мобильных устройствах, их качество и производительность оставляют желать лучшего. К счастью, у вас есть альтернатива для чтения текста. Speechify — это ридер текста в речь, который сочетает в себе технологию OCR и высококачественные AI-голоса. Его функциональность превосходит стандартные мобильные текстовые ридеры и может сканировать целые книги и физические документы, чтобы преобразовать физический текст в цифровой. Затем сложные алгоритмы генерируют естественно звучащие голоса, которые вы можете контролировать и настраивать под желаемую скорость чтения. Программное обеспечение Speechify для преобразования текста в речь доступно на следующих платформах:

Независимо от того, скачаете ли вы его из Apple App Store или Google Play Store, или загрузите настольную версию для Mac или расширение для браузера Chrome, одной лицензии достаточно, чтобы использовать Speechify на всех ваших настольных и мобильных устройствах. Удобный интерфейс привлекает пользователей всех возрастов и технических уровней. Сканирование OCR Speechify доступно для чтения в реальном времени онлайн.

Разработано для пользователей с дислексией, нарушениями чтения, слабовидящих и многозадачных людей, вспомогательные технологии Speechify делают больше, чем обычный экранный чтец. Это приложение, которое вы хотите использовать, чтобы превратить любой цифровой и физический текст в аудиокнигу, создавать подкасты и улучшать свои навыки чтения с меньшими усилиями и большей концентрацией. Попробуйте бесплатное приложение Speechify для преобразования текста в речь и персонализируйте погружающий опыт чтения. У Speechify также есть онлайн генератор голосов на базе ИИ, который позволяет вам протестировать его голоса с любым текстом, который вы введете.

Cliff Weitzman

Клифф Вайцман

Клифф Вайцман — защитник прав людей с дислексией, генеральный директор и основатель Speechify, ведущего в мире приложения для преобразования текста в речь, с более чем 100 000 отзывов на 5 звезд и первым местом в App Store в категории «Новости и журналы». В 2017 году Вайцман был включен в список Forbes «30 до 30» за его вклад в повышение доступности интернета для людей с нарушениями обучения. Клифф Вайцман был упомянут в таких изданиях, как EdSurge, Inc., PC Mag, Entrepreneur, Mashable и других ведущих СМИ.