Как перевести графический файл в текстовый. Преобразование изображения JPEG в текст в MS Word

Как перевести изображение в текст

Быстро печатать и за короткое время переносить в комп текст с картонного носителя могут далековато не все. Но в самых различных целях людям нередко требуется перенести печатный текст в комп – и для этого источники с текстом сканируют, опосля что их можно применять в электронном виде в графическом формате изображения. Таковой формат имеет ряд недочетов – вы обязаны распознавать буковкы на изображении, которые не постоянно различаются четкостью и ясностью. Не считая того, отсканированный текст нереально скопировать – ежели для вас захочется скопировать какой-нибудь отрывок, для вас придется перепечатывать его вручную.
Есть ряд методов, позволяющих быстро перевести отсканированное изображение в текстовый формат и упростить процесс определения текстов. Для определения отсканированного текста существует особая программа – ABYY Finereader.
С помощью данной нам программы вы просто можете конвертировать любые графические и PDF-форматы в текстовые файлы, которые в свою очередь могут быть просто написаны с малой растратой чернил либо тонера в принтере. ABYY Finereader способен распознавать тексты, написанные фактически хоть какими шрифтами всех размеров; в неких вариантах, когда часть текста остается нераспознанной, вы сможете допечатать отдельные буковкы, ориентируясь на сканированный документ. Пользоваться данной для нас програмкой и применить ее по назначению сумеет каждый юзер ПК – она проста в обращении и довольно эффективна.
Также есть еще один способ конвертации изображений в текстовый формат – для этого можно применять пакет Microsoft Office 2003. Текст, отсканированный в формате TIFF, откройте в приложении Microsoft Office Document Imaging. Найдите на панели инструментов программы клавишу «Отправить текст в Microsoft Word» и нажмите ее. Все, что программа сумеет считать и распознать, будет перенесено в новейший документ Microsoft Word.
  • как перевести печатный текст
Читайте также  Как зарядить планшет через usb от ноутбука. Можно ли заряжать планшет через USB от компьютера
Новые советы от КакПросто
  • Как фото может попортить жизнь
    Мы нередко фотографируемся на разных событиях, стараемся подобрать прекрасную одежду, увлекательный фон. Для аватарки в…
  • 6 новогодних книжек, которые погрузят в атмосферу праздника
  • Как связать подушечку спицами в стиле пэчворк
  • Как связать пятку «бумеранг» носка спицами
  • Как связать "прямую" пятку носка спицами
  • Все статьи

Как pdf (изображения) преобразовать в текстовый txt-файл

Yanovets2 ноября 2016 в 15:40

Вы скажете, что самый обычный метод — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш вариант. Файл pdf — итог сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.

Предлагаемый вариант решения реализован под Windows-8, но с маленькими корректировками, думаю, полностью может быть применен для Linux и OS X.
С задачей преобразования изображения в текст управляются Abbyy FineReader, MS Word, MS OneNote. Есть также веб-сайты, на которых изображение можно преобразовать в online: http://www.ocrconvert.com
Предлагаемое решение употребляет бесплатные утилиты. В приоритете также была работа в командной строке.

Преобразование всех страниц pdf в файлы изображений

Ежели бы страниц было 2-3, то можно было бы пользоваться функцией PrintScreen. В Windows для этого есть отдельная кнопка на клавиатуре. А в Mac OS X — хитрецкая композиция клавиш: необходимо надавить три клавиши Shift+Command+4, выбрать мышкой подходящий участок экрана, и находить получившийся файл на рабочем столе. Но ежели страниц много, то необходимо находить иной способ.

К счастью, есть программа StduViewer, которая дозволяет это сделать. В меню Файл → Экспортировать → Как изображение. В появившемся окне избираем тип PNG, разрешение 300 dpi, задаем путь, куда выложить получившиеся файлы изображений. В шаблоне имени сохраняемого файла стоит поменять %PN% на %0PN% для варианта, ежели страниц больше 10.

Читайте также  Принтер печатает черный цвет полосами. Почему принтер печатает полосами

kolgrim99 предложил для конвертации pdf-документа в jpg-файлы утилиту из пакета xpdf, которую можно применять в командной строке. Вот его предложение:
<<Если стоит задачка просто выпотрошить большой PDF файл со сканами (или хоть какими иными картинками), то можно употреблять утилиту из набора xpdf, там куча всего, но для картинок нужна pdfimages.exe. Синтаксис приблизительно такой:

pdfimages.exe -j some_file.pdf C:images

причём в крайнем аргументе в конце пути непременно ставить ”, по другому не воспримет.>>

Преобразование файлов изображений страниц в текст

HP разработала, а Google открыла начальные коды библиотек tesseract, преобразовывающих изображения в текст (OCR). Устанавливаем програмку tesseract-ocr.
Для определения российского языка при установке необходимо в «Additional language data» взвести галочку для Russian.

В командной строке исполняем команды типа:

Получаем текстовые файлы. Можно запустить команду для каждой страницы вручную. Проще выполнить скрипт на python’е:

Вышла кучка текстовых файлов, которые осталось объединить в один. Это можно сделать ручками. Но проще было написать скриптик на python’е:

На этом можно было бы окончить, т.к. в основном текст вышел полностью читабельным, но местами в тексте образовалась масса оЧЕпЯток.
К примеру, картина с текстом

преобразовалась в нечто такое:

управление действием моделирования, в том числе посредствомвременного прерывания, промежного сохранения и повторного запускапроцесса моделирования из приостановленного состояния, задания различныхначальных критерий, введа отказов бортовых систем, метеоусловий, временисуток, разных возмущающих причин (ветер, турбулентность и др.);

Потому возник последующий этап.

Исправление ошибок в тексте

Воспользуемся програмкой LanguageTool. Нас интересует работа в командной строке, потому скачиваем «независимую версию». Для работы с LanguageTool требуется Java.

Запускал из родного каталога (на Windows-8.1 оно почему-либо не захотело работать, ежели текущий каталог — чужой) и указывал полные имена файлов (с каталогом). Ежели в командной строке выполнить команду, к примеру, такую:

Читайте также  Как скопировать текст с сайта в папку. Как из Интернета скопировать текст, картинку, видео или другой файл

… то запустится доборная консолька, где честно напишет help и благополучно закроется в течение секунды. Чтоб созидать, чего же же оно пишет в консоль, необходимо запускать командный bat-файла с данной нам строчкой снутри. Может быть, у java есть ещё какой-нить параметр командной строчки, чтоб не запускалась доп. консоль, но мне сие неведомо.

Команда исправления ошибок в текстовом файле вышла такая:

Чтоб отключить исправление малеханьких букв на огромные в начале строк возникли доп характеристики –disablecategories CASING, а заместо имени файла — %1, чтоб имя передавать вовнутрь bat-файла в качестве аргумента. Итого, строчка в bat-файле вышла такая:

По аргументу -u в конец исправленного текстового файла добавляется строчка «Unknown words:» с перечислением через запятую всех слов, которые LanguageTool не знает. Таковым образом, можно сделать лучше текст, исправив некорректные слова из этого списка.

Был применен Python 3.5 и PyCharm.
Спасибо за внимание!

Теги:
Хабы:
  • 60
Реклама

AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее

Оставьте комментарий