Содержание
Честно говоря, мне бы хотелось знать об этом простом способе использования свободно доступного программного обеспечения для распознавания текста еще в школьные годы. Конечно, у нас не было мобильных телефонов с камерой или недорогих цифровых камер, но это не сэкономило бы часы копирования заметок!
Ах, современные технологии прекрасны; возьмите отсканированное изображение (или сделайте снимок с помощью мобильной камеры / Digicam), и программа Presto — OCR извлекает всю информацию из изображения в легко редактируемый текстовый формат.
Оптическое распознавание символов (OCR) представляет собой систему преобразования отсканированных печатных / рукописных файлов изображений в машиночитаемый текстовый формат. Программное обеспечение OCR работает, анализируя документ и сравнивая его со шрифтами, хранящимися в его базе данных, и / или отмечая особенности, характерные для символов. Некоторое программное обеспечение для распознавания текста также проверяет орфографию, чтобы «угадать» нераспознанные слова. Трудно достичь 100% точности, но большинство программ стремятся к близкому приближению.
Может быть, вы уже сталкивались с нашим предыдущим Как извлечь текст из изображений (OCR)
опубликовать и использовать JOCR, бесплатный инструмент для распознавания текста. Или вы могли бы установить свои предпочтения для нескольких инструментов онлайн-распознавания. Опять же, если вы придумали способы использования программного обеспечения для оптического распознавания символов для повышения производительности, то позвольте нам дать вам еще несколько инструментов для игры.
Мы рассмотрим 5 бесплатных программ для распознавания текста и начнем с того, что посмотрим на два из них, которые уже установлены в наших системах.
OCR с использованием Microsoft OneNote 2007
Для случайных базовых функций оптического распознавания функция распознавания символов в MS OneNote позволяет сэкономить время. Вы могли пропустить это; это называется Копировать текст с картинки.
- Перетащите отсканированное изображение или сохраненное изображение в OneNote. Вы также можете использовать OneNote для закрепления части экрана или изображения в OneNote.
- Щелкните правой кнопкой мыши на вставленной картинке и выберите Копировать текст с картинки. Скопированный оптически распознанный текст попадает в буфер обмена, и теперь вы можете вставить его в любую программу, такую как Word или Блокнот.
OneNote — это персонифицированная простота. Но это не слишком хорошо для рукописных или даже нечетких персонажей. Но для быстрой работы, я — за клип и вставку OneNote.
OCR с использованием Microsoft Office Document Imaging
Еще один малоиспользуемый инструмент в семействе Microsoft. Это прямо под Меню> Microsoft Office> Инструменты Microsoft Office> Отображение документов Microsoft Office.
Выполнение OCR с использованием инструмента формирования изображений документа немного ограничивает, потому что он принимает только форматы TIFF (или MDI). Но это не так уж и сложно, поскольку любое графическое приложение можно использовать для преобразования изображения в формат TIFF. На скриншоте ниже я использовал MS Paint для преобразования JPEG в TIFF.
- Откройте файл в Визуализация документов Microsoft Office> Файл> Открыть.
- Нажмите маленький значок глаза: Распознать текст с помощью OCR.
- Нажмите на значок MS Word —Отправить текст в Word.
- Файл MS Word открывается с редактируемым преобразованным текстом.
- Кроме того, вы также можете использовать MS Paint, чтобы выбрать конкретную область и скопировать ее в буфер обмена. открыто MS Office Document Imaging > выберите Страница — Вставить страницу скопировать выбор для OCR.
Опять же, MODI обрабатывал печатный текст умело, но мой рукописный текст был встречен с подсказкой «OCR выполнено, но не смог распознать текст». Конечно, попробуйте с вашим собственным почерком.
Итак, теперь давайте оставим семью Microsoft и рассмотрим три бесплатных инструмента, которые называют себя OCR Software.
SimpleOCR
Трудность, с которой я столкнулся при распознавании рукописного ввода с использованием инструментов MS, могла бы найти решение в SimpleOCR. Но программное обеспечение предлагает распознавание рукописного ввода только в качестве 14-дневной бесплатной пробной версии. У машинного распознавания отпечатков нет никаких ограничений.
- Программное обеспечение можно настроить для чтения непосредственно со сканера или путем добавления страницы (форматы jpg, tiff, bmp).
- SimpleOCR предлагает некоторый контроль над преобразованием посредством выделения текста, выбора изображения и функций игнорирования текста.
- Преобразование в текст превращает процесс в Проверка этап; пользователь может исправить несоответствия в преобразованном тексте, используя встроенную проверку орфографии.
- Преобразованный файл может быть сохранен в формате doc или txt.
SimpleOCR был в порядке с обычным текстом, но его обработка многостолбцовых макетов была неудачей. На мой взгляд, точность преобразования инструментов Microsoft была значительно выше, чем у SimpleOCR.
SimpleOCR (v3.1) загружается на 9 МБ и совместим с Windows.
TopOCR
Как раз то, о чем я говорил в начале! TopOCR, в отличие от типичного программного обеспечения для оптического распознавания символов, больше предназначен для цифровых камер (не менее 3 Мп) и мобильных телефонов, а также для сканеров. Как и SimpleOCR, он имеет интерфейс с двумя окнами — источник Образ окно и Текст окно.
Изображение, полученное с камеры или сканера в левом окне, преобразуется в текстовый формат в текстовом редакторе справа. Текстовый редактор работает как WordPad и может использовать Microsoft Текст в речь двигатель.
- Программное обеспечение поддерживает форматы JPEG, TIFF, GIF и BMP.
- Настройки изображения, такие как яркость, цвет, контрастность, разрешение пятен, резкость и т. Д., Могут использоваться для улучшения читабельности изображения.
- Настройки фильтра камеры также можно настроить для улучшения изображения.
- Преобразованный файл может быть сохранен в различных форматах:PDF, RTF, HTML а также текст.
- TopOCR хорошо работает с текстом с прямой ориентацией, но обычный сбой распознавания текста с колонным текстом остается.
- Программное обеспечение, тем не менее, хорошо разбирает смешанную страницу (текст плюс графика) и обрабатывает только текст.
- Программное обеспечение работает с 11 языками.
Для получения наилучших результатов с вашей камерой читайте там Как получить лучшие результаты с помощью TopOCR.
TopOCR (v3.1) загружается 8 МБ и совместима с Windows (не тестировалась в Vista).
FreeOCR
Это бесплатное программное обеспечение OCR использует Тессеракт OCR двигатель. Код Tesseract OCR был разработан в лабораториях HP между 1985 и 1995 годами и в настоящее время работает в Google. Он считается одним из самых точных доступных механизмов распознавания текста с открытым исходным кодом.
FreeOCR — это простой интерфейс Windows для этого базового кода.
- Он поддерживает большинство файлов изображений и многостраничных файлов TIFF.
- Он может работать с форматами PDF, а также совместим с такими устройствами TWAIN, как сканеры.
- FreeOCR также имеет знакомый интерфейс двойного окна с простыми для понимания настройками.
- Перед началом процесса преобразования в один клик вы можете отрегулировать контрастность изображения для лучшей читаемости.
FreeOCR (v.2.03) требует Microsoft Net 2.0 Framework. Совместимое с Windows XP / Vista 4.38 МБ программное обеспечение также можно загрузить с этого альтернативного сайта.
Бесплатные инструменты OCR имеют свои ограничения. А сканирование страницы во многом зависит от разрешения, контрастности и четкости шрифтов. С точки зрения обычного пользователя, точность 100% оптического распознавания символов остается безоговорочным
,
Бесплатное программное обеспечение для распознавания текста, которое я бы выбрал
Хотя бесплатные инструменты были адекватны печатному тексту, они не справились с обычным рукописным текстом. Мое личное предпочтение в использовании неформального распознавания текста связано с двумя продуктами Microsoft, которые я упоминал в начале.
Ваше собственное мнение имеет значение. Какой ваш инструмент выбора? Распознает ли бесплатное программное обеспечение OCR то, через что вы прошли? И что еще более важно, вы узнаете, что они отбрасывают на вас? Дайте нам знать!
Обратите внимание, что если вы ищете профессиональные результаты, вам нужно попробовать профессиональное программное обеспечение OCR
, такой как Nuance OmniPage.
Имиджевый кредит: kalleboo