4 бесплатных онлайн-инструмента для распознавания текста

Если вы хотите преобразовать любой печатный текст в цифровой текст, который вы можете копировать, вставлять, редактировать и искать, вам необходимо использовать сканеры с оптическим распознаванием символов (OCR).

Когда вы решите отсканировать или сфотографировать документ, он будет сохранен в формате, таком как JPEG или PDF. Программное обеспечение OCR может распознавать буквы и цифры в этих документах и ​​преобразовывать их в PDF-файл с возможностью поиска.

или в файл, который вы можете редактировать в таких программах, как Microsoft Word.

Проблема в том, что некоторые сканеры OCR работают намного лучше, чем другие, причем самые лучшие из них довольно тяжелые для кошелька.

Например, Omnipage18 стоит 150 долларов, но особенно хорошо распознает разные языки. Adobe Acrobat Pro DC стоит потрясающих 400 долларов, но обладает невероятной точностью. ABBYY FineReader стоит 150 долларов, но отлично подходит для преобразования документов, таких как журналы и брошюры, в текст с возможностью поиска. Позже в этой статье мы будем тестировать онлайн-предложения ABBYY.

Однако, если вам нужны бесплатные альтернативы, которые вы можете загрузить и использовать в Windows или OS X, вы должны попробовать эти инструменты OCR

, Но если вы предпочитаете использовать бесплатный онлайн-инструмент для распознавания текста, продолжайте читать, как мы опробовали несколько лучших, с результатами ниже.

Тест

Кажется, что большинство людей теперь используют свои смартфоны, чтобы сделать их сканирование для них

Я решил использовать приложение Evernote Scannable (бесплатно для iOS и Android). Я отсканировал первую страницу книги Ричарда Докина «Восхождение на гору Невероятный», чтобы увидеть, какие результаты мы можем получить с очень простым форматированием. Я также отсканировал страницу 4-часового шеф-повара Тима Феррисса, чтобы опробовать сканеры с немного более сложным форматированием. Я сохранил каждый из этих файлов в формате PDF.

Тестирование OCR онлайн

Затем эти документы были просмотрены с помощью некоторых из предположительно лучших онлайн-инструментов OCR, чтобы увидеть, насколько хорошо они справились.

Бесплатный онлайн OCR

К счастью, для использования бесплатного онлайн-распознавания не требуется регистрация. И я был вдвойне впечатлен, когда увидел их заявление о сохранении форматирования и макета моего документа.

Бесплатный онлайн OCR

Сайт утверждает, что может поддерживать PDF, GIF, BMP, JPEG, TIFF и PNG в качестве входных данных. Выходными данными могут быть DOC, текстовый документ PDF, RTF и TXT. К сожалению, я не мог узнать, был ли у них предел размера файла.

Основной документ в PDF
Преобразован абсолютно идеально. Больше сказать нечего! Мы очень хорошо начали.

Основной документ для DOC
Фактические слова, кажется, безупречно преобразились, за исключением того, что «ount» от «Mount Rushmore» каким-то образом происходит самовольно. Форматирование — это отдельная история. Многие запятые были заменены подчеркиванием, а в точках по всему документу были вставлены случайные пробелы. Когда вы позже увидите, как в этом тесте показали себя премиум-программы, это вовсе не плохая работа.

Сложный документ в PDF
Преобразование документа заняло колоссальные 120 секунд! После завершения весь текст был конвертирован с точностью около 95%, хотя текст в отдельном поле в правом верхнем углу страницы был недоступен для поиска. Несколько других символов в PDF тоже были неверными.

Комплексный документ для DOC
На этот раз преобразование заняло всего 10 секунд, и текст снова был преобразован с точностью около 95%. Были некоторые странные проблемы с пробелами, и у программного обеспечения были проблемы с преобразованием шрифта в правом верхнем углу документа, и пропустили несколько символов здесь и там.

решение суда
Если вы хотите конвертировать просто отформатированные документы в PDF, это фантастический инструмент. С точки зрения преобразования в DOC, результаты не были чем-то особенным.

i2OCR

i2OCR делает некоторые впечатляющие заявления. Инструмент распознает более 60 языков, может обрабатывать многостолбцовые макеты (удаляя форматирование), не имеет ограничений на размер файла, может конвертировать загруженные файлы и из URL-адресов. И вам не нужно регистрироваться, чтобы использовать этот инструмент либо.

Сервис работает, просто извлекая текст из изображения, а затем выводя неформатированный текст. Вы можете быстро исправить любые ошибки в режиме параллельного просмотра перед копированием текста в другие программы или загрузкой в ​​формате DOC, PDF или HTML.

Примечание: когда я пытался загрузить свои документы PDF, они были отклонены i2OCR, поэтому мне нужно было преобразовать их в JPEG (сделав снимок экрана, а затем загрузив файлы).

Основной документ для простого текстаСнимок экрана 2016-02-11 в 12.30.28
Благодаря тому, как работает этот инструмент, все форматирование теряется, хотя преобразование из изображения в текст было почти идеальным. Были некоторые небольшие ошибки, такие как интервал между абзацами, и некоторые запятые были заменены точками, но это небольшие пробелы.

Сложный документ в простой текстСнимок экрана 2016-02-11 в 12.39.48
Большая часть текста была преобразована без особых ошибок, за исключением заголовка и рецепта в правом верхнем углу, что было невозможно прочитать для этого инструмента. Способ преобразования столбцов в простой текст был далеко не идеальным. Если вы хотите, чтобы это преобразование работало, потребуется много времени, чтобы перестроить строки в согласованные предложения.

решение суда
Для основных документов отлично работает i2OCR. Возможность редактировать текст перед загрузкой также очень приятный штрих. Однако для более сложных документов преобразование все еще довольно точное, но способ вывода текста не сделает вашу жизнь намного проще.

OCR онлайн

В настоящее время онлайновое распознавание текста поддерживает 46 различных языков и может конвертировать PDF, JPG, BMP, TIFF и GIF в формат Word, Excel или обычный текст. Сайт утверждает, что «преобразованные документы выглядят точно так же, как и оригиналы — таблицы, столбцы и графика».

Версия, которую вы можете использовать без регистрации, позволяет конвертировать до 15 изображений в час (ограничение 5 Мб). Если вы зарегистрируете учетную запись, вы сможете приобрести больше страниц сверх этого лимита, а также сможете конвертировать многостраничные документы и ZIP-архивы.

Результаты онлайн-распознавания

Основной документ для DOC
Основной документ безупречно преобразован, кроме римской цифры, которую я не взял. Как и обещал сайт, форматирование было именно таким, каким оно было в книге. Слава этому инструменту.

Комплексный документ для DOC
Будучи разочарованным предыдущими инструментами OCR при преобразовании сложного документа, я был очень впечатлен онлайн OCR. Расположение было почти идеальным, как вы можете видеть выше. Еще раз, хотя, рецепт не был взят слишком хорошо, но любые другие незначительные ошибки были незначительны.

решение суда

Абсолютно фантастические результаты онлайн-распознавания. Единственный недостаток, который я вижу, заключается в том, что невозможно конвертировать документы в формате PDF, поскольку упомянутые форматы вывода включают только DOCX, XLSX и TXT.

ABBYY FineReader Online (пробная версия на 10 страниц)

Как упоминалось ранее, ABBYY является одним из лидеров на рынке программного обеспечения для оптического распознавания символов, его полная загружаемая программа стоит около 150 долларов. Они предлагают 10-страничная бесплатная пробная версия для их онлайн-инструмента, хотя (требуется регистрация). Для подписки за 5 $ их онлайн-инструмент позволит вам конвертировать 200 страниц каждый месяц.

ABBYY FineReader Online

Принимаемые файлы могут иметь размер до 100 МБ в любом из следующих форматов: PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP и PNG. ABBYY также распознает почти 200 языков. Выходы особенно впечатляют, с выбором между DOCX, XLSX, RTF, TXT, PPTX, ODT, PDF, FB2 и EPUB.

Вы даже можете попробовать несколько функций BETA во время пробной версии. Первый — это возможность перевести ваш документ на другой язык. Другой способ — экспортировать конвертированный документ в вашу учетную запись облачного хранилища, будь то Dropbox, Google Drive, Evernote, Microsoft OneDrive или Box.

Основной документ для DOCX
Общие результаты были хорошими, но не удивительными, учитывая, что это продукт премиум-класса. Несколько запятых и точек поменялись местами, несколько кавычек были заменены звездочкой, пара заглавных букв отсутствовала, и одно слово (буквальный) было написано неправильно.

Сложный документ в DOCX
После преобразования в документе было очень мало ошибок (кроме распознавания текста, который снова боролся со шрифтом этого рецепта!), Но форматирование оставляло желать лучшего.

ABBYY Result

Три столбца каким-то образом занимают две страницы, а центральный столбец появляется только на второй странице. Если бы вы на самом деле хотели что-то сделать с этим преобразованным документом, вы бы в итоге вырвали свои волосы.

Основной документ в PDF
Просматривая конвертированный PDF-файл, я не смог найти никакой ошибки. Возможно, мы нашли, где ABBYY превосходит. Фантастические результаты.

Сложный документ в PDF
Опять же, я не смог найти никаких ошибок в этом преобразованном файле. ABBYY, очевидно, знает, как конвертировать в PDF исключительно хорошо.

решение суда
Если вы счастливы, заплатив несколько долларов, преобразование в PDF, кажется, феноменально хорошо работает с этим сервисом, и возможность синхронизации преобразованных файлов в облачное хранилище особенно полезна, если вы сканируете большой объем документов. Как и в случае с другими вариантами, ABBYY до сих пор не выяснил, как безупречно конвертировать документы в DOC для удобного редактирования.

Окончательный результат

Если, как и большинство людей, вы просто хотите отсканировать несколько журнальных статей и некоторые бытовые счета, вам не нужно будет редактировать эти документы. Поэтому для вас подойдет прямое преобразование в PDF, потому что вы все равно сможете искать эти документы. Для этого Free Online OCR определенно был лучшим бесплатным инструментом, который мы тестировали. При этом, если вы готовы платить 5 долларов в месяц за почти идеальное качество, ABBYY FineReader Online был немного более точным.

Когда дело дошло до конвертации документов в DOC, нам не удалось найти ни одного идеального решения, но, безусловно, наилучшие результаты были получены благодаря онлайн-распознаванию. Преобразование не было совершенным, но целостность форматирования была в основном сохранена, а ошибки были незначительными. Когда мы сравниваем эти результаты с «премиальным» предложением от ABBYY, вы не можете не быть впечатлены.

Мы не включили в это сообщение возможности распознавания Google Диска; немного за всеобщность Google, но больше за то, что мы хотели протестировать несколько других бесплатных онлайн-сервисов OCR.

Вам: какие другие инструменты онлайн-распознавания вы бы порекомендовали нашим читателям? И что вы пробовали, что вы никогда не будете использовать снова?

Ссылка на основную публикацию
Adblock
detector