Разработка решения для управления документооборотом: как мы выбирали OCR библиотеку для наших задач

30 Августа, 2017

автор Serge V.

document management Разработка решения для управления документооборотом: как мы выбирали OCR библиотеку для наших задач

5/5 - (3 голоса)

Нам нужно было улучшить документооборот в нашей компании, в первую очередь — увеличить скорость обработки бумажных документов. Для этого мы решили разработать программное решение на базе одной из OCR (optical character recognition) библиотек.

OCR, или оптическое распознавание текста, представляет собой механическое или электронное преобразование изображений напечатанного текста в машинный. OCR — это способ оцифровки печатного текста, чтобы он мог быть в электронном виде сохранен, отредактирован, отображен и применен в таких машинных процессах как когнитивные вычисления, машинный перевод и интеллектуальный анализ данных.

Кроме того, OCR используется как метод ввода информации из бумажных документов (включая финансовые записи, визитные карточки, счета-фактуры и многое другое).

Прежде чем реализовывать само приложение, мы провели тщательный анализ трех наиболее популярных OCR библиотек с целью определить наиболее подходящий вариант для решения наших задач.

Мы проанализировали три наиболее популярные OCR библиотеки:

— Google Text Recognition API

— Tesseract

— Anyline

Google Text Recognition API

Google Text Recognition API — это процесс обнаружения текста в изображениях и видео потоках и распознавания содержащегося в нем текста. После обнаружения распознаватель определяет фактический текст в каждом блоке и разбивает его на слова и строки. Он обнаруживает текст различных языков (французский, немецкий, английский и т.д.) в режиме реального времени.

Стоит отметить, что, в целом, данная OCR с поставленной задачей справилась. Мы получили возможность распознавать текст как в real-time, так и с уже готовых изображений текстовых документов. В ходе анализа данной библиотеки мы выявили как преимущества, так и недостатки ее использования.

Преимущества:

— Возможность распознавания текста в реальном времени

— Возможность распознавания текста с изображений;

— Небольшой размер библиотеки;

— Высокая скорость распознавания.

Недостатки:

— Большой размер файлов с обученными данными (~30Mb).

Tesseract

Tesseract — это OCR библиотека с открытым исходным кодом для разных операционных систем. Представляет собой бесплатное программное обеспечение, выпущенное под лицензией Apache, версия 2.0, поддерживает различные языки.

Разработка Tesseract финансировалась компанией Google с 2006 года, время, когда она считалась одной из наиболее точных и эффективных OCR библиотек с открытым исходным кодом.

Как бы то ни было на тот момент, результатами внедрения Tesseract мы остались не сильно довольны, т.к. библиотека невероятно объемная и не позволяет распознавать текст в реальном времени.

Преимущества:

— Имеет открытый исходный код;

— Соответственно, достаточно легко обучить OCR распознавать нужные шрифты и повысить качество распознаваемой информации. После быстрых настройки библиотеки и обучения качество результатов распознавания стремительно возросли.

Недостатки:

— Недостаточная точность распознавания, что устраняется путем тренировки и обучения алгоритма распознавания;

— Для распознавания текста в реальном времени требуется дополнительная обработка полученного изображения;

— Небольшая точность распознавания при использовании стандартных файлов с данными о шрифтах, словах и символах.

Anyline

Anyline предоставляет многоплатформенный SDK, который позволяет разработчикам легко интегрировать функции OCR в приложения. Данная OCR библиотека привлекла нас многочисленными возможностями настройки параметров распознавания и предоставляемыми моделями для решения конкретных прикладных задач. Стоит отметить, что библиотека платная и предназначена для коммерческого использования.

Преимущества:

— Довольно простая настройка распознавания нужных шрифтов;

— Распознавание текста в реальном времени;

— Легкая и удобная настройка параметров распознавания;

— Библиотека может распознавать штрихкоды и QR-коды;

— Предоставляет готовые модули для решения разных задач.

Недостатки:

— Невысокая скорость распознавания;

— Для получения удовлетворительных результатов требуется первоначальная настройка шрифтов для распознавания.

В ходе проведенного анализа для решения наших задач была мы остановились на Google Text Recognition API, которая совмещает в себе высокую скорость работы, легкую настройку и высокие результаты распознавания.

Разработанное нами решение позволяет сканировать бумажные документы, автоматически оцифровывать их и сохранять в единую базу данных. Качество распознаваемой информации составляет около 97%, что является очень хорошим результатом.

За счет внедрения разработанной системы внутренний документооборот (включая обработку документов, их создание и обмен между отделами и др.) был ускорен на 15%.

Перспективы развития блокчейна: 8 индустрий для внедрения блокчейн технологии

Разработка решения для управления документооборотом: как мы выбирали OCR библиотеку для наших задач

Мы проанализировали три наиболее популярные OCR библиотеки:

Google Text Recognition API

Tesseract

Anyline

{{option.title}}