
но мы вполне сможем извлечь такие плоские данные как номер, дата, сумма и т.п.
в текущей версии мы не сможем описать сложные структуры типа таблиц; для подобных вещей потребуется изучить FlexiLayout Studio
мы не сможем сделать универсальный шаблон, хорошо работающий с произвольными чеками наш шаблон будет хорошо работать с более-менее однотипными чеками желательно из одного источника
Заранее скажу о возможностях и ограничениях:
Предположим, мы хотим написать приложение для регистрации чеков в некоторой бухгалтерской системе и у нас есть пачка отсканированных чеков. Отберём из этой пачки однотипные чеки и попробуем сделать прототип определения документа (шаблон документа) для нашего приложения.
Что же теперь? Теперь у нас есть простой пример-инструмент Automatic Template Generation, сделанный в виде wizard-а, который поможет вам получить удовлетворительно работающий прототип за несколько минут. Посмотрим на примере, как это работает.
До выхода 10-ки для этого в любом случае требовалось установить настольную версию FlexiCapture и научиться работать как минимум с редактором определений документов (для работы с документами с жёсткой структурой с хорошо определёнными реперами), а в большинстве более жизненных случаев нужно было ещё и научиться работать с инструментом для описания гибкой разметки документов FlexiLayout Studio. При этом у вас вряд ли получилось бы создать даже простейший работающий вариант слёту практически наверняка пришлось бы вдумчиво почитать документацию для обоих инструментов или пройти курс обучения.
При работе с примерами всё просто нужный файл определения документа прилагается. Однако как получить подобное определение документа для текущей задачи, чтобы просто пощупать , как оно будет работать?
Эта одиночная строка кода и настраивает работу на определённый тип документа. Файл с расширением FCDOT (FlexiCapture DОcument Template) содержит описание извлекаемых данных с накладываемыми ограничениями, способ нахождения этих данных на изображении, настройки распознавания и, опционально, настройки экспорта данных документа.
processor.AddDocumentDefinitionFile( sampleFolder + "Invoice_eng.fcdot" );
IFlexiCaptureProcessor processor = engine.CreateFlexiCaptureProcessor();
// Создадим экземпляр процессора и сконфигурируем его одним или более определениями документов
Как мы уже описывали вот , собственно извлечение данных с помощью API требует всего несколько строк кода, среди которых, однако, есть вот такая:
Новый инструментарий позволяет отложить глубокое знакомство с технологией либо на этап тонкой настройки готового решения перед выпуском, либо даже на версию номер два. Он не может полностью заменить продвинутый инструмент типа FlexiLayout Studio, но позволяет не переусложнять работу в простых случаях или в более сложных случаях быстро получить упрощённый работающий прототип.
Одной из известных проблем, стоящих на пути широкого использования технологий data capture, являются высокие начальные инвестиции времени и сил на настройку работы с требуемыми типами изображений. Разработчку-интегратору необходимо научиться работать с целым рядом инструментов и разобраться в тонкостях достаточно сложной технологии, которая чаще всего не соответствует его основному профилю работы и предыдущему опыту. Только после этого он может собрать самый простой прототип готового решения и дать оценку эффективности и целесообразности всего проекта.
Эта статья написана разработчиком для разработчиков и расскажет вам о возможностях и ограничениях данной технологии то, чего вы не найдёте в маркетинговых материалах.
Одной из интересных фич новой версии стала возможность быстрой настройки на извлечение данных из документов простых типов. Мои коллеги читателям хабра про то, как эта функция реализована во FlexiLayout Studio 10. В новую версию продукта добавлено API, дающее полный программный доступ к этой функциональности. Кроме этого мы сделали простой в использовании инструмент (доступный также в виде исходного кода), который позволяет всего за несколько минут (как показано вот в ) настроиться на задачу пользователя и сделать быстрый работающий прототип решения, не вникая глубоко в тонкости технологии.
В ряду наших продуктов для разработчиков пополнение выпущена очередная версия ABBYY FlexiCapture Engine. Напомню, что это продукт, позволяющий встраивать технологию ввода данных из изображений (data capture) в пользовательские решения.
ABBYY FlexiCapture Engine 10.0: тренируем гибкость с новым инструментом
ABBYY FlexiCapture Engine 10.0: тренируем гибкость с новым инструментом / Блог компании ABBYY / Хабрахабр
Комментариев нет:
Отправить комментарий