Анна Сергеева. Возможности систем автоматизации обработки корпоративной документации //Системный администратор. 2016. № 1-2. с. 52-57.
Помогут ли системы автоматизации оптического распознавания избежать бумажной рутины и повысить эффективность обработки документов предприятия
Опубликовано в разделе "Администрирование / Автоматизация"
Эта же статья на сайте журнала
Современные крупные и развивающиеся компании, как производители, так и поставщики готовой продукции, товаров и услуг, работают с большим объемом внешней и внутренней корпоративной документации.
На современных предприятиях ежедневно обрабатывается множество самых разнообразных документов: финансовые, платежные, договорные документы, всевозможные технические требования, стандарты и спецификации, а также информация обратной связи с официальных порталов компании и от технической поддержки клиентов и многое другое.
Работники компаний постоянно сталкиваются с необходимостью оперативно и точно структурировать, обрабатывать, хранить и синхронизировать все данные из всех этих весьма разнородных документов и направлять их по правильному назначению для обеспечения эффективности и производительности бизнеса.
При этом важность всех обрабатываемых данных трудно переоценить. В случае потери, искажения или некорректной обработки информации возможны самые разные последствия, начиная от снижения скорости и качества обслуживания заявок клиентов, от необходимости проведения дополнительных и повторных согласований и заканчивая срывом сроков поставки готовых товаров и услуг или проблемами в проведении и обработке финансовых расчетов. Значит, здесь речь идет о серьезных денежных и производственных рисках.
Недостатки бумажного документооборота
Предприятия, работающие с привычными бумажными документами, постоянно сталкиваются с целым рядом трудностей, таких как недостаточная скорость и качество обработки документов.
Возникают существенные затраты на закупку бумаги и расходных материалов для оргтехники и ее обслуживание. Для хранения бумажных документов необходим архив, то есть, специально выделенное помещение и специалист по ведению архива.
К тому же, при ручном вводе и обработке данных неизбежно возникают случайные опечатки, ошибки при спешке или при недостаточном понимании сути работы.
Порой стоимость ошибок оказывается достаточно ощутимой. В каждом конкретном случае, необходимо выделять силы и время на поиск ошибок, проведение повторных переговоров с поставщиками и клиентами, согласование повторных платежей и договоренностей. Во внимание нужно также принимать соответствующие штрафные санкции, конфликты с поставщиками и прочие дополнительные затраты.
Встречаются и более специфичные и более частные проблемы. Например, при расширении, объединении компаний или при начале работы с новым поставщиком или контрагентом возникает необходимость в унификации документов, оформленных по разным правилам и стандартам. Могут найтись и другие сложности.
Также следует учитывать и расходы на транспортировку, будь то почта, авиа или автомобильные перевозки. При этом, так или иначе, часть бумаги теряется, приходит в негодность во время транспортировки или поступает не по назначению. Для географически распределенных и многофилиальных компаний это становится ощутимой проблемой.
Таким образом, с учетом всех этих факторов, снижается общая эффективность работы предприятия, а у клиентов формируется негативный образ компании и складывается ощущение некачественной и непрофессиональной работы.
Преимущества автоматизации
Грамотное руководство, которое заботится о развитии своего предприятия, осознает все недостатки бумажного делопроизводства и разумно приходит к решению о внедрении автоматизации процесса, четко понимая все преимущества такого подхода.
При автоматизированной обработке документов используется меньше ручного труда, снижается вероятность ошибок, расходуется меньше бумаги. На выходе предоставляются более достоверные результаты обработки, и весь процесс занимает куда меньше времени.
Таким образом, информация становится более ликвидной и доступной. Соответственно, эффективность работы предприятия повышается.
Факторы выбора инструментов автоматизации
В последнее время наблюдается стремительное развитие рынка программных систем автоматизированной потоковой обработки документов.
Однако, для правильного выбора нужно убедиться, что система обладает определенными характеристиками, которые делают ее внедрение максимально эффективным для ведения документооборота и, соответственно, бизнеса в целом.
Среди таких наиболее существенных факторов — самообучаемость выбранной системы. В виду высокой динамичности современного производства, развития технологий и условий ведения бизнеса, компании сталкиваются с обработкой весьма разнородных документов, формат и специфика которых постоянно меняются. Разумно считать, что каждый раз прибегать к услугам интеграторов будет медленно и дорого.
Поскольку подобные системы, по сути, являются входным информационным каналом, то они должны поддерживать совместимость с ERP-системами (Enterprise Resource Planning, планирование ресурсов предприятия). То есть, корректно принять, правильно распознать и быстро обработать поступающую информацию, и затем передавать ее далее по соответствующим бизнес-процессам.
Для обеспечения быстрого роста требуется, чтобы внедряемые инструменты позволяли их масштабировать.
Наконец, всегда стоит помнить и о том, что речь идет об обработке важных и значимых документов, поэтому система должна быть надежной и отказоустойчивой.
Принцип работы
Входящая информация поступает из самых разных источников. Это и бумажные документы (почтовая корреспонденция, факс, рукописные заявления и служебные записки, печатные стандарты), и электронные файлы (сообщения электронной почты, XML, Office, PDF и т.д.), и данные из мобильных приложений и сетевых ресурсов (формы обратной связи с порталов компании, SMS-сообщения и сообщения из социальных сетей).
Предварительно, все бумажные документы сканируются, а электронные импортируются. Далее, все входящие документы обрабатываются следующим образом.
Этап 1. Классификация документов по размещению
Существуют специальные механизмы, которые позволяют автоматически распознавать типы входящих документов, точно их классифицировать, а затем принимать верные решения, куда должен быть направлен документ: в отдел технической поддержки, к системным аналитикам, в директорат, бухгалтерию, договорной отдел, к маркетологам, для публикации на порталах компании и т. д.
Наиболее простой способ — найти в документе определенные ключевые слова (например, стандарт, проблема, требования, договор, заявка, счет-фактура и т.д.). Однако, здесь часто встречаются неоднозначные ситуации, когда в документах одного типа встречаются ключевые слова, свойственные другим: например, в технических требованиях есть слово стандарт или на счет-фактуре слово договор.
В таких ситуациях, в одних системах необходимо вмешательство оператора и определение типа документа вручную. В других, более продвинутых системах, поддерживается автоматическое опознание документов по общему внешнему виду. Такие системы составляют гистограмму расположения данных на странице, и на основании этой гистограммы принимают решение о принадлежности документа к тому или иному конкретному типу. Также применяется и комбинированный метод распознавания, по ключевым словам и гистограмме внешнего вида документа. Это наиболее эффективный сценарий работы.
Этап 2. Автоматическое извлечение данных
В зависимости от реализации, возможно автоматическое извлечение данных из документов разных видов (рис. 1). Это формы, сочетающие печатный и рукописный текст (протоколы испытаний, анкеты клиентов, учетные ведомости); структурированный текст, содержащий шапку и блок описания (заявления, предложения, замечания); табличные и многостраничные отчеты (различные счета с вычисляемыми данными, отчеты об испытаниях и тестировании).
Рис. 1. Основные виды документов современного производства
Пожалуй, этот перечень полностью исчерпывает все потребности документооборота современного производства. Это значит, что те системы, которые поддерживают обработку всех таких видов данных, способны справится с полным объемом документации всего предприятия.
Этап 3. Верификация и коррекция результатов
Чтобы добиться максимального повышения рентабельности компании за счет автоматизации рутинных процессов, связанных с обработкой входящих документов, нужно, чтобы используемая система не только оперативно приводила отсканированные бумажные документы к электронному виду, но поддерживала целый ряд необходимых сопроводительных мероприятий, таких как проверка правильности результатов обработки данных, корректирование результатов, преобразование, унификация, архивирование и конвертирование данных к форматам сторонних сопряженных систем и прочие действия.
При работе с документами часто данные одних и тех же типов в разных заголовках, графах и таблицах бывают указаны в разных форматах.
Например, для дат разных событий применимы форматы, где месяц задан цифрами или словами, в качестве разделителей использованы точки или тире. Другой пример, когда итоговая сумма задается прописью или же цифрами.
Для дальнейшего направления по бизнес-потокам и использования в ERP-системах (о чем речь пойдет при описании следующего этапа) необходимо дополнительно преобразовывать такие данные к единому формату.
Также, практика показывает, что документы, поступающие на обработку, не всегда идеального качества. Могут иметь место дефекты сканирования и печати, нестандартные пользовательские шрифты набора, плохой почерк в рукописных документах, всевозможные опечатки и ошибки данных. Все это представляет определенные проблемы для машинного распознавания.
Для повышения эффективности распознавания, в некоторых системах применяются специальные алгоритмы улучшения качества отсканированных документов, так что порой они выглядят даже четче оригиналов и получить с них достоверную информацию удается гораздо лучше.
И все же, при этом допускается некоторый небольшой процент неверно распознанных данных, которые оператор вынужден будет обработать самостоятельно. Но, конечно, на это уйдет гораздо меньше сил и времени, а общий уровень достоверности результатов распознавания значительно выше.
Этап 4. Передача полученных данных по назначению
После того как документ классифицирован, и из него извлечены, проверены и откорректированы все необходимые данные, вся полученная информация анализируется.
Далее, если в системе реализована и грамотно настроена бизнес-логика, то система способна принимать верные решения, куда должен быть направлен документ: в отдел технической поддержки, к системным аналитикам, в директорат, бухгалтерию, договорной отдел, к маркетологам для публикации на порталах компании и т. д., и передавать ее дальше, по установленным потокам обработки.
Стоит подчеркнуть, что поддержка настраиваемой бизнес-логики потоков обработки документов является очень важной составляющей, поскольку обеспечивает большую гибкость существующих процессов, а также возможность их оптимизации. Как следствие, ожидается получение существенной экономии издержек за счет автоматизации ручных рутинных операций по обработке документов.
Распространенные инструменты
В таблице 1 приведены самые распространенные инструменты автоматизации распознавания и обработки документов, с перечислением ключевых возможностей, заявляемых разработчиками.
Начнем, пожалуй, со свободно распространяемых программных инструментов. В первую очередь, среди них стоит отметить Cunei Form от Cognitive Technologies [1].
Функциональные возможности данной программы существенно ограничены только самым необходимым набором. Реализовано оптическое распознавание текста документов и преобразование их к виду электронных редактируемых файлов. Сохраняется структура документа и тип его форматирования. Перечень поддерживаемых языков ограничен 20 предустановленными, шрифты распознаются только печатные. В то же время, для повышения качества распознавания возможно подключение словарей-справочников.
Поддерживается сохранение полученных результатов в наиболее популярных форматах, пригодных для редактирования в стандартных офисных программах и текстовых редакторах.
Таким образом, полученные в результате автоматического распознавания данные нужно будет корректировать и передавать далее по потокам обработки вручную и с помощью сторонних средств.
Так что, хоть Cunei Form и полностью бесплатный инструмент, но все же о полноценной автоматизации обработки входных документов говорить не приходится.
Следует принять тот факт, что это недостаток подавляющего большинства бесплатных программ в данной области, поэтому, так или иначе, придется обратиться к выбору лицензируемого ПО.
Среди коммерческих инструментов автоматизации документооборота наиболее известен ABBYY FineReader [2]. Это многофункциональный программный пакет, способный распознавать цифровые изображения любых типов и преобразовывать результаты в наиболее популярные электронные форматы.
Кроме того, за счет специально разработанной технологии ABBYY OCR, сканирование и распознавание объединяются в одной операции, и, как следствие, обеспечивается высокая скорость и точность распознавания. Поддерживается большой набор из 190 различных языков на базе латиницы, кириллицы, армянского, греческого, китайского и арабского алфавитов, а также их комбинаций, и даже некоторых языках программирования (Basic, C/C++, Java и т.д.). Для 48 языков реализовано подключение словарей и проверка орфографии. Также осуществляется автоматическое определение языка обрабатываемого документа.
И, наконец, выполняется автоматизированная проверка результатов и приведение к виду, приемлемому для передачи в сопряженные ERP-системы.
Как видим, перечень возможностей достаточно внушительный. Подобные инструменты уже уверенно могут справиться с серьезным объемом задач по автоматизации работы с документацией большинства современных компаний.
Но ABBYY FineReader не единственный в своем роде.
В качестве хорошей альтернативы хочется уделить внимание еще одному коммерческому продукту — Kofax от Lexmark [3]. Он поддерживает практически такой же набор возможностей, но кроме того, имеет и некоторые дополнительные преимущества.
Для достижения наиболее точного распознавания в Kofax используется согласованная работа нескольких движков. А специально разработанный модуль виртуального ресканирования входящих документов (VRS, Virtual ReScan) позволяет улучшать качество скан-образа (удалять помарки и отметки, устранять градиент, затемнение фона, следы от сгибов, повышать контрастность изображения и корректировать качество печати, выполнять сжатие размера исходного файла). В результате такого комплексного улучшения изображения, повышается точность распознавания печатного и даже рукописного текста.
Kofax полностью сохраняет логическую структуру многостраничных документов (форматирование и расположение текста, оглавления, колонтитулов, сносок, содержимого таблиц, штрих-кодов и так далее), избавляя от лишнего ручного форматирования.
Настраиваемая бизнес-логика позволяет выполнять тщательную и точную проверку логической структуры извлеченных данных (например, проверять итоговые суммы на платежных документах или сверять вычисляемые и прочие данные, представленные в разных графах бланков, и т.д.). Вся неуверенно распознанная информация подвергается валидации оператором, и на основе этих корректировок система способна достаточно быстро обучаться (разработчики заявляют достижение до 98% точности в среднем уже через 3 недели использования). Это позволяет добиться заметного увеличения процента точного распознавания со временем эксплуатации.
И, что существенно, для удобной интеграции с ERP-системами, поддерживается преобразование всей извлеченной информации в стандартизированный формат и доставка в целевые бизнес-приложения и рабочие процессы.
Таблица 1. Ключевые возможности наиболее распространенных средств автоматизации обработки документов.
Cunei Form (Cognitive Technologies) |
ABBYY FineReader | Kofax (Lexmark) | |
Способ распространения | Свободный | Оплачиваемые лицензии | Оплачиваемые лицензии |
Уровень русификации | Интерфейс + поддержка пользователей | Интерфейс + поддержка пользователей | Интерфейс + поддержка пользователей |
Сохранение структуры документа и типа его форматирования | Да | Да | Да |
Обработка табличных и многостраничных данных | Да | Да | Да |
Подключение словарей-справочников | Да | Да | Да |
Тип распознаваемого текста | Печатный | Печатный + рукописный | Печатный + рукописный |
Механизм улучшения качества сканирования | - | Есть (OCR) | Есть (VRS) |
Интегрирование с ERP | - | Да | Да |
Пример практической работы
Вот как на практике происходит полный процесс автоматизированного извлечения данных из документов. Работа с ABBYY FineReader в данной статье умышленно не рассматривается, поскольку этот продукт освещается достаточно часто и подробно. На взгляд автора, будет не менее интересным ознакомление с другими, не уступающими в эффективности инструментами.
На рис. 6 показана конкретная товарно-транспортная накладная, которая будет обработана в системе Kofax. При необходимости, активируется механизм виртуального ресканирования VRS, для повышения качества оцифровки входящего документа.
Рис. 2. Пример входящего документа, извлекаются данные разных типов
Система классифицирует тип документа и понимает, какие области данных он содержит и какого рода информация в них ожидается. Далее, из этих определенных областей выполняется извлечение и обработка данных по разным критериям.
Распознаются и приводятся к единому виду даты и другие стандартные форматированные данные. Определяются границы таблиц, извлекается их содержимое по строкам и столбцам, проверяется расчет промежуточных и итоговых показателей. Извлекается информация по контрагентам, сопоставляются их названия, коды и другие атрибуты.
Все неуверенно распознанные данные подвергаются гибко настраиваемой верификации. Они сопоставляются с содержимым подгруженных предустановленных словарей, и с определенной вероятностью подбирается подходящий вариант из справочников. В случае необходимости, оператор дополнительно подтвердит или откорректирует полученные результаты (рис. 3).
Рис. 3. Проверка результатов и верификация неуверенно распознанных данных
Чтобы не повторять операцию ручной подстановки многократно, оператор может настраивать границы точности распознавания.
Так, например, можно указать, что при вероятности от 90% и более выполнится автоматическая подстановка данных, и только при меньших значениях неуверенно распознанные данные будут подсвечены на интерфейсе и ожидается их редактирование вручную.
Как упоминалось ранее, система быстро обучается в процессе эксплуатации. На базе подключаемых предустановленных и пользовательских словарей, а также запоминания гистограмм внешнего вида страниц, она учится самостоятельно находить новые ожидаемые расположения данных на страницах документов различных типов.
Таким образом, в результате автоматической работы системы Kofax и дополнительных действий оператора достигается высокая точность выходных важных данных, которые будут готовы к дальнейшему экспорту в соответствии с бизнес-потоками предприятия. В частности, данная накладная может быть экспортирована, например, в 1С (рис. 4).
Рис. 4. Экспорт извлеченных данных в систему 1С
Заключение
В условиях интенсивной работы современных крупных и развивающихся компаний необходимо обеспечить быстрый поток обработки большого объема документации.
Справиться с этой задачей вручную оказывается весьма непросто. Чтобы сделать процесс быстрее, проще и точнее, всю рутинную работу по принятию шаблонных решений нужно максимально исключить.
Внедрение систем автоматизации входного документооборота позволяет существенно улучшить ситуацию и получить существенную экономию времени и денег компании.
Внутри самой компании, минимизируются трудозатраты, поскольку отпадает необходимость в привлечении высококвалифицированного персонала к выполнению рутинных операций, и ценные сотрудники могут осуществлять обработку более важных и приоритетных задач. При этом накладные расходы на использование бумаги снижаются, а точность и аккуратность в работе с документацией повышается.
С внешней стороны, за счет сокращения сроков обработки документов, весь немалый объем заявок клиентов обрабатывается более быстро, оперативно и точно. Значит, клиенты остаются более довольными работой компании, и их лояльность повышается, формируется положительный образ компании на рынке и привлекаются дополнительные клиенты.
Все это является важными конкурентными преимуществами, о которых не стоит забывать при приеме решения об автоматизации обработки документации предприятия и о выборе целесообразной системы.
Литература
[1] Сайт Cunei Form - http://cognitiveforms.com/ru/products_and_services/Cuneiform
[2] Сайт ABBYY FineReader - http://www.abbyy.com/finereader/
[3] Cайт Kofax - http://www.kofax.com/
Ключевые слова
Оптическое распознавание, документооборот, автоматизация, верификация, обучаемость, виртуальное ресканирование, Cunei Form, FineReader, Kofax, OCR, VRS.