Языки

Автоматическое распознавание печатного текста

Актуальность проблемы

Организации и компании, активно использующие факсимильную связь, часто сталкиваются с трудностями при учете большого объема входящих факсимильных сообщений. Сообщения от сотен разных организаций образуют огромные папки, в которых невозможно найти нужную текстовую информацию. Бумажная почта также образует большие архивы. Большие объемы текстовой информации хранящейся в виде твердых копий документов препятствуют переходу к электронному документообороту и безбумажным технологиям.


Предлагаемые подходы

Чтобы были возможны индексирование и поиск информации, необходим электронный текстовый эквивалент твердых документов. Однако твердые документы в электронном виде могут быть представлены только как изображения, а их содержимое доступно только для визуального просмотра. Предполагается разработать систему, позволяющую по изображению документа извлекать текстовое содержимое, доступное для интеллектуальных поисковых систем.
Система состоит из следующих функциональных блоков:

  • блок сегментации текстовых блоков, строк, рисунков и других элементов на изображении документа;
  • блок сегментации символов и слов;
  • блок распознавания символов;
  • блок лингвистической коррекции.

Система построена по модульному принципу, что позволяет совершенствовать каждый функциональный блок независимо от остальных и упрощает их интеграцию.


Направления исследований

  • Перспективные методы сегментации, основанные на использовании вейвлет-преобразования и многомасштабного анализа.
  • Методы распознавания символов, не требующие предварительной сегментации, в частности распознавание с использованием скрытых Марковских моделей.
  • Объединение классификаторов символов, использующих различные принципы, для повышения качества распознавания символов.
  • Применение скрытых Марковских моделей для повышения качества распознавания на основе лингвистической информации.
  • Распознавание многоязычных документов.
  • Поиск по изображению документа заданных слов и шаблонов текста.