Этап 3. Анализ макета страницы
Для технической литературы свойственно обилие в тексте таблиц, формул и рисунков. Это накладывает определенные требования на процесс распознания.
Формулы не могут быть распознаныв принципе, попытка их распознать выдаст «мусор», который в дальнейшем придется удалять. При распознании рисунков ABBYY FineReader может обнаружить какие-либо подписи (например, на координатных осях), попытаться распознать эти подписи и вставить их в текст в виде надписей (см. Лабораторную работу №6). Наконец, таблицы желательно распознавать именно как таблицы (ABBYY FineReader делает это достаточно хорошо), а не как текст построчно.
Процедура определения, какие именно части страницы распознавать, и каким образом, называется анализом макета страницы, или сегментированием. Работа проводится в окне «Изображение» при помощи панели инструментов этого окна (рис. 8.6).
Сегментирование заключается в том, чтобы выделить нужные фрагменты текста областями соответствующего типа.
В ABBYY FineReader существуют следующие типы областей: Текст (зеленого цвета), Таблица (синего цвета), Картинка (красного цвета), Штрих-код (светло-зеленого цвета). Также существует область Зона распознавания (серого цвета), которые предполагает дальнейший анализ и автоматический поиск в ней областей перечисленных выше типов.
Рис. 8.6 Панель инструментов окна «Изображение»
Анализ макета страницы может быть проведен автоматически или вручную. Автоматический анализ обязательно происходит при попытке распознать несегментированную страницу. Запустить его также можно кнопкой « Анализ» или через меню Страница – Анализ страницы (будет проанализирована открытая страница или все выделенные страницы). В этом случае результаты анализа можно оценить и скорректировать. Пункт меню Документ – Анализ документа позволяет запустить этот процесс сразу для всех страниц документа, выделение страниц при этом игнорируется.
Анализ вручную предполагает рисование областей мышью путем выбора соответствующего инструмента на панели инструментов (кнопки « Зона распознавания», « Текст», « Таблица» и « Картинка») или через меню Области – Выделить область – Выделить область нужного типа. Нумерация областей соответствует последовательности их рисования и определяет последовательность распознавания страницы. Меню Области – Перенумеровать области или кнопка позволяет обновить нумерацию областей, упорядочив ее сверху вниз страницы.
Щелкнув левой кнопкой мыши по области, ее можно выделить (ее граница станет толще). Используя клавиши Shift и Ctrl, можно выделить сразу несколько областей. Меню Области – Выделить область – Выбор или кнопка « Выбор» позволяет выделить области обведением их рамкой. Выделенные области могут быть удалены клавишей Delete или через команду Удалить область контекстного меню. Также можно воспользоваться меню Области – Удалить область или кнопкой , затем щелкать мышью по ненужным областям. Через меню Страница – Удалить все области и текст можно удалить сразу все области на странице (если страница уже распознана, команда удалит и распознанный текст).
Меню Области – Изменить тип области – нужный типпозволяет преобразовывать одни типы областей в другие. Эти же команды продублированы в контекстном меню. Также за изменение типов областей отвечают сочетания клавиш: Ctrl-1 – зона распознавания, Ctrl-2 – Текст, Ctrl-3 – Таблица, Ctrl-4 – Картинка, Ctrl-5 – Штрих-код.
После выделения областей можно изменять их размеры перетаскиванием мышью их границ. Если установить курсор мыши вне границы области и зажать клавишу Ctrl, можно перемещать область, по странице, не меняя ее размера.
Иногда может потребоваться создавать области сложной ступенчатой формы. Например, в углу рисунка может находиться подрисуночная надпись, которую нужно распознать. В то же время этой надписи в нераспознанном виде на результирующем рисунке быть не должно. Значит, нужно, чтобы контур области рисунка «обходил» данную надпись.
Основной способ создания ступенчатых областей – выделить область, установить курсор мыши вне ее границыи нарисовать прямоугольник, пересекающий границу, с зажатыми клавишами Shift или Alt. Если зажата клавиша Shift, нарисованный прямоугольник будет добавлен к области, если Alt – вычтен из нее.
Другой способ создавать блоки сложной формы – кнопки и (если их предварительно вынести на панель инструментов окна «Изображение», т.к. по умолчанию их там нет). После нажатия кнопки, опять же, необходимо нарисовать мышью прямоугольник, который коснется границы области.
Для упрощения формы областей следует совместить линии, разделенные ступенькой, друг с другом – тогда ступенька исчезнет. Необходимая точность совмещения – 1-2 пикселя изображения, поэтому лучше это делать в окне крупного плана.
Создав любую область, можно воспользоваться меню Области – Анализ блока. В границах области будет проведен автоматический анализ, и, возможно, эта область будет разбита на несколько других областей.
Для более точного распознания таблицы на этапе сегментирования следует выявить ее структуру. Это также может быть сделано в автоматическом и ручном режимах. Автоматический анализ структуры таблицы проводится при выполнении анализа макета страницы или области (см. выше). Также, создав область типа «Таблица» вручную, можно воспользоваться меню Области – Анализ структуры таблицы. К таблице будут добавлены вертикальные и горизонтальные линии сетки, а некоторые ячейки могут быть объединены.
В технических книгах часто встречаются таблицы с невидимыми границами, а также таблицы, у которых в одной строке могут располагаться несколько строчек текста. Автоматический анализ может воспроизвести структуру таких таблиц неверно, поэтому рекомендуется проверить и, при необходимости, исправить структуру таблицы, либо задать ее вручную «с нуля».
При создании и изменении структуры таблицы вручную в первую очередь следует добавить линии в таблицу. Для этого служат кнопки и панели инструментов окна «Изображение». Положение линий указывается мышью, в дальнейшем его можно изменять перетаскиванием линий. Кнопка позволяет удалять ненужные линии щелчком по ним мышью.
После разбиения таблицы линиями можно выделить несколько ячеек (нажав кнопку и зажав клавиши Shift или Ctrl) и объединить их. Для этого используется меню Области – Объединить ячейки. Пункт дублируется в контекстном меню. Ранее объединенные ячейки можно разбить, воспользовавшись меню Области – Разбить ячейки таблицы. Если есть необходимость разбить ячейки, которые не были ранее объединены, следует добавлять линии.
Команда Области – Объединить строки позволяет быстро удалить горизонтальные линии, выделив ячейки в объединяемых строках.
О том, что страница сегментирована, подсказывает значок вблизи левого нижнего угла изображения страницы в окне «Документ».
После того, как сегментация закончена, можно приступать непосредственно к распознаванию. Однако если есть необходимость распознать множество страниц, структура которых абсолютно идентична (например, печатные анкеты), созданное разделение на блоки можно сохранить (меню Области – Сохранить шаблон областей…). Ранее созданный шаблон затем можно загрузить (меню Области – Загрузить шаблон областей…). Следует помнить, что смещение листов на стекле сканера друг относительно друга при сканировании приведет к несовпадению границ областей с текстом, что ограничивает применение этой функции.
Ошибочные действия по редактированию структуры можно отменить через меню Правка – Отменить или кнопкой панели быстрого доступа. Ошибочную отмену можно вернуть через меню Правка – Восстановить или кнопкой .
Свойства выделенной области, такие как ее тип, порядковый номер, язык распознавания, ориентация текста в ней, необходимость инвертировать цвета и т.д. можно просмотреть и изменить на вкладке «Свойства области» внизу окна «Изображение». Напомним, что отобразить вкладки можно кнопкой справа от органов управления масштабом в окне.
Дата добавления: 2021-01-11; просмотров: 336;