Этап 4. Распознавание текста и проверка по словарю
Перед распознаванием следует выбрать язык распознавания из выпадающего списка, расположенного под панелью инструментов окна «Документ». Поскольку в инженерной практике часто встречаются тексты на русском языке с английскими терминами (данное учебное пособие – не исключение), в списке имеется язык «Русский и английский».
Затем следует запустить собственно процесс распознавания – через меню Страница – Распознать страницу для распознания выделенных страниц или Документ – Распознать документ для распознания всех страниц документа. Меню Области – Распознать область запускает распознавание только выделенных областей. Команды распознавания документа и страницы дублируются в выпадающем меню основной кнопки « Распознать» на панели инструментов окна «Изображение».
В зависимости от быстродействия процессора компьютера распознавание нескольких десятков страниц может занять длительное время (до 1 минуты на страницу на медленных компьютерах). Во время сканирования, автоматической сегментации или распознавания текста указатель прогресса отображается на месте списка выбора языка распознавания (под панелью инструментов окна «Документ»).
Если запустить распознавание одной страницы или отдельных областей, окно «Изображение» останется на экране. На нем будет видно, что распознавание проходит в два «прохода». На первом опознанные строки с текстом заливаются голубым цветом, на втором символы, распознанные неуверенно или с ошибками, заливаются темно-синим цветом. При распознавании более одной страницы окно «Изображение» не выводится на экран (за счет этого экономится быстродействие процессора и повышается скорость распознавания).
О том, что страница распознана, подсказывает значок вблизи левого нижнего угла изображения страницы в окне «Пакет».
После завершения процесса распознавания на экране отображаются окна «Изображение» и «Текст». В окне «Текст» представлен распознанный текст. Здесь его можно редактировать, как и в любом текстовом редакторе.
Окно «Текст» имеет собственную панель инструментов, показанную на рис. 8.7. Левая часть панели предназначена для сохранения распознанного текста и будет рассмотрена ниже; инструменты в правой части аналогичны таковым в программе Microsoft Word.
При редактировании текст можно выделять, переносить, копировать и удалять. При переносе и копировании используется буфер обмена Windows, доступ к которому осуществляется через меню Правка. Там же присутствуют инструменты поиска и замены текста.
Рис. 8.7 Панель инструментов окна «Текст»
Ошибочные действия по редактированию текста также можно отменить через меню Правка – Отменить или кнопкой панели быстрого доступа. Ошибочную отмену можно вернуть через меню Правка – Восстановить или кнопкой .
Помимо основной панели инструментов окна «Текст», многие характеристики текста можно изменить при помощи области свойств текста в нижней части окна. Для ее отображения служит кнопка правее инструментов управления масштабом окна. Область позволяет задавать для текста такие параметры, как гарнитура и размер шрифта, язык проверки орфрграфии, цвет шрифта и цвет фона, масштаб и разреживание символов, выравнивание абзаца, верхние и нижние индексы и т.д.
Кнопка рядом с кнопкой включает отображение непечатаемых символов (аналогично Microsoft Word), а кнопка – выделение ошибок цветом.
В окне настроек программы на вкладке «2.Распознать» имеется возможность выбрать режим распознавания: тщательный, при котором количество ошибок распознавания сводится к минимуму, и быстрый, при котором достигается более высокая скорость распознавания. При работе с книгами рекомендуется использовать тщательный режим.
Также в этом окне можно выбрать распознавание с обучением или распознавание с эталонами. Основное назначение этих режимов – распознавание нестандартных, в том числе декоративных, шрифтов. Работа с данными режимами описана в справочной системе программы, в пособии они не рассматриваются.
При распознавании ABBYY FineReader пользуется встроенными словарями для проверки орфографии, поэтому распознанный текст может быть сразу же проверен и исправлен.
Для запуска операции проверки следует нажать на кнопку панели инструментов окна «Текст» или клавиши Ctrl+F7. Команда открывает диалоговое окно проверки документа, практически аналогичное окну проверки орфографии в Microsoft Word. Основное отличие – в том, что в верхней части окна располагается увеличенный фрагмент изображения. Неуверенно распознанный символ или символ, в котором может содержаться ошибка, выделен в этой области цветом.
Как и в Microsoft Word, в ABBYY FineReader можно исправить ошибку, пропустить ее (это приходится делать особенно часто, т.к. очень часто попадаются символы, распознанные неуверенно, но все-таки правильно), добавить слово в словарь. Грамматику ABBYY FineReader не проверяет.
Также можно проверять документ в текстовом окне вручную, без вызова окна. Поскольку ошибки выделяются в окне «Текст» заливкой цветом, можно просто пробежать текст глазами и исправить эти ошибки. Можно воспользоваться кнопками и либо клавишами F4 и Shift-F4, которые переносят текстовый курсор в место нахождения следующей (или предыдущей) ошибки или неуверенно распознанного символа.
Практика работы с ABBYY FineReader показала, что если распознавание текста прошло очень качественно (единичные темно-синие области при распознавании страницы, не более 10 ошибок на страницу), имеет смысл проверить текст инструментами FineReader. Если же количество ошибок велико (сложный текст с формулами, греческими буквами, индексами и математическими символами), такой документ требует тщательной вычистки, которую удобнее производить в Microsoft Word, используя средства проверки правописания и словари последнего. В этом случае этап проверки документа средствами ABBYY FineReader лучше пропустить.
Дата добавления: 2021-01-11; просмотров: 331;