Перекрестные ссылки
Под перекрестными ссылками в Microsoft Word понимаются ссылки на различные индексируемые объекты документа, вставленные в произвольные места документа. Например, если в тексте большого документа нужно сослаться на рисунок, обычно пишут «См. рис. 5.13». Перекрестные ссылки в Microsoft Word удобны тем, что текст в этой ссылке автоматически обновится, если название или номер объекта, на который ссылаются, будут изменено.
Перекрестные ссылки позволяют ссылаться только на объекты внутри того же самого файла документа
Индексируемыми объектами в Microsoft Word являются: пункты нумерованных списков (тип ссылки «абзац», см. ниже; маркированные списки не поддерживаются); заголовки (если они оформлены соответствующими стилями); закладки; сноски и концевые сноски; названия рисунков, таблиц и формул, если они вставлены через кнопку « Вставить название».
Для вставки перекрестной ссылки следует установить курсор в место, где ее необходимо вставить (например, после слова «См.») и воспользоваться кнопкой « Перекрестная ссылка» в группе Названия вкладки Ссылки. Откроется диалоговое окно (рис. 7.20).
Рис. 7.20 Диалоговое окно вставки перекрестной ссылки
Сначала следует выбрать тип индексируемого объекта (выпадающий список «Тип ссылки:»). Если в тексте обнаружены объекты данного типа и на них можно сослаться, все они будут перечислены в нижней области окна. Из этих объектов следует выбрать необходимый. Выпадающий список «Вставить ссылку на» позволяет указать, что именно будет вставлено в качестве текста ссылки. Разъяснение значений пунктов этого списка с примерами представлено в таблице 7.1. В правом столбце таблицы текст, генерируемый ссылкой, показан с серой заливкой. Текст без заливки пользователь вводит вручную.
Слово «выше/ниже» также можно добавить к номеру пункта или страницы, для этого есть флажок. Флажок «Разделитель номеров» и поле правее позволяет добавить пробел или символ между уровнями номера в случае, если на каких-то уровнях применяется нецифровая нумерация (например, «См. пункт 8.а), – 3», здесь «, – » будет разделителем.
Кнопка «Вставить» вставляет ссылку в текст. Окно при этом не закрывается, позволяя продолжить вставку перекрестных ссылок в текст.
Перекрестные ссылки также интерактивны. Щелчок по ссылке с зажатой клавишей Ctrl осуществляет переход к объекту (заголовку, пункту списка, закладке, рисунку), на который указывает ссылка. Перекрестные ссылки обновляются так же, как и другие исполнимые поля.
Перекрестную ссылку на заголовок можно вставлять в колонтитул, в этом случае на каждой странице будет продублирован заголовок соответствующего параграфа.
Таблица 7.1
Тип ссылки | Ссылка на | Пример |
Все типы | Номер страницы | См. страницу 61 |
Абзац, заголовок, закладка | Номер абзаца, заголовка | См. пункт 4 при ссылке на п.3.4.4 из п.3.4.1 |
См. пункт 3.4.4 при ссылке на п.3.4.4 из п.6.2.1 | ||
Номер абзаца, заголовка (краткий) | См. пункт 4 при ссылке на п.3.4.4 из любого места | |
Номер абзаца, заголовка (полный) | См. пункт 3.4.4 при ссылке из любого места | |
Текст абзаца, заголовка, закладки | См. Непечатаемые символы | |
Сноски и концевые сноски | Номер сноски, концевой сноски | См. сноску 1 |
Номер сноски, концевой сноски (форм.) | См. сноску 1 | |
Объекты, именованные через окно рис. 7.17 | Название целиком | См. Рис. 7.20 Диалоговое окно вставки перекрестной ссылки |
Постоянная часть и номер | См. Рис. 7.20 | |
Только текст названия | См. Диалоговое окно вставки перекрестной ссылки | |
Все типы | Выше/ниже | См. ниже при ссылке на п.3.4.4 из п.3.2, См. выше при ссылке на п.3.4.4 из п.3.5 |
Текст абзаца с флажком «Добавить слово «выше» или «ниже»» | См. Непечатаемые символы ниже |
ЛАБОРАТОРНАЯ РАБОТА №7
Преобразование бумажных текстовых документов в электронные методом оптического распознавания символов
ЗАДАНИЕ
1) Запустить программу ABBYY FineReader
2) Открыть предложенные преподавателем файлы отсканированных страниц
3) Убедиться, что порядок нумерации страниц в пакете правильный, в противном случае перенумеровать страницы
4) Провести анализ макета страниц, исключить формулы (если есть) из процесса распознавания, разделить таблицы на ячейки
5) Распознать страницы
6) Сохранить документ FineReader, присвоив ему осмысленное имя
7) Передать распознанные страницы в Microsoft Word. Просмотреть документ, удалить лишние разрывы разделов
8) Осуществить чистовое редактирование и форматирование распознанного текста. Использовать стили. Сохранить готовый документ.
7.1 Понятие оптического распознавания
Оптическое распознавание символов (англ. Optical Character Recognition, OCR) – электронный перевод изображений рукописного или печатного текста в текстовые данные для дальнейшей работы с ними в текстовом редакторе. Распознавание широко используется для конвертации книг и печатных документов в электронный вид, допускающий редактирование, или для публикации текста в сети Интернет. Оптическое распознавание текста позволяет редактировать и форматировать текст, осуществлять поиск в тексте слова или фразы, хранить текст в более компактной форме, демонстрировать или распечатывать материал без потери качества, анализировать информацию, а также применять к тексту электронный перевод или преобразование в речь.
Точное распознавание латинских и кириллических символов в печатном тексте возможно, только если доступны чёткие изображения достаточно высокого разрешения. Точность при такой постановке задачи близка к 99%, тем не менее, оставшееся незначительное количество ошибок должно быть найдено и исправлено человеком. Эту процедуру часто называют вычисткой распознанного текста. Проблема распознавания рукописного текста в настоящее время не решена и являются предметом активных исследований.
В практике студентов технических специальностей распространенной задачей является конвертирование изображений, полученных путем сканирования или фотосъемки библиотечных книг, в формат документов Microsoft Word.
К сожалению,программ, которые «умели» бы распознавать математические формулы и превращать их в объекты редактора формул, не существует.
Для оптического распознавания текста необходимо предварительно оцифровать его, т.е. перевести в форму цифрового растрового изображения. Наилучшие результаты в этом случае дают специальные устройства – сканеры (см. Лабораторную работу №1). В случае отсутствия сканера или доступа к нему цифровое растровое изображение можно получить помощи современной цифровой фотокамеры.
Наиболее популярной на постсоветском пространстве программой для оптического распознавания текста является программа FineReader, разработанная московской компанией ABBYY. В лабораторной работе будет рассмотрена 9-я версия данной программы.
Следует отметить, что широко распространенные в сети Интернет книги в формате .djvu представляют собой нераспознанный текст. Большинство книг в формате .pdf также представляют собой отсканированные, но не распознанные изображения. Поиск и редактирование текста в таких книгах невозможны.
7.2 Сканирование текста
Сканирование текста для последующего распознания может осуществляться как предварительно (с сохранением изображений в графические файлы), так и непосредственно в программе ABBYY FineReader.
Разные модели сканеров «понимают» разные управляющие команды. В целях универсальности был принят стандарт TWAIN для взаимодействия сканера и приложений.Приложение посылает универсальные команды драйверу TWAIN,который преобразует их в инструкции конкретной модели сканера. Операционные системы Windowsподдерживает интерфейс TWAIN, a все современные сканеры совместимы с ним и их производители предоставляют необходимые драйверы.
Как правило, TWAIN-драйвер сканера запускается через программную группу в главном меню Windows (меню кнопки «Пуск»). Другим способом запуска TWAIN-интерфейса являются специальные команды некоторых графических редакторов (например, Файл – Получить – Со сканера… или Файл – Сканировать). Перед первым запуском таких команд в программе может понадобиться выбрать сканер, так как Windows поддерживает возможность одновременного подключения к компьютеру нескольких сканеров со своими TWAIN-драйверами.
Перед запуском TWAIN-драйвера сканер должен быть включен. Также у CCD-сканеров (см. лабораторную работу №1) от момента включения до начала сканирования первой страницы может пройти 1-5 минут (время разогрева ртутной лампы и стабилизации спектра ее свечения).
Интерфейсы TWAIN-драйверов большинства сканеров сильно различаются между собой, однако все они содержат практически одинаковые инструменты и функции. Более того, с выпуском новых моделей сканеров производители часто меняют интерфейс TWAIN-драйвера.
Подавляющее большинство инструментов TWAIN-драйвера рассчитано на тонкую настройку цветопередачи при сканировании фотографических изображений. С точки зрения оптического распознавания символов эти инструменты не нужны. В связи с этим в программе ABBYY FineReader предусмотрен собственный упрощенный интерфейс сканирования. Однако данный интерфейс может взаимодействовать не со всеми моделями сканеров.
В некоторых случаях на помощь может прийти альтернативный интерфейс WIA (Windows Image Acquisition – Получение изображений в Windows). Пользовательский интерфейс WIA разрабатывается Microsoft, производитель сканера лишь разрабатывает драйверы для совместимости сканера с WIA. WIA обладает значительно меньшей функциональностью по сравнению с TWAIN, но для простых задач, таких, как сканирование текста, он также вполне подходит.
7.3 Фотосъемка текста
Фотосъемка документов требует определенной подготовки фотографа, а также налагает ограничения на характеристики фотоаппарата и режим съемки. Перед съемкой следует убедиться в том, что:
Ø Страница целиком умещается в кадре и целиком его занимает (не остается излишних полей);
Ø Свет достаточно ровный, без теней на фотографируемом тексте;
Ø Фотографируемый документ расположен перпендикулярно оптической оси объектива, т.е. фотоаппарат должен быть расположен напротив центра текста. Неровности бумаги (у корешка книги, например) нужно по возможности разгладить.
Для качественного и устойчивого распознавания текста с листа размером А4 желателен фотоаппарат с разрешением матрицы не менее 5 мегапикселей.
По возможности нужно обеспечить хорошее освещение, лучше всего дневное. Желательно использовать подсветку двумя лампами с разных сторон, чтобы избежать образования теней.
Для съемки рекомендуется использовать штатив. Снимать лучше всего при максимальном оптическом увеличении («зуме»), при этом фотоаппарат должен быть максимально удален от текста.
Вспышку лучше всего отключить, поскольку она создает блики и резкие тени. Тем не менее, если внешнего света недостаточно, то можно использовать вспышку, при этом вести съемку с большого расстояния (минимум 1 метр). Даже при использовании вспышки все равно желательно подсветить документ другими источниками света. Категорически не рекомендуется использовать вспышку при съемке документов, отпечатанных на глянцевой бумаге, или лежащих под стеклом.
Если съемка ведется при ярком дневном свете и есть возможность управления диафрагмой (режим «A» или «Av» полупрофессиональных фотоаппаратов), значение диафрагмы лучше увеличить (закрыть диафрагму), чтобы получить более резкий по всей площади снимок. При недостаточном освещении можно выбрать большую чувствительность матрицы (большее значение ISO), так как шумы практически не влияют на качество распознавания. Выдержку (ей управляют в режиме «S» или «Tv» полупрофессиональных фотоаппаратов) по возможности следует сделать короткой, так как смазывание изображения на длинной выдержке полностью исключает будущее его распознавание. Если использовать короткую выдержку не получается (недостаточная освещенность текста), рекомендуется использовать стабилизатор изображения (если есть), штатив и таймер автоспуска (либо пульт дистанционного управления). Последние позволят избежать смещения фотоаппарата при нажатии на кнопку спуска.
Обязательным условием для распознавания является высокая резкость полученного изображения. Камеры мобильных телефонов для фотографирования текста должны оснащаться автофокусом. При недостаточном освещении автофокус некоторых камер может срабатывать плохо, в этом случае рекомендуется использовать ручную фокусировку либо подсветить текст.
7.4 Интерфейс программы ABBYY FineReader
Интерфейс программы показан на рис. 8.1.
Рис. 8.1 Интерфейс программы ABBYY FineReader 9
1 – строка заголовка; 2 – строка меню; 3 – окно «Документ»; 4 – панель инструментов окна «Документ»; 5 – панель быстрого доступа; 6 – окно «Изображение»; 7 – панель инструментов окна «Изображение»; 8 – области; 9 – окно «Текст»; 10 – панель инструментов окна «Текст»; 11 – кнопка вызова окна сценариев; 12 – кнопки управления окном; 13 – список выбора языка распознавания; 14 – зона, отображаемая в окне «Крупный план»; 15 – кнопки управления масштабом в окне «Изображение»; 16 – область свойств изображения; 17 – окно «Крупный план»; 18 – значки, отражающие статус страницы; 19 – кнопки управления масштабом в окне «Крупный план»; 20 – нижняя панель окна «Документ»; 21 – кнопки перехода к другой странице; 22 – область свойств текста; 23 – кнопки управления масштабом в окне «Текст»
Как и «классические» приложения Windows, ABBYY FineReader оснащен строкой меню, через которую доступны все функции программы.
В программе имеется встроенная система справки, которая вызывается через меню Справка – Справка. В отличие от последних версий программ Microsoft, справочную систему ABBYY FineReader можно считать полноценной, и доступна она локально (не требует подключения к сети Интернет).
Сразу после запуска на экране отображается окно сценариев работы, позволяющее провести большую часть процесса в автоматическом режиме. В данной Лабораторной работе в учебных целях рассматривается исключительно ручной режим работы программы, поэтому окно следует закрыть. В будущем для его открытия служит кнопка поз. 11. на рис. 8.1.
Рабочая область программы состоит из трех основных окон: окно «Документ» вдоль левой части экрана; окно «Изображение» занимает левую половину оставшейся части, а окно «Текст» – правую. Вдоль нижнего края экрана может быть отображено дополнительное окно «Крупный план».
Окно «Документ» содержит изображения страниц книги, над которой работает пользователь. Подробно документы FineReader будут рассмотрены ниже. Сейчас отметим лишь, что окно «Документ» можно скрыть с экрана кнопкой в строке его заголовка. Также скрывать или отображать ранее скрытое окно можно перетаскиванием его правой границы в месте, обозначенном точками, влево или вправо, через меню Вид – Окно Документ – Показать или клавишей F5.
В окне «Изображение» приводится отсканированное изображение, здесь его можно редактировать (поворачивать, обрезать) и размечать. В окне «Текст» после распознавания будет отображен распознанный текст, его также можно редактировать (изменять, переносить и удалять символы и слова и т.д.). Командами меню Вид – Окно Изображение/Текст можно либо отобразить на экране одновременно оба окна (как на рис. 8.1), либо скрыть одно из них, выделив освободившееся место оставшемуся. Этого же эффекта можно добиться кнопками и в заголовке соответствующего окна.
Если одно из окон («Изображение» или «Текст») развернуто на весь экран, то второе окно сворачивается в узкую цветную полосу сбоку от развернутого окна. Это позволяет быстро переключаться между окнами.
Окно «Крупный план» представляет собой аналог «увеличительного стекла», отображающего определенную часть отсканированного изображения в большом масштабе. Что именно отображается в окне крупного плана, показано в окне «Изображение» пунктирной рамкой синего цвета со значком лупы. Данную рамку можно перемещать в любое место изображения одиночным щелчком левой кнопки мыши.
Некоторые параметры окна «Крупный план» могут быть настроены через меню Вид – Окно Крупный план. Здесь можно скрыть или отобразить окно, расположить его в верхней или нижней части экрана, а также изменить масштаб изображения в нем.
Масштаб изображения в окнах изображения, текста и крупного плана можно задавать независимо друг от друга при помощи соответствующих блоков кнопок.
В каждом из основных окон присутствует своя Панель инструментов. Ключевые кнопки на этой панели имеют большой размер. При помощи меню Вид – Панели инструментов – Маленькие кнопки размер панели можно уменьшить (полезно для экранов с малым разрешением). В тексте Лабораторной работы изображения кнопок будут показаны в уменьшенном виде.
При помощи меню Вид – Панели инструментов – Быстрый доступ можно отобразить на экране панель быстрого доступа с дополнительными инструментами. Содержимое всех панелей инструментов ABBYY FineReader 9 можно настроить «под себя».
7.5 Понятие о документах FineReader
Как будет показано ниже, работа по сканированию и распознаванию текста – достаточно медленная и кропотливая. И если необходимо перевести в текстовый формат содержимое книги, такая работа может потребовать нескольких дней или даже недель. Для удобства хранения промежуточных результатов работы в ABBYY FineReader предусмотрены документы FineReader (в старых версиях программы – пакеты).
Документ FineReader представляет собой именованное хранилище, куда складываются отсканированные изображения, вспомогательная информация по каждому из них, распознанный текст каждой страницы и т.д. Все промежуточные данные сохраняются в документе автоматически. Документ хранится в собственной папке на жестком диске компьютера. В одно и то же время на компьютере можно хранить сколько угодно документов ABBYY FineReader, но работать при этом можно только с одним.
При запуске программы в ее рабочих окнах ничего нет. Если будет просканировано или открыто первое изображение, оно помещается в безымянный документ. Последующие изображения добавляются туда же.
В случае, если предполагается продолжить работу с данными изображениями в следующий раз, безымянный документ должен быть сохранен под определенным именем. Если этого не сделать, при закрытии программы данные из безымянного документа будут удалены. Для сохранения документа служит меню Файл – Сохранить документ FineReader… (не путать с Сохранить как…). В открывшемся диалоговом окне следует указать имя пакета и место, где он будет размещен. Следует помнить, что объем документа может быть достаточно большим – до 1…2 МБ на каждую страницу текста.
С точки зрения операционной системы документ FineReader представляет собой папку(со специальным значком), внутри которой хранятся соответствующие файлы. Документ-папку можно переносить или копировать при помощи Проводника или любого другого файлового менеджера.
Для продолжения работы с документом после запуска программы его нужно открыть. Для этого служит меню Файл – Открыть документ FineReader…. Можно сохранить документ под новым именем (та же команда Файл – Сохранить документ FineReader…, будет создана копия документа), закрыть текущий документ (меню Файл – Закрыть документ FineReader, все изменения будут автоматически сохранены) или создать новый документ (меню Файл – Новый документ FineReader либо кнопка в нижней панели окна «Документ», будет создан безымянный документ). При создании нового документа или открытии сохраненного текущий документ будет закрыт.
Содержимое документа в виде страниц отображается в окне «Документ». Доступно два варианта отображения: в виде миниатюрных изображений страниц или в виде списка из названий файлов. Переключение осуществляется через меню Вид – Окно Документ – Пиктограммы / Со свойствами, либо через выпадающий список кнопки нижней панели окна «Документ». Меню Вид – Окно Документ – Настройка… вызывает диалоговое окно для тонкой настройки отображения страниц в окне (в пособии не рассматривается).
При сканировании страниц или открытии графических файлов они добавляются в документ, и им присваивается порядковый номер. Если щелкнуть левой кнопкой мыши по странице, она выделится, и ее изображение откроется в окне «Изображение», а увеличенный его фрагмент будет продублирован в окне «Крупный план». Щелчок по новой странице выделит и откроет ее. Быстро листать страницы в окне «Документ» можно кнопками панели быстрого доступа, кнопками , расположенными под вертикальными полосами прокрутки в окнах «Изображение» и «Текст», через меню Документ – Открыть предыдущую / следующую страницу или нажатием курсорных клавиш Вверх и Вниз одновременно с клавишей Alt. Также через меню Документ можно закрыть страницу, сняв с нее выделение, быстро перейти к произвольной странице (Документ – Открыть страницу с номером…), удалить выделенную страницу. Для удаления страницы также можно выделить ее в окне «Документ» и нажать клавишу Delete. Процедура удаления страниц из документа необратима, так как из папки документа удаляются соответствующие файлы!
Иногда бывает ситуация, когда при сканировании была нарушена последовательность страниц. Например, страница 18 была плохо отсканирована, а после повторного сканирования она оказалась в конце документа под номером 49. В этом случае достаточно удалить страницу 18, после чего стандартным для Windows методом переименования заменить номер последней страницы с 49 на 18.
Иногда может понадобиться изменить номера сразу нескольких страниц. Например, в отсканированной книге нужно расположить Главу 5 сразу после Главы 1, а уже после нее – главы 2, 3 и 4., В этом случае поможет меню Документ – Перенумеровать страницы…. Команда открывает одноименное диалоговое окно (рис. 8.2).
Перед выполнением команды страницы Главы 2 в окне «Документ» нужно выделить. Переключатель в окне оставить в верхнем положении, а в поле ввода задать номер страницы, идущей после последней страницы Главы 1. После нажатия кнопки ОК страницы будут перенумерованы.
Нижние положения переключателя полезны для владельцев сканеров с автоматическим податчиком оригиналов (ADF). Если документ отпечатан с двух сторон, такой сканер может самостоятельно просканировать все страницы с одной стороны, после чего пользователю придется вынуть пачку листов из выходного лотка податчика, перевернуть ее и заложить во входной лоток еще раз. После такого сканирования листы в документе будут идти в шахматном порядке. Второе положение переключателя в окне рис. 8.2 как раз и позволяет это исправить. Чтобы положение стало доступным, следует выделить как минимум три страницы, идущие подряд. Если этот режим был использован по ошибке, третье положение позволяет отменить изменение номеров.
Рис. 8.2 Диалоговое окно «Перенумеровать страницы»
7.6 Этапы работы над распознанием текста
Перевод текста из бумажной формы в электронную редактируемую – сложный процесс, состоящий из нескольких этапов. Чтобы повысить производительность труда, в программе предусмотрен ряд типовых сценариев работы, при которых некоторые этапы производятся автоматически без участия пользователя.
Такой режим дает приемлемый результат только для документов с простым форматированием и небольшим объемом. Для студентов же характерна работа с библиотечными книгами, которые имеют высокую степень износа (пожелтевшие, местами надорванные страницы), имеют дефекты (пометки, выполненные другими студентами), в которых присутствует множество формул (напомним, формулы не могут быть распознаны, их придется вводить вручную), с графиками, имеющими достаточно сложное форматирование, и т.д. В этой связи в пособии будет рассмотрен метод, когда все этапы работы проводятся вручную. Такой метод обеспечивает пользователю максимальный контроль над процессами и позволяет ощутимо повысить качество итогового документа.
Чтобы получить возможность работать в таком режиме в ABBYY FineReader, необходимо принудительно отключить все средства автоматизации. Для этого при помощи кнопки нижней панели окна «Документ» или посредством меню Сервис – Опции… следует открыть диалоговое окно настроек программы. На вкладке «1. Сканировать/Открыть» (рис. 8.3) переключатель вверху следует установить в положение «Отключить автоматический анализ и распознавание изображения». Также все флажки в группе «Обработка изображения» в учебных целях следует снять. После этого окно можно закрыть.
Дата добавления: 2021-01-11; просмотров: 716;