ЗАДАЧИ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ


Большинство офисных документов, предназначенных для печати на бумаге, а также многие электронные документы являются текстовыми, т.е. представляют собой блоки текста, состоящие из слов и предложений, набранных определенными символами (буквами, цифрами, знаками препинания и др.). При работе с текстовыми документами компьютер превращается в подобие очень мощной и «интеллектуальной» пишущей машинки.

К основным этапам обработки текстовых документов с помощью компьютеров можно отнести следующие:

· ввод текста документа;

· редактирование документа;

· сохранение документа;

· публикация документа;

· поиск и открытие созданного документа;

· перевод документа на другой язык (при необходимости).

1. Ввод текста может осуществляться несколькими способами:

· набором текста с помощью клавиатуры;

· переводом бумажных документов в электронную форму;

· голосовым вводом;

· рукописным вводом.

Набор текста с помощью клавиатуры является самым распространенным. Он представляет собой довольно простой технологический процесс, связанный с ручным вводом информации в компьютер. Скорость ввода зависит от навыков пользователя и в зависимости от его квалификации может составлять от 30 до 200 символов в минуту. Данному способу присущ достаточно большой уровень допускаемых ошибок.

Перевод бумажных документов в электронную форму. Необходимость такого преобразования обусловлена тем, что многие текстовые документы имеют вид бумажных изданий: бланки, деловые письма, документация, книги и многое другое. Огромные массивы информации передаются в виде трудноразличимых факсов и ксерокопий. Для того чтобы иметь возможность быстро и правильно редактировать такие документы, а также публиковать их в дальнейшем в разном виде, и возникает потребность в программном обеспечении, обеспечивающем создание электронного образа бумажного документа, а также в соответствующих устройствах. На сегодняшний день такими устройствами являются сканеры. Непосредственным результатом работы сканеров является графический образ информации. Для восстановления смыслового содержания текста по его изображению используется специальный класс программного обеспечения, получивший название программ распознавания образовOCR (Optical Character Recognizer.

Голосовой и рукописный ввод пока не получили широкого применения, хотя изобретены и прошли первые испытания уже около 30 лет назад и имеют ряд специфических преимуществ. Основной причиной этого явилась дороговизна их разработки и реализации.

Скорость голосового набора текстов зависит от производительности ПК и может достигать 500-700 печатных знаков в минуту, что значительно превышает скорость «слепого» метода печати.

Рукописный ввод довольно специфичен. Он реализуется, как правило, в небольших портативных компьютерах (наладонниках). Ввод данных организован с помощью устройства, называемого электронным пером.

2. Редактирование – это изменение набранного текста и придание ему надлежащего вида, будь-то простое удаление ошибочных символов, вставка текстовых массивов либо форматирование, связанное в основном с изменением параметров шрифта и абзацев.

3. Сохранение документав одном из многообразных существующих форматов является завершающей стадией основной работы по подготовке текстового документа.

Это обязательный и весьма ответственный этап, несмотря на всю его кажущуюся тривиальность. Во-первых, потому что, видимо, бессмысленно выполнять какую-либо работу, не позаботившись о сохранности результата. Во-вторых, потому что выбор формата сохраняемого документа зависит от того, где и как мы собираемся дальше с ним работать. На самом деле, наибольшие проблемы возникают при открытии документа, особенно на другой программно-аппаратной платформе: вдруг оказывается, что пропало все форматирование, исчезли рисунки, текст не читаем и т.д. Для того чтобы максимально обезопаситься от возможных неурядиц, стараются сохранять документ в наиболее подходящем формате. Здесь также есть проблемы. Во-первых, может возникнуть необходимость работы с документом в других приложениях, а не в тех, которые предполагались изначально. Во-вторых, разными текстовыми процессорами поддерживаются разные форматы, и не всегда они совместимы. В таких случаях необходимы конвертеры из одного формата в другой.

В настоящее время получили распространение следующие форматы:

· ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией) имеет самую простую организацию: одной букве соответствует один байт. Всем буквам, цифрам, знакам препинания и другим символам (управляющим кодам) в нем поставлены в соответствие стандартные числовые значения;

· RTF (Rich Text Format) – формат обмена документов между текстовыми процессорами. Главное его достоинство состоит в том, что внутренняя организация документа предусматривает передачу всех элементов форматирования: размера и параметров шрифта, параметров абзацев и т.д. Форматы хорошо распознаваем практически всеми офисными приложениями;

· DOC – это внутренний формат текстового процессора MS Word;

· HTML (Hypertext Markup Language – язык гипертекстовых ссылок) – универсальный язык разметки гипертекста, применяемый в Интернете для разработки Web-страниц.

4. Публикация– это представление документа в его окончательном, готовом виде. В зависимости от типа представления документа можно выделить три вида публикаций:

· печать документа;

· электронная публикация;

· Web-документы.

Печать документа – это создание его твердой копии на бумаге или прозрачных пленках. Печать осуществляется посредством принтеров.

Электронная публикация – это окончательное представление документа в электронном виде с возможностью переноса его в том же виде другим пользователям и чтения с экрана вне зависимости от способа переноса. Можно отправить созданный документ другому пользователю разными способами:

· по электронной почте;

· выложить его в Интернет как Web-страницу;

· на сменных носителях (дискета, записываемый компакт-диск, флеш-память и др.).

5. Поиск и открытие созданного документа необходимы для возобновления работы с ранее созданным и сохраненным документом. В зависимости от того, был документ опубликован, как Web-страница, или сохранен в файловой системе, его можно искать разными способами: либо средствами Интернета, либо средствами файловой системы. Поиск файла средствами операционной системы MS Windows осуществляется через команды Пуск Þ Найти Þ Файлы и папки.

6. Перевод.В настоящее время в связи с быстрым развитием Интернета как средства обмена большими объемами текстовой информации, а также в связи с необходимостью все оперативнее обрабатывать эту информацию особенно остро стоит вопрос о языке. Значительная часть информации подается на английском - общепринятом языке межнационального общения. Но и на других языках мира содержится очень большая и важная часть информации. Поэтому чрезвычайную значимость и ценность приобретает возможность межъязыковой коммуникации. Для этих целей используются специальные программы автоматического перевода, а также электронные словари.

Как указывалось выше, в настоящее время работа с текстовыми документами производится, в основном, с помощью компьютеров, что является удобным и надежным методом.

Программное обеспечение, предназначенное для обработки документов с помощью компьютера, условно разделяют на две категории: текстовые редакторы и текстовые процессоры. Формально будем различать их следующим образом.

Текстовые редакторы представляют собой компьютерные программы, предназначенные для создания и изменения текстовых файлов, а также их просмотра на экране, вывода на печать, поиска фрагментов текста и т.п. Примерами текстовых редакторов являются:

· Блокнот(Notepad), входящий в состав Windows и используемый для создания, просмотра и редактирования простых текстовых (.TXT) файлов;

· Lister – интегрированный просмотрщик и редактор файлов, входящий в состав Total Commander. Позволяет просматривать и редактировать файлы почти любого размера (до 263 байт) в текстовом, двоичном или шестнадцатеричном формате, Unicode-файлы и HTML-страницы, файлы растровой графики, мультимедиа, файлы RTF.

Текстовые процессоры – прикладные программы, содержащие развитые средства создания и оформления документов, а также обеспечивающие внедрение в документ графики, таблиц, аудио- и видеоинформации и т.п. К ним относятся процессоры семейства MS Word, Word Perfect фирмы Corel, пакет StarOffice немецкой компанией StarDivision GMBH.

Все текстовые редакторы сохраняют в файле «чистый» текст и благодаря этому совместимы друг с другом. Различные текстовые процессоры записывают в файл информацию о форматировании по-разному и поэтому часто несовместимы друг с другом. Однако во многих текстовых процессорах есть возможность преобразования текста из одного формата в другой.

При подготовке текстовых документов на компьютере используются следующие основные группы операций:

1. Операции ввода – позволяют перевести исходный текст из его внешней формы в электронный вид, т.е. в файл, хранящийся на компьютере. Под вводом не обязательно понимается машинописный набор с помощью клавиатуры. Существуют аппаратные средства, позволяющие выполнять ввод текста путем сканирования бумажного оригинала, и программы распознавания образов для перевода документа из формата графического изображения в текстовый формат.

2. Операции редактирования (правки) – позволяют изменить уже существующий электронный документ путем добавления или удаления его фрагментов, перестановки частей документа, слияния нескольких файлов в один или, наоборот, разбиения единого документа на несколько более мелких. Ввод и редактирование при работе над текстом часто выполняют параллельно.

3. Операции форматирования – позволяют точно определить, как будет выглядеть текст на экране монитора или на бумаге после печати на принтере.

4. Операции внедрения – позволяют вставить в текстовый документ таблицы, графики, рисунки и другие объекты.

2. ВОЗМОЖНОСТИ ТЕКСТОВОГО ПРОЦЕССОРА
MS Office Word 2003



Дата добавления: 2019-12-09; просмотров: 1194;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.012 сек.