Шаг 1. Поиск в Интернете текстов с суммарным объемом от около 10 тысяч символов на каждом из двух языках согласно варианту задания.
Шаг 1. Поиск в Интернете текстов с суммарным объемом от около 10 тысяч символов на каждом из двух языках согласно варианту задания.
Вообще, источник текстов может быть любым – газеты, книги, радио, телевидение и т.д. В настоящее время удобнее всего использовать Интернет, т.к. в этой сети можно найти тексты на практически любом языке и ввиду удобства его представления в электронной форме, готовой для компьютерной обработки.
Объем текста должен быть достаточным для расчета с достаточной точностью вероятностей появления в нем букв или других символов, составляющих письмо (например, иероглифов). Почему вероятностей? Потому, что именно на основе вероятностей на основе меры Шеннона находится количество информации в сообщении (см. формула 1 и 2). Из теории вероятностей (раздел математики) следует, что приближенно вероятность (оценку вероятности) какого-либо события можно вычислить, проведя множество экспериментов. Затем подсчитывается и количество случаев возникновения нужного события. Это количество делится на число проведенных экспериментов. В результате получается оценка вероятности возникновения нужного события. Эта оценка будет тем точнее, чем больше экспериментов будет проведено. Если пользоваться терминами нашей задачи, событиями являются факты появления нужной буквы в тексте, а экспериментами – появления букв текста. Число экспериментов – количество букв в тексте. Поэтому для увеличения точности расчета вероятностей появления отдельных букв (формула 1) и комбинаций из двух букв (формула 2) следует максимально увеличить длину текста. Однако возможности компьютеров небезграничны. Поэтому опытным путем была установлена верхняя граница количества букв – около 10000 букв.
Найденные в сети Интернет тексты через буфер промежуточного хранения передаются в текстовый процессор Word. По мере передачи текстов просматривается информация об объеме накопленного текста. Для этого выбирается меню Сервис ->Статистика (рис. 1).
Рис.1. Окно Статистика
После накопления нужного объема (около 10 тыс. символов без пробелов) для удобства дальнейшей обработки абзацы на экране целесообразно сузить приблизительно на 0,5 ширины страницы. Для этого можно, например, значительно увеличить правое поле страницы (рис. 2).
Рис. 2. Изменение размера правого поля.
Затем информация сохраняется в файле типа Обычный текст (*.txt). В процессе сохранения на экран выводится диалоговое окно Преобразование файла (рис. 3).
Рис. 3. Окно Преобразование файла
В этом окне нужно выбрать опции Другая, Уникод, Вставлять разрывы строк. Надо проверить также, что весь текст (прокрутить его сверху вниз) в нижней части окна не содержит символов, помеченных красным цветом. В противном случае следует подобрать другую кодировку. Окончательно текст сохраняется после нажатий кнопки ОК.
Дата добавления: 2021-04-21; просмотров: 338;