Интервальная оценка параметров генеральной лингвистической совокупности.
Одним из важных вопросов квантитативной лингвистики является выявление объективных статистических признаков для отдельных разновидностей языка (стилей, подъязыков, жанров, авторского стиля). Для этого из каждой разновидности языка как генеральной совокупности извлекают выборки, строят доверительные интервалы для параметров каждой выборки с большой надёжностью. Если доверительные интервалы пересекаются, то данный параметр не может являться различительной характеристикой рассматриваемых стилей. В противном случае, параметр принимается за объективную статистическую характеристику различия стилей и жанров.
Задача 4. Была сделана попытка разграничить жанры и стили современного украинского языка с помощью частоты употребления в них глагольных словоформ. Извлечено 250 фрагментов по 500 словоупотреблений в каждом. Для каждого жанра и стиля была вычислена средняя частота глагольных словоупотреблений и исправленное выборочное среднее квадратическое отклонение S, а также S( ) . Результаты показаны в таблице:
Жанры и стили современного украинского литературного языка | Число выборок | S | S( ) | |
Язык художественной литературы Драма Проза Поэзия | 90,5 91,2 82,1 | 15,36 13,45 10,44 | 1,98 1,73 1,48 | |
Общественно-политическая проза | 48,0 | 10,55 | 1,35 | |
Научно-техническая проза | 61,7 | 9,92 | 1,40 |
Таблица2. Статистические характеристики употребления глаголов
в различных стилях современного украинского языка
Используя таблицу 2, построить доверительные интервалы для математического ожидания частоты употребления глагольных форм с доверительной вероятностью 0,95 (0,996) для каждого стиля и жанра и сделать вывод о возможности или невозможности обособления данных жанров и стилей с помощью такого статистического параметра, как частота употребления глагольных форм.
Задача 5.В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.
Решение. Распределение глагольных форм в тексте при большом количестве испытаний можно считать нормальным. Воспользуемся формулой для нахождения доверительного итервала вероятности события А=«число глагольных форм»: , где– – относительная частота события А.
– абсолютная ошибка.
Определим t из равенства : .
По таблице значений функции Лапласа находим t=1,96.
Тогда
Доверительный интервал для оценки вероятности события А
(0,1564-0,0016; 0,1564+0,0016)
Ответ: вероятность появления глагольного словлупотребления в молдавских публицистических текстах попадает в интервал (0,1548;0,1580) с надёжностью 95%.
Дата добавления: 2016-06-05; просмотров: 1493;