Элементы математической статистики.
Цель: научитсяпроизводить первичную обработку лингвистических данных, находить числовые характеристики выборки, оценивать по выборке параметры генеральной совокупности.
Теоретические вопросы
1. Предмет и основные задачи математической статистики, математической статистики. Статистические исследования в лингвистике.
2. Генеральная и выборочная совокупность. Объем выборки, объём генеральной совокупности.
3. Репрезентативность выборки. Виды выборок. Способы отбора.
4. Вариационный ряд. Частота и относительная частота вариант выборки. Дискретный статистический ряд. Полигон.
5. Интервальный статистический ряд. Гистограмма.
6. Числовые характеристики выборки: а) выборочное среднее;
б) выборочная дисперсия; в) исправленная выборочная дисперсия;
г) исправленное выборочное среднее квадратическое отклонение.
7. Числовые характеристики вариационного ряда: мода, медиана, размах вариаций.
8. Статистическое оценивание неизвестных числовых характеристик случайных величин по выборке. Свойства статистических оценок.
9. Точечные оценки математического ожидания, дисперсии и вероятности по выборке.
10. Интервальная оценка параметров. Доверительный интервал, доверительная вероятность, уровень значимости. Доверительные интервалы для математического ожидания нормально распределённой генеральной совокупности.
Практические задания:
1). Для исследования распределения букв, передающих гласные, из русского газетного текста извлечено 10 газетных фрагментов по10 букв в каждом. При этом получен следующий неупорядоченный ряд появления гласных в каждом фрагменте: 4;4;4;5;3;4;5;6;4;3.
а) Представьте выборку в виде вариационного ряда.
б) Определите моду, медиану и размах вариаций выборки.
в) Постройте дискретный статистический ряд частот и относительных частот.
г) Постройте полигон относительных частот
д) Найдите числовые характеристики статистического распределения: среднее выборочное, выборочную дисперсию, исправленную выборочную дисперсию, исправленное среднее квадратическое отклонение (стандартное отклонение).
е) Определите по выборке наилучшие оценки математического ожидания М(Х) и дисперсии D(X) генеральной совокупности Х-частота гласных в русском публицистическом тексте.
2). При изучении Коми-Пермяцкого языка, выбрано 16 фрагментов по 100 словоупотреблений. Для каждого фрагмента найдено среднее значение длины слова. По результатам измерений получена выборка: 3,7; 5,2; 5,7; 6,2; 4,7; 4,2; 6,7; 7,2; 5,2; 6,2;4,7; 3,9; 5,8; 6,5; 5,1; 7,7. Постройте по выборке интервальный статистический ряд и гистограмму относительных частот.
3) Исследуются стихотворные тексты Николая Заболоцкого. Выбрали 10 фрагментов из стихов поэта по 100 словоупотреблений в каждой и нашли количество глаголов в каждом фрагменте. Получены следующие данные: 16; 20; 13; 15; 16; 14; 13;19; 12; 18.
При условии, что частота употребления глаголов рапределена по нормальному закону, определить абсолютную и относительную ошибку измерения среднего значения числа глаголов в стихотворных текстах Н. Заболоцкого и построить для истинного среднего значения 95% доверительный интервал.
4) Используя данные примера 3, определить, какое минимальное количество фрагментов из текстов стихов Н. Заболоцкого необходимо взять, чтобы а) абсолютная ошибка измерения среднего значения числа глаголов не превышала 2 с доверительной вероятностью 0,90; б) относительная ошибка измерения не превышала 5% с надёжностью 95%.
5) В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.
Дата добавления: 2016-06-05; просмотров: 1923;