Элементы математической статистики.


Цель: научитсяпроизводить первичную обработку лингвистических данных, находить числовые характеристики выборки, оценивать по выборке параметры генеральной совокупности.

Теоретические вопросы

1. Предмет и основные задачи математической статистики, математической статистики. Статистические исследования в лингвистике.

2. Генеральная и выборочная совокупность. Объем выборки, объём генеральной совокупности.

3. Репрезентативность выборки. Виды выборок. Способы отбора.

4. Вариационный ряд. Частота и относительная частота вариант выборки. Дискретный статистический ряд. Полигон.

5. Интервальный статистический ряд. Гистограмма.

6. Числовые характеристики выборки: а) выборочное среднее;

б) выборочная дисперсия; в) исправленная выборочная дисперсия;

г) исправленное выборочное среднее квадратическое отклонение.

7. Числовые характеристики вариационного ряда: мода, медиана, размах вариаций.

8. Статистическое оценивание неизвестных числовых характеристик случайных величин по выборке. Свойства статистических оценок.

9. Точечные оценки математического ожидания, дисперсии и вероятности по выборке.

10. Интервальная оценка параметров. Доверительный интервал, доверительная вероятность, уровень значимости. Доверительные интервалы для математического ожидания нормально распределённой генеральной совокупности.

Практические задания:

1). Для исследования распределения букв, передающих гласные, из русского газетного текста извлечено 10 газетных фрагментов по10 букв в каждом. При этом получен следующий неупорядоченный ряд появления гласных в каждом фрагменте: 4;4;4;5;3;4;5;6;4;3.

а) Представьте выборку в виде вариационного ряда.

б) Определите моду, медиану и размах вариаций выборки.

в) Постройте дискретный статистический ряд частот и относительных частот.

г) Постройте полигон относительных частот

д) Найдите числовые характеристики статистического распределения: среднее выборочное, выборочную дисперсию, исправленную выборочную дисперсию, исправленное среднее квадратическое отклонение (стандартное отклонение).

е) Определите по выборке наилучшие оценки математического ожидания М(Х) и дисперсии D(X) генеральной совокупности Х-частота гласных в русском публицистическом тексте.

2). При изучении Коми-Пермяцкого языка, выбрано 16 фрагментов по 100 словоупотреблений. Для каждого фрагмента найдено среднее значение длины слова. По результатам измерений получена выборка: 3,7; 5,2; 5,7; 6,2; 4,7; 4,2; 6,7; 7,2; 5,2; 6,2;4,7; 3,9; 5,8; 6,5; 5,1; 7,7. Постройте по выборке интервальный статистический ряд и гистограмму относительных частот.

3) Исследуются стихотворные тексты Николая Заболоцкого. Выбрали 10 фрагментов из стихов поэта по 100 словоупотреблений в каждой и нашли количество глаголов в каждом фрагменте. Получены следующие данные: 16; 20; 13; 15; 16; 14; 13;19; 12; 18.

При условии, что частота употребления глаголов рапределена по нормальному закону, определить абсолютную и относительную ошибку измерения среднего значения числа глаголов в стихотворных текстах Н. Заболоцкого и построить для истинного среднего значения 95% доверительный интервал.

4) Используя данные примера 3, определить, какое минимальное количество фрагментов из текстов стихов Н. Заболоцкого необходимо взять, чтобы а) абсолютная ошибка измерения среднего значения числа глаголов не превышала 2 с доверительной вероятностью 0,90; б) относительная ошибка измерения не превышала 5% с надёжностью 95%.

5) В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.

 



Дата добавления: 2016-06-05; просмотров: 1923;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.009 сек.