Генеральная и выборочная совокупность.
Математическая статистика – раздел математики, который изучает способы отбора, группировки, систематизации и анализа результатов наблюдений случайных явлений для получения научно обоснованных выводов.
Методы математической статистики позволяют строить оптимальные математические модели массовых, повторяющихся явлений.
Предметом математической статистики являются математические методы обработки и анализа статистических данных.
Цель – получение сведений о некотором признаке всей совокупности по выбранной определённым образом части этой совокупности.
Математическая статистика возникла в середине XVIII века. в работах П. Лапласа, К Пирсона, Я. Бернулли. В XIX в. Развитию статистической методологии способствовали также труды английских учёных Ф. Гальтона, К. Пирсона, М. Митчела, В. Госсета.
Большой вклад в развитие математической статистики внесли русские учёные В.Я. Буняковский, П.Л. Чебышёв; А.А. Марков; А.М. Ляпунов, А.Н. Колмогоров; Б.В. Гнеденко и другие.
Генеральная совокупность– совокупность всех мыслимых результатов наблюдений некоторого признака всех изучаемых объектов (иногда – сами объекты). Частным случаем генеральной совокупности является случайная величина Х.
Выборка (выборочная совокупность) – совокупность результатов наблюдений, выбранных случайно из генеральной совокупности.
Так генеральной совокупностью может быть: рост всех людей, разряды всех рабочих завода, частота употребления определённой части речи во всех произведениях изучаемого автора, средний балл аттестата всех выпускников и т. п.
Выборкой может быть: рост 20 случайно выбранных студентов, количество глаголов в выбранных произвольно 50 однородных отрывках текста длиной 500 словоупотреблений, средний балл аттестата 100 выпускников, выбранных случайно из школ города и т.п.
Если исследуются произведения А.С. Пушкина, то генеральной совокупностью могут быть длины словоформ всех текстов,написанных А.С. Пушкиным, а выборкой – длины словоформ отдельного произведения, например, повести «Капитанская дочка».
Объём генеральной совокупностиN -количество результатов наблюдений в генеральной совокупности.
Объём выборкиn – число результатов наблюдений, выбранных случайно из генеральной совокупности.
Математическая статистика тесно связана с теорией вероятностей. Связующим звеном между теорией вероятностей и математической статистикой являются предельные теоремы теории вероятностей. В математической статистике по выборке необходимо установить неизвестное распределение вероятностей или объективно оценить параметры распределения генеральной совокупности.
В настоящее время методы математической статистики используются практически повсеместно.
Выборка называется репрезентативной,если она верно отражает свойство генеральной совокупности. Репрезентативность выборки достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными. Для того чтобы выборка была репрезентативной применяют различные способы отбора объектов изучения.
Виды отбора: простой, механический, серийный, типический.
Простой. Произвольно отбираются элементы из всей генеральной совокупности.
Механический. Выбирают каждый 10 (25, 30 и т.п.) объект из генеральной совокупности.
Серийный. Проводится исследование в каждой серии (например, из текста выбирают 10 отрывков по 500 словоупотреблений – 10 серий).
Типический. Генеральную совокупность по определённому признаку разделяют на типические группы. Количество серий, извлекаемых из каждой такой группы, определяется удельным весом этой группы в генеральной совокупности.
Б.Н. Головин посвятил организации статистического изучения языка и речи главу своего труда «Язык и статистика». [Головин, 1971, с.64].
Пусть лингвист выбирает из интересующего его текста несколько проб (фрагментов) определённой длины.
Какой длины должен быть каждый фрагмент?
Чем активнее интересующие нас факты языка, т.е. чем чаще они применяются, тем меньшие по длине фрагменты нужны, чтобы проступила изучаемая закономерность. Например, для того, чтобы обнаружилась закономерность количественной активности имени существительного в публицистическом тексте, длина одного фрагмента должна быть 100 или даже 50 знаменательных слов, но для того, чтобы уловить закономерность частотного функционирования отдельного слова (весна, день и т.д.) требуются фрагменты в несколько тысяч слов каждый. Для успешного статистического изучения многих явлений морфологии синтаксиса достаточно удобны фрагменты длиной 500 или даже 250 знаменательных слов (если изучаются части речи, члены предложения, а не предложения в целом) или в 250 или даже 100 самостоятельных предложений (если изучаются предложения в целом).
Дата добавления: 2016-06-05; просмотров: 2495;