Статистический пакет обработки информации Statistica
Пакет STATISTICA – универсальный статистический пакет компании StatSoft Inc1. Первая версия пакета (STATISTICA for DOS) была выпущена в 1991 г. На сегодняшний день разработана 9-я версия пакета (STATISTICA 9). Русифицирована только 6-я версия (STATISTICA 6).
Рис. 19. Окно пакета STATISTICA
Стандартную комплектацию пакета STATISTICA составляют три модуля, которые могут приобретаться как единым пакетом, так и отдельно.
- Базовый пакет STATISTICA Base предоставляет обширные возможности выбора основных типов статистического анализа. Для эффективной работы базового пакета требуется как минимум 256 MB оперативной памяти. Минимальные требования к скорости процессора – 500 MHz.
- Модуль Линейные и Нелинейные Модели (Advanced Linear/NonLinearModels) содержит большой набор инструментов для моделирования и прогнозирования, включая возможности автоматического выбора модели и расширенные интерактивные средства визуализации.
- Модуль Многомерные разведочные технологии анализа (Multivariate Exploratory Techniques) служит для применения разведочного анализа различных типов данных в сочетании с интерактивными средствами визуализации.
Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и промышленных задач, – карты контроля качества, модули анализа процессов и планирования эксперимента.
Разработчики STATISTICA утверждают, что пакет может применяться для решения задач в таких областях, как:
- НИОКР, контроль качества, процесс мониторинга в химической, фармацевтической промышленности и в производстве потребительских товаров;
- гарантийный анализ и приложения для удаленного мониторинга в обрабатывающей промышленности;
- анализ рисков, сегментация потребителей и оценка кредитоспособности заемщиков в банковской сфере, в сфере предоставления финансовых услуг и в страховой деятельности.
акие модели в системе STATISTICA. Для этих целей обычно используется модуль Множественная регрессия.
В этом модуле собраны методы, позволяющие оценить зависимость одной переменной от нескольких других переменных.
Переменная, для которой строится зависимость, называется зависимой (по-английски dependent variable). Эта переменная входит в левую часть уравнения, описывающего зависимость (см. уравнение (*)). Переменные, от которых мы хотим построить зависимость, называются независимыми переменными (по-английски independent variables) или предикторами (от английского predict — предсказывать). Эта переменная входит в правую часть уравнения, описывающего зависимость. Сам термин множественная регрессия (по-английски multiple regression) означает, что модель может содержать несколько предикторов, позволяющих предсказывать зависимую переменную.
Итак, общая идея состоит в том, чтобы по значениям предикторов предсказывать значения зависимой переменной, например, по значениям продаж и расходам на рекламу в текущем и предыдущем месяце предсказывать продажи в следующем месяце.
Конечно, количество предикторов можно увеличить, например, ввести объем продаж у конкурентов или какие-то другие, имеющие смысл и доступные наблюдению переменные. Однако здесь имеется тонкость, предикторы могут оказаться зависимыми между собой.
Переменные, которые следует включить в модель, определяет специалист в предметной области. Затем нужно выполнить следующие действия.
Шаг 1. Запустите модуль Множественная регрессия.
Рис. 20.Модуль “Множественная регрессия”
Шаг 2. Введите исходные данные в файл системы STATISTICA. Назовите его, например, Beer.sta.
Рис. 21. Исходные данные в STATISTICA
Рис. 22. Исходные данные в STATISTICA
Шаг 3. Определите переменные в модели. Задайте S в качестве зависимой переменной и S1...P — в качестве независимых переменных, или предикторов. После этого стартовая панель модуля будет выглядеть так (рис. 23):
Рис. 23. Стартовая панель модуля
Шаг 4. Нажмите кнопку ОК. Появится диалоговое окно результатов, в котором отображаются итоги стандартной процедуры (рис. 24).
Измените процедуру на Пошаговую с включением. Для этого нажмите на кнопку Отмена и в появившемся диалоговом окне Определение модели выберите в поле Процедура опцию Пошаговая с включением.
В этой процедуре система начинает построение модели с одного предиктора, затем, используя F-критерий, в модель включается еще один предиктор и т. д. На каждом шаге вычисляется коэффициент множественной корреляции. Квадрат коэффициента множественной корреляции, коэффициент детерминации, свидетельствует о качестве построенной модели. Нажмите кнопку ОК.
Рис. 24. Итоги стандартной процедуры
В появившемся окне Пошаговая множественная регрессия снова нажмите ОК (рис.25).
Рис. 25.Очередной этап
Теперь получено диалоговое окно результатов, полученных с помощью пошаговой процедуры с включением. Следует отметить, что в нем указаны стандартизованные коэффициенты регрессии.
Заметим, что в модели должно присутствовать небольшое число предикторов, и естественно использовать пошаговый метод с включением предикторов. Если предполагается, что в модели должно присутствовать большое число предикторов, то естественно использовать метод с исключением.
Рис. 26.Окно с результатами
Шаг 5. Нажмите кнопку Итоговая таблица регрессии. Появится таблица результатов с подробными статистиками (рис. 27).
В столбце БЕТА показаны стандартизованные коэффициенты регрессии, а в столбце В — нестандартизованные коэффициенты. Все коэффициенты в таблице значимы, так как р-значения для каждого из них меньше заданной величины 0»05.
Рис. 27. Таблица результатов
Шаг 6. В окне результатов нажмите кнопку Анализ остатков.
Рис.28.Анализ остатков
Шаг 7.В диалоговом окне Анализ остатков нажмите кнопку Статистика Дарбина—Уотсона. Эта статистика позволяет исследовать зависимость между остатками. Формально остатки представляют собой разность:
наблюдаемые значения зависимой переменной минус оцененные с помощью модели значения зависимой переменной.
Рис. 28. Статистика Дарбина-Уотсона
Шаг 8.Нажмите кнопку Предсказанные и наблюдаемые.
Рис. 29.Предсказанные и наблюдаемые
Шаг 9.Вернитесь в окно Результаты множественной регрессии и нажмите кнопку Предсказать зависимую переменную. Далее в полях А1 и S1 укажите значения текущего месяца, а в полях Т и А — значения на следующий месяц.
Рис. 30.Работа с зависимой переменной
Нажмите кнопку ОК. Появится таблица результатов предсказания. На рисунке выделена ячейка, содержащая прогнозируемый объем продаж на следующий месяц.
Рис. 31.Прогноз на следующий месяц
Вопросы и задания для самопроверки
1. Раскройте основные направления применения пакета MatLab?
2. Дайте основные характеристики развития изучаемых пакетов в отраслях ВПК. медицине, мобильной связи, банковском секторе?
3. Выполните шаги указанные в параграфе, посвященном STATISTICA.
Заключение
В 50-70-е годы XX века стало очевидно, что человечество вступает в новую эпоху, дорогу к которой проложило бурное развитие техники и, в первую очередь, компьютеров, и НТР в целом.
В настоящее время вся деятельность человека немыслима без использования компьютера. Компьютер оказался полезен во многих делах человека. Человечество неотвратимо вступает в информационную эпоху. Вес информационной экономики постоянно возрастает. К числу наиболее актуальных проблем относится развитие и внедрение новых информационных технологий во все сферы человеческой деятельности, в том числе и в социальную работу.
Развитие компьютерных технологий позволило обществу подойти к глобальной проблеме информатизации, связанной с быстро возрастающими интеграционными процессами, проникающими во все сферы нашей деятельности: науку, культуру, образование, производство, управление.
Компьютерные технологии с их стремительно растущим потенциалом и быстро снижающимися издержками открывают большие возможности для новых форм организации труда и занятости в рамках, как отдельных корпораций, так и общества в целом. Спектр таких возможностей значительно расширяется - нововведения воздействуют на все сферы жизни людей, семью, образование, работу, географические границы человеческих общностей и т. д. Сегодня информационные технологии могут внести решающий вклад в укрепление взаимосвязи между ростом производительности труда, объемов производства, инвестиций и занятости.
Внедрение современных компьютерных информационных технологий определяется усложнением социально-экономических процессов в обществе, все большей их зависимостью от информации и организованных информационных потоков, невозможностью в современных условиях решать социальные, экономические, управленческие и иные задачи при обработке информации вручную. Автоматизированная обработка, хранение и распространение информации с использованием современных компьютерных и телекоммуникационных средств позволяет повысить качество информации, ее точность, объективность, оперативность и, как следствие этого, возможность принятия эффективных и своевременных управленческих решений. Появление, развитие и функционирование информационных технологий сопровождается процессом информатизации, который представляет собой «организованный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав граждан, органов государственной власти, органов местного самоуправления, организаций, общественных объединений на основе формирования и использования информационных ресурсов».
Анализируя роль и значение информационных технологий для современного этапа развития общества, можно сделать вполне обоснованные выводы о том, что эта роль является стратегически важной, а значение этих технологий в ближайшем будущем будет быстро возрастать. Именно этим технологиям принадлежит сегодня определяющая роль в области технологического развития государства. Аргументами для этих выводов является ряд уникальных свойств информационных технологий, которые и выдвигают их на приоритетное место по отношению к производственным и социальным технологиям.
Дата добавления: 2020-03-21; просмотров: 516;