Регрессивный анализ в статистике

В статистическом моделировании регрессионный анализ представляет собой исследования, применяемые с целью оценки взаимосвязи между переменными. Этот математический метод включает в себя множество других методов для моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми. Говоря более конкретно, регрессионный анализ помогает понять, как меняется типичное значение зависимой переменной, если одна из независимых переменных изменяется, в то время как другие независимые переменные остаются фиксированными.

Во всех случаях целевая оценка является функцией независимых переменных и называется функцией регрессии. В регрессионном анализе также представляет интерес характеристика изменения зависимой переменной как функции регрессии, которая может быть описана с помощью распределения вероятностей.

Задачи регрессионного анализа

Данный статистический метод исследования широко используется для прогнозирования, где его использование имеет существенное преимущество, но иногда это может приводить к иллюзии или ложным отношениям, поэтому рекомендуется аккуратно его использовать в указанном вопросе, поскольку, например, корреляция не означает причинно-следственной связи.

Разработано большое число методов для проведения регрессионного анализа, такие как линейная и обычная регрессии по методу наименьших квадратов, которые являются параметрическими. Их суть в том, что функция регрессии определяется в терминах конечного числа неизвестных параметров, которые оцениваются из данных. Непараметрическая регрессия позволяет ее функции лежать в определенном наборе функций, которые могут быть бесконечномерными.

Как статистический метод исследования, регрессионный анализ на практике зависит от формы процесса генерации данных и от того, как он относится к регрессионному подходу. Так как истинная форма процесса данных, генерирующих, как правило, неизвестное число, регрессионный анализ данных часто зависит в некоторой степени от предположений об этом процессе. Эти предположения иногда проверяемы, если имеется достаточное количество доступных данных. Регрессионные модели часто бывают полезны даже тогда, когда предположения умеренно нарушены, хотя они не могут работать с максимальной эффективностью.

В более узком смысле регрессия может относиться конкретно к оценке непрерывных переменных отклика, в отличие от дискретных переменных отклика, используемых в классификации. Случай непрерывной выходной переменной также называют метрической регрессией, чтобы отличить его от связанных с этим проблем.

История

Самая ранняя форма регрессии — это всем известный метод наименьших квадратов. Он был опубликован Лежандром в 1805 году и Гауссом в 1809. Лежандр и Гаусс применили метод к задаче определения из астрономических наблюдений орбиты тел вокруг Солнца (в основном кометы, но позже и вновь открытые малые планеты). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году, включая вариант теоремы Гаусса-Маркова.

Термин «регресс» придумал Фрэнсис Гальтон в XIX веке, чтобы описать биологическое явление. Суть была в том, что рост потомков от роста предков, как правило, регрессирует вниз к нормальному среднему. Для Гальтона регрессия имела только этот биологический смысл, но позже его работа была продолжена Удни Йолей и Карлом Пирсоном и выведена к более общему статистическому контексту. В работе Йоля и Пирсона совместное распределение переменных отклика и пояснительных считается гауссовым. Это предположение было отвергнуто Фишером в работах 1922 и 1925 годов. Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не должны быть таковым. В связи с этим предположение Фишера ближе к формулировке Гаусса 1821 года. До 1970 года иногда уходило до 24 часов, чтобы получить результат регрессионного анализа.

Методы регрессионного анализа продолжают оставаться областью активных исследований. В последние десятилетия новые методы были разработаны для надежной регрессии; регрессии с участием коррелирующих откликов; методы регрессии, вмещающие различные типы недостающих данных; непараметрической регрессии; байесовские методов регрессии; регрессии, в которых переменные прогнозирующих измеряются с ошибкой; регрессии с большей частью предикторов, чем наблюдений, а также причинно-следственных умозаключений с регрессией.

Регрессионные модели

Модели регрессионного анализа включают следующие переменные:

  • Неизвестные параметры, обозначенные как бета, которые могут представлять собой скаляр или вектор.
  • Независимые переменные, X.
  • Зависимые переменные, Y.

В различных областях науки, где осуществляется применение регрессионного анализа, используются различные термины вместо зависимых и независимых переменных, но во всех случаях регрессионная модель относит Y к функции X и β.

Приближение обычно оформляется в виде E (Y | X) = F (X, β). Для проведения регрессионного анализа должен быть определен вид функции f. Реже она основана на знаниях о взаимосвязи между Y и X, которые не полагаются на данные. Если такое знание недоступно, то выбрана гибкая или удобная форма F.

Зависимая переменная Y

Предположим теперь, что вектор неизвестных параметров β имеет длину k. Для выполнения регрессионного анализа пользователь должен предоставить информацию о зависимой переменной Y:

  • Если наблюдаются точки N данных вида (Y, X), где N точки к данным. В этом случае имеется достаточно информации в данных, чтобы оценить уникальное значение для β, которое наилучшим образом соответствует данным, и модель регрессии, когда применение к данным можно рассматривать как переопределенную систему в β.

В последнем случае регрессионный анализ предоставляет инструменты для:

  • Поиска решения для неизвестных параметров β, которые будут, например, минимизировать расстояние между измеренным и предсказанным значением Y.
  • При определенных статистических предположениях, регрессионный анализ использует избыток информации для предоставления статистической информации о неизвестных параметрах β и предсказанные значения зависимой переменной Y.

Необходимое количество независимых измерений

Рассмотрим модель регрессии, которая имеет три неизвестных параметра: β, β1 и β2. Предположим, что экспериментатор выполняет 10 измерений в одном и том же значении независимой переменной вектора X. В этом случае регрессионный анализ не дает уникальный набор значений. Лучшее, что можно сделать, оценить среднее значение и стандартное отклонение зависимой переменной Y. Аналогичным образом измеряя два различных значениях X, можно получить достаточно данных для регрессии с двумя неизвестными, но не для трех и более неизвестных.

Если измерения экспериментатора проводились при трех различных значениях независимой переменной вектора X, то регрессионный анализ обеспечит уникальный набор оценок для трех неизвестных параметров в β.

В случае общей линейной регрессии приведенное выше утверждение эквивалентно требованию, что матрица X Т X обратима.

Статистические допущения

Когда число измерений N больше, чем число неизвестных параметров k и погрешности измерений εi, то, как правило, распространяется затем избыток информации, содержащейся в измерениях, и используется для статистических прогнозов относительно неизвестных параметров. Этот избыток информации называется степенью свободы регрессии.

Основополагающие допущения

Классические предположения для регрессионного анализа включают в себя:

  • Выборка является представителем прогнозирования логического вывода.
  • Ошибка является случайной величиной со средним значением нуля, который является условным на объясняющих переменных.
  • Независимые переменные измеряются без ошибок.
  • В качестве независимых переменных (предикторов) они линейно независимы, то есть не представляется возможным выразить любой предсказатель в виде линейной комбинации остальных.
  • Ошибки являются некоррелированными, то есть ковариационная матрица ошибок диагоналей и каждый ненулевой элемент являются дисперсией ошибки.
  • Дисперсия ошибки постоянна по наблюдениям (гомоскедастичности). Если нет, то можно использовать метод взвешенных наименьших квадратов или другие методы.
Читайте также:  Как правильно ставить ударение в слове ходатайство

Эти достаточные условия для оценки наименьших квадратов обладают требуемыми свойствами, в частности эти предположения означают, что оценки параметров будут объективными, последовательными и эффективными, в особенности при их учете в классе линейных оценок. Важно отметить, что фактические данные редко удовлетворяют условиям. То есть метод используется, даже если предположения не верны. Вариация из предположений иногда может быть использована в качестве меры, показывающей, насколько эта модель является полезной. Многие из этих допущений могут быть смягчены в более продвинутых методах. Отчеты статистического анализа, как правило, включают в себя анализ тестов по данным выборки и методологии для полезности модели.

Кроме того, переменные в некоторых случаях ссылаются на значения, измеренные в точечных местах. Там могут быть пространственные тенденции и пространственные автокорреляции в переменных, нарушающие статистические предположения. Географическая взвешенная регрессия — единственный метод, который имеет дело с такими данными.

Линейный регрессионный анализ

В линейной регрессии особенностью является то, что зависимая переменная, которой является Yi, представляет собой линейную комбинацию параметров. Например, в простой линейной регрессии для моделирования n-точек используется одна независимая переменная, xi, и два параметра, β и β1.

При множественной линейной регрессии существует несколько независимых переменных или их функций.

При случайной выборке из популяции ее параметры позволяют получить образец модели линейной регрессии.

В данном аспекте популярнейшим является метод наименьших квадратов. С помощью него получают оценки параметров, которые минимизируют сумму квадратов остатков. Такого рода минимизация (что характерно именно линейной регрессии) этой функции приводит к набору нормальных уравнений и набору линейных уравнений с параметрами, которые решаются с получением оценок параметров.

При дальнейшем предположении, что ошибка популяции обычно распространяется, исследователь может использовать эти оценки стандартных ошибок для создания доверительных интервалов и проведения проверки гипотез о ее параметрах.

Нелинейный регрессионный анализ

Пример, когда функция не является линейной относительно параметров, указывает на то, что сумма квадратов должна быть сведена к минимуму с помощью итерационной процедуры. Это вносит много осложнений, которые определяют различия между линейными и нелинейными методами наименьших квадратов. Следовательно, и результаты регрессионного анализа при использовании нелинейного метода порой непредсказуемы.

Расчет мощности и объема выборки

Здесь, как правило, нет согласованных методов, касающихся числа наблюдений по сравнению с числом независимых переменных в модели. Первое правило было предложено Доброй и Хардином и выглядит как N = t^n, где N является размер выборки, n — число независимых переменных, а t есть числом наблюдений, необходимых для достижения желаемой точности, если модель имела только одну независимую переменную. Например, исследователь строит модель линейной регрессии с использованием набора данных, который содержит 1000 пациентов (N). Если исследователь решает, что необходимо пять наблюдений, чтобы точно определить прямую (м), то максимальное число независимых переменных, которые модель может поддерживать, равно 4.

Другие методы

Несмотря на то что параметры регрессионной модели, как правило, оцениваются с использованием метода наименьших квадратов, существуют и другие методы, которые используются гораздо реже. К примеру, это следующие методы:

  • Байесовские методы (например, байесовский метод линейной регрессии).
  • Процентная регрессия, использующаяся для ситуаций, когда снижение процентных ошибок считается более целесообразным.
  • Наименьшие абсолютные отклонения, что является более устойчивым в присутствии выбросов, приводящих к квантильной регрессии.
  • Непараметрическая регрессия, требующая большого количества наблюдений и вычислений.
  • Расстояние метрики обучения, которая изучается в поисках значимого расстояния метрики в заданном входном пространстве.

Программное обеспечение

Все основные статистические пакеты программного обеспечения выполняются с помощью наименьших квадратов регрессионного анализа. Простая линейная регрессия и множественный регрессионный анализ могут быть использованы в некоторых приложениях электронных таблиц, а также на некоторых калькуляторах. Хотя многие статистические пакеты программного обеспечения могут выполнять различные типы непараметрической и надежной регрессии, эти методы менее стандартизированы; различные программные пакеты реализуют различные методы. Специализированное регрессионное программное обеспечение было разработано для использования в таких областях как анализ обследования и нейровизуализации.

1. Определение и назначение множественного регрессионного анализа (МРА)

Современная политическая наука исходит из положения о взаимосвязи всех явлений и процессов в обществе. Невозможно понимание событий и процессов, прогнозирование и управление явлениями политической жизни без изучения связей и зависимостей, существующих в политической сфере жизнедеятельности общества. Одна из наиболее распространенных задач политического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Помогает решить эту задачу целый класс статистических приемов анализа, объединенных общим названием «регрессионный анализ» (или, как его еще называют, «корреляционно-регрессионный анализ»). Однако если корреляционный анализ позволяет оценить силу связи между двумя переменными, то с помощью регрессионного анализа можно определить вид этой связи, прогнозировать зависимость значения какой-либо переменной от значения другой переменной.

Для начала вспомним, что такое корреляция. Корреляционным называют важнейший частный случай статистической связи, состоящий в том, что равным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака х закономерным образом изменяется среднее значение признака у, в то время как в каждом отдельном случае значение признака у (с различными вероятностями) может принимать множество различных значений.

Появление в статистике термина «корреляция» (а политология привлекает для решения своих задач достижения статистики, которая, таким образом, является смежной политологии дисциплиной) связано с именем английского биолога и статистика Френсиса Галь- тона, предложившего в XIX в. теоретические основы корреляционно- регрессионного анализа. Термин «корреляция» в науке был известен и ранее. В частности, в палеонтологии еще в XVIII в. его применил французский ученый Жорж Кювье. Он ввел так называемый закон корреляции, при помощи которого по найденным в ходе раскопок останкам животных можно было восстановить их облик.

Известна история, связанная с именем этого ученого и его законом корреляции. Так, в дни университетского праздника студенты, решившие подшутить над известным профессором, натянули на одного студента козлиную шкуру с рогами и копытами. Тот залез в окно спальни Кювье и закричал: «Я тебя съем». Профессор проснулся, посмотрел на силуэт и ответил: «Если у тебя есть рога и копыта, то ты — травоядное животное и съесть меня не можешь. А за незнание закона корреляции получишь двойку». Повернулся на другой бок и уснул. Шутка шуткой, но на этом примере мы наблюдаем частный случай применения множественного корреляционно-регрессионного анализа. Здесь профессор, исходя из знания значений двух наблюдаемых признаков (наличие рогов и копыт), на основании закона корреляции вывел среднее значение третьего признака (класс, к которому относится данное животное — травоядное). В данном случае речь не идет о конкретном значении этой переменной (т.е. данное животное могло принимать различные значения по номинальной шкале — это мог быть и козел, и баран, и бык. ).

Теперь перейдем к термину «регрессия». Собственно говоря, он не связан со смыслом тех статистических задач, которые решаются при помощи этого метода. Объяснение термину можно дать только исходя из знания истории развития методов изучения связей между признаками. Одним из первых примеров исследований такого рода была работа статистиков Ф. Гальтона и К. Пирсона, пытавшихся обнаружить закономерность между ростом отцов и их детей по двум наблюдаемым признакам (где X— рост отцов и У— рост детей). В ходе своего исследования они подтвердили начальную гипотезу о том, что в среднем у высоких отцов вырастают в среднем высокие дети. Этот же принцип действует в отношении низких отцов и детей. Однако если бы ученые на этом остановились, то их труды никогда не упоминались бы в учебниках по статистике. Исследователи обнаружили еще одну закономерность в рамках уже упоминавшейся подтвержденной гипотезы. Они доказали, что у очень высоких отцов рождаются в среднем высокие дети, но не сильно отличающиеся ростом от детей, чьи отцы хоть и выше среднего, но не сильно отличаются от средневысокого роста. То же и у отцов с очень маленьким ростом (отклоняющимся от средних показателей низкорослой группы) — их дети в среднем не отличались по росту от сверстников, чьи отцы были просто невысокими. Функцию, описывающую эту закономерность, они и назвали функцией регрессии. После этого исследования все уравнения, описывающие подобные функции и построенные сходным образом, стали именовать уравнениями регрессии.

Читайте также:  Безналичный расчет с физическими лицами и ккт

Регрессионный анализ — один из методов многомерного статистического анализа данных, объединяющий совокупность статистических приемов, предназначенных для изучения или моделирования связей между одной зависимой и несколькими (или одной) независимыми переменными. Зависимая переменная по принятой в статистике традиции называется откликом и обозначается как V Независимые переменные называются предикторами и обозначаются как X. В ходе анализа некоторые переменные окажутся слабо связанными с откликом и будут в конечном счете исключены из анализа. Оставшиеся переменные, связанные с зависимой, могут именоваться еще факторами.

Регрессионный анализ дает возможность предсказать значения одной или нескольких переменных в зависимости от другой переменной (например, склонность к неконвенциональному политическому поведению в зависимости от уровня образования) или нескольких переменных. Рассчитывается он на PC. Для составления регрессионного уравнения, позволяющего измерить степень зависимости контролируемого признака от факторных, необходимо привлечь профессиональных математиков-программистов. Регрессионный анализ может оказать неоценимую услугу при построении прогностических моделей развития политической ситуации, оценке причин социальной напряженности, при проведении теоретических экспериментов. Регрессионный анализ активно используется для изучения влияния на электоральное поведение граждан ряда социально-демографических параметров: пола, возраста, профессии, места проживания, национальности, уровня и характера доходов.

Применительно к регрессионному анализу используют понятия независимой и зависимой переменных. Независимой называют переменную, которая объясняет или служит причиной изменения другой переменной. Зависимой называют переменную, значение которой объясняют воздействием первой переменной. Например, на президентских выборах в 2004 г. определяющими факторами, т.е. независимыми переменными, выступили такие показатели, как стабилизация материального положения населения страны, уровень известности кандидатов и фактор incumbency. В качестве зависимой переменной в данном случае можно считать процент голосов, поданных за кандидатов. Аналогично в паре переменных «возраст избирателя» и «уровень электоральной активности» независимой является первая, зависимой — вторая.

Регрессионный анализ позволяет решать следующие задачи:

  • 1) установить сам факт наличия или отсутствия статистически значимой связи между Ки X;
  • 2) построить наилучшие (в статистическом смысле) оценки функции регрессии;
  • 3) по заданным значениям Xпостроить прогноз для неизвестного У
  • 4) оценить удельный вес влияния каждого фактора X на У и соответственно исключить из модели несущественные признаки;
  • 5) посредством выявления причинных связей между переменными частично управлять значениями Рпутем регулирования величин объясняющих переменных X.

Регрессионный анализ связан с необходимостью выбора взаимно независимых переменных, влияющих на значение исследуемого показателя, определения формы уравнения регрессии, оценки параметров при помощи статистических методов обработки первичных социологических данных. В основе этого вида анализа лежит представление о форме, направлении и тесноте (плотности) взаимосвязи. Различают парную и множественную регрессию в зависимости от количества исследуемых признаков. На практике регрессионный анализ обычно выполняется совместно с корреляционным. Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой. При этом ра зл и ч а ют л инейную и нелинейную регрессии. При описании политических процессов в равной степени обнаруживаются оба варианта регрессии.

Диаграмма рассеяния для распределения взаимозависимости интереса к статьям на политические темы ( У) и образования респондентов (X) представляет собой линейную регрессию (рис. 30).

Рис. 30. Схема линейной регрессии

Диаграмма рассеяния для распределения уровня электоральной активности (У) и возраста респондента (А) (условный пример) представляет собой нелинейную регрессию (рис. 31).

Рис. 31. Схема нелинейной регрессии

Для описания взаимосвязи двух признаков (А’и У) в модели парной регрессии используют линейное уравнение

где а, — случайная величина погрешности уравнения при вариации признаков, т.е. отклонение уравнения от «линейности».

Для оценки коэффициентов а и b используют метод наименьших квадратов, предполагающий, что сумма квадратов отклонений каждой точки на диаграмме разброса от линии регрессии должна быть минимальной. Коэффициенты а ч Ь могут быть вычислены при помощи системы уравнений:

Метод оценки наименьших квадратов дает такие оценки коэффициентов а и Ь, при которых прямая проходит через точку с координатами х и у, т.е. имеет место соотношение у = ах + Ь. Графическое изображение уравнения регрессии называется теоретической линией регрессии. При линейной зависимости коэффициент регрессии представляет на графике тангенс угла наклона теоретической линии регрессии к оси абсцисс. Знак при коэффициенте показывает направление связи. Если он больше нуля, то связь прямая, если меньше — обратная.

В приведенном ниже примере из исследования «Политический Петербург-2006» (табл. 56) показана линейная взаимосвязь представлений граждан о степени удовлетворенности своей жизнью в настоящем и ожиданиями изменений качества жизни в будущем. Связь прямая, линейная (стандартизованный коэффициент регрессии равен 0,233, уровень значимости — 0,000). В данном случае коэффициент регрессии невысокий, однако он превышает нижнюю границу статистически значимого показателя (нижнюю границу квадрата статистически значимого показателя коэффициента Пирсона).

Влияние качества жизни горожан в настоящем на ожидания

Зависимость

Основная задача регрессионного и корреляционного анализа состоит в выявлении связи между случайными переменными. Например, на свободном рынке обычно наблюдается большая степень корреляции между размером урожая и рыночными ценами на соответствующую продукцию сельского хозяйства. Часто корреляция привлекает наше внимание к причинно-следственным связям, существующим между изучаемыми двумя рядами величин. В области естественных и общественных наук установление существенной корреляции часто заставляет нас искать возможные связи между явлениями, которые в противном случае могли остаться незамеченными.

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определённое, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определённое условное распределение другой переменной. Такая зависимость получила название статистической.

Возникновение понятия статистической связи обусловливается тем, что зависимая переменная подвержена влиянию неконтролируемых или неучтённых факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками.

Статистическая зависимость между двумя переменными, при которой каждому значению одной переменной соответствует определённое условное математическое ожидание (среднее значение) другой, называется корреляционной.

Функциональная зависимость представляет собой частный случай корреляционной. При функциональной зависимости с изменением значений некоторой переменной xоднозначно изменяется определенное значение переменной y, при корреляционной – определённое среднее значение (математическое ожидание) y, а при статистической – определённое распределение переменной y. Каждая корреляционная зависимость является статистической, но не каждая статистическая зависимость является корреляционной.

Читайте также:  Претензия по договору цессии

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей корреляционного анализа является выявление связи между случайными переменными и оценка её степени. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными.

Корреляция

Корреляция определяет степень, с которой значения двух переменных «пропорциональны» друг другу. Пропорциональность означает просто линейную зависимость. Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона). Таким образом, это простейшая регрессионная модель, описывающая зависимость одной переменной от одного фактора.

В производственных условиях обычно информации, полученной из диаграмм рассеяния при условии их корректного построения, бывает достаточно для того, чтобы оценить степень зависимости у от х. Но в ряде случаев требуется дать количественную оценку степени связи между величинамих и у. Такой оценкой является коэффициент корреляции.

Отметим основные характеристики этого показателя.

  • Он может принимать значения от –1 до +1. Знак «+» означает, что связь прямая (когда значения одной переменной возрастают, значения другой переменной также возрастают), «–» означает, что связь обратная.
  • Чем ближе коэффициент к |1|, тем теснее линейная связь. При величине коэффициента корреляции менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 – умеренная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень тесная.
  • Если все значения переменных увеличить (уменьшить) на од­но и то же число или в одно и то же число раз, то величина коэф­фициента корреляции не изменится.
  • При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на общей прямой. Её ещё называют линией регрессии.
  • При r=0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общи­ми средними, а линии регрессии параллельны осям координат.

Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелирован­ности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Основываясь на коэффициентах корреляции, вы не можете строго доказать причинной зависимости между переменными, однако можете определить ложные корреляции, т.е. корреляции, которые обусловлены влияниями «других», остающихся вне вашего поля зрения переменных. Лучше всего понять ложные корреляции на простом примере. Известно, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших пожар. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньше число пожарных. Причина в том, что имеется третья переменная (начальный размер пожара), которая влияет как на причинённый ущерб, так и на число вызванных пожарных. Если вы будете учитывать эту переменную, например, рассматривать только пожары определённой величины, то исходная корреляция между ущербом и числом пожарных либо исчезнет, либо, возможно, даже изменит свой знак. Основная проблема ложной корреляции состоит в том, что вы не знаете, кто является её носителем. Тем не менее, если вы знаете, где искать, то можно воспользоваться частные корреляции, чтобы контролировать (частично исключённое) влияние определённых переменных.

Корреляция, совпадение или необычное явление сами по себе ничего не доказывают, но они могут привлечь внимание к отдельным вопросам и привести к дополнительному исследованию. Хотя корреляция прямо не указывает на причинную связь, она может служить ключом к разгадке причин. При благоприятных условиях на её основе можно сформулировать гипотезы, проверяемые экспериментально, когда возможен контроль других влияний, помимо тех немногочисленных, которые подлежат исследованию.

Иногда вывод об отсутствии корреляции важнее наличия сильной корреляции. Нулевая корреляция двух переменных может свидетельствовать о том, что никакого влияния одной переменной на другую не существует, при условии, что мы доверяем результатам измерений.

Корреляционный анализ в программе Statistica

Корреляционный анализ в программе Statistica проводят с помощью модуля Statistics/ BasicStatistics/ CorrelationMatrices. В стартовом окне этой процедуры для расчёта квадратной матрицы используется кнопка Onevariablelist. С помощью кнопки Twolists (rect. matrix) можно ограничиться выводом только необходимых переменных, если не требуются все возможные парные корреляции. В списке переменных выбирают переменные, между которыми будут рассчитаны парные коэффициенты корреляции Пирсона. После нажатия на кнопку Summary или Correlations на экране появится корреляционная матрица.

Процедура Correlationmatricesсразу же дает возможность проверить достоверность рассчитанных коэффициентов корреляции. Значение коэффициента корреляции может быть высоким, но не достоверным, случайным. Чтобы увидеть вероятность нулевой гипотезы (p), гласящей о том, что коэффициент корреляции равен нулю, нужно в опции Displayformatforcorrelationmatricesустановить переключатель на вторую строку Displayr, p-levels, andN’s. Но даже если этого не делать и оставить переключатель в первом положении Displaysimplematrix (highlightp’s), статистически значимые на уровне 0,05 коэффициенты корреляции будут выделены в корреляционной матрице на экране красным цветом, а при распечатке помечены звездочкой. Третье положение переключателя опции DisplayDetailedtableofresultsпозволяет просмотреть результаты корреляционного анализа в деталях. Флажок опции MDdeletionустанавливается для исключения из обработки всей строки файла данных, в которой есть хотя бы одно пропущенное значение.

Для построения диаграмм рассеяния необходимо во вкладке Quickстартового модуля Statistics/ BasicStatistics/ CorrelationMatricesнажать кнопку Scatterplotmatrixforselectedvariables. В результате этих действий появится графическое изображение зависимостей. Остаётся только посмотреть на полученный результат и сделать выводы.

Проведённая прямая в каждой диаграмме рассеяния называется прямой регрессии или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленных по оси ординат) от наблюдаемых точек до прямой является минимальной. Заметим, что использование квадратов расстояний приводит к тому, что оценки параметров прямой сильно реагируют на выбросы.
По главной диагонали матрицы строятся гистограммы. Понятно, что любая переменная стопроцентно коррелирует сама с собой, и строить линию регрессии не имеет смысла.

Во многих исследованиях первый шаг анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости: понять, почему одни коэффициенты корреляции значимы, а другие нет.

Но следует иметь в виду, что если используется несколько критериев, значимые результаты могут появляться «удивительно часто», и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне 0,05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Нет способа автоматически выделить «истинную» корреляцию. Поэтому следует подходить с осторожностью ко всем не предсказанным или заранее не запланированным результатам и попытаться соотнести их с другими (надёжными) результатами. В конечном счете, самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих множественные сравнения и статистическую значимость.

Рассмотрим пример решения практической задачи о производительности землеройной техники. Из-за сезонного характера работ неизбежны простои. Но поскольку простой техники обходится дорого, руководство предприятия интересовали пути сокращения простоев, в частности, в летние месяцы. В таблице приведены данные о работе и простое всего парка в машино-часах.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...
Adblock detector