Корреляция: коэффициент Пирсона, Спирмена
Что такое корреляция? 🤝
Корреляция — это статистическая мера, которая описывает силу и направление связи между двумя переменными. Представьте, что вы изучаете, как рост человека связан с его весом. Обычно, чем выше рост, тем больше вес. Это и есть корреляция — она не говорит о причинно-следственной связи, но показывает, насколько изменения одной переменной сопровождаются изменениями другой.
Сегодня мы разберем два самых популярных коэффициента корреляции: Пирсона и Спирмена. Они помогут вам количественно оценить эти связи в ваших данных!
Коэффициент корреляции Пирсона (r) 📏
Этот коэффициент измеряет линейную связь между двумя непрерывными переменными. Он показывает, насколько хорошо данные аппроксимируются прямой линией.
Его значения всегда находятся в диапазоне от -1 до 1:
- 🎯 +1: Идеальная положительная линейная связь
- 📉 -1: Идеальная отрицательная линейная связь
- 🔍 0: Отсутствие линейной связи
Формула для расчета коэффициента Пирсона:
r = Σ[(X_i - X̄)(Y_i - Ȳ)] / √[Σ(X_i - X̄)² * Σ(Y_i - Ȳ)²]
Где:
X_i,Y_i- отдельные значения переменныхX̄,Ȳ- средние значения переменных
💡 Совет: Используйте коэффициент Пирсона, когда ваши данные распределены нормально и связь между переменными близка к линейной.
Пример расчета коэффициента Пирсона
Допустим, мы изучаем связь между временем учебы и результатами экзамена:
| Студент | Время учебы (часы) | Оценка на экзамене |
|---|---|---|
| А | 5 | 60 |
| Б | 8 | 75 |
| В | 12 | 90 |
| Г | 3 | 50 |
| Д | 10 | 85 |
После расчетов получаем коэффициент Пирсона r = 0.98. Это указывает на очень сильную положительную линейную связь между временем учебы и результатом экзамена.
Коэффициент корреляции Спирмена (ρ) 🔄
Это непараметрическая мера корреляции, которая оценивает монотонную связь между переменными. Она основана на рангах значений, а не на самих значениях.
Коэффициент Спирмена также колеблется от -1 до 1 с аналогичной интерпретацией:
- 📈 +1: Идеальная монотонная возрастающая связь
- 📉 -1: Идеальная монотонная убывающая связь
- 🔍 0: Отсутствие монотонной связи
Формула для расчета коэффициента Спирмена:
ρ = 1 - [6Σd² / (n(n² - 1))]
Где:
d- разность между рангами соответствующих значенийn- количество наблюдений
💡 Совет: Используйте коэффициент Спирмена, когда данные не нормально распределены, содержат выбросы или связь нелинейна, но монотонна.
Пример расчета коэффициента Спирмена
Возьмем те же данные, но теперь проранжируем их:
| Студент | Ранг времени | Ранг оценки | Разность (d) | d² |
|---|---|---|---|---|
| А | 2 | 2 | 0 | 0 |
| Б | 3 | 3 | 0 | 0 |
| В | 5 | 5 | 0 | 0 |
| Г | 1 | 1 | 0 | 0 |
| Д | 4 | 4 | 0 | 0 |
Сумма d² = 0, поэтому:
ρ = 1 - [6×0 / (5×(25-1))] = 1 - 0 = 1
Мы получили идеальную положительную монотонную связь!
Сравнение коэффициентов Пирсона и Спирмена 🔍
| Критерий | Пирсон | Спирмен |
|---|---|---|
| Тип связи | Линейная | Монотонная |
| Основа расчета | Исходные значения | Ранги значений |
| Устойчивость к выбросам | Низкая | Высокая |
| Требования к данным | Нормальное распределение | Нет требований |
| Когда использовать | Линейные отношения | Нелинейные монотонные отношения |