Критерий Пирсона (хи-квадрат): проверка гипотез
Что такое критерий Пирсона и зачем он нужен?
Представь, что ты провёл опрос или эксперимент и получил какие-то данные. У тебя есть ожидания (гипотеза) о том, какими эти данные должны быть, и реальные наблюдения. Критерий хи-квадрат Пирсона — это статистический инструмент, который помогает понять, насколько сильно твои реальные данные отличаются от ожидаемых. Совпадают ли эти различия с обычной случайной погрешностью или они настолько велики, что гипотезу пора отвергнуть? 🤔
Этот метод идеально подходит для анализа категориальных данных — тех, которые можно посчитать и разбить на группы (например, количество человек, предпочитающих чай кофе, или количество бракованных деталей в разных партиях).
💡 Запомни: Критерий Пирсона не говорит, что гипотеза верна. Он лишь показывает, достаточно ли доказательств, чтобы её отвергнуть. Если различия незначительны, мы говорим: «Ну ладно, у меня нет причин не верить своей гипотезе».
Основная логика и формула
Всё крутится вокруг простого сравнения: что мы наблюдали (O) и что мы ожидали (E) увидеть, если бы наша гипотеза была верна.
Статистика хи-квадрат вычисляется по формуле:
χ² = Σ [ (Oᵢ - Eᵢ)² / Eᵢ ]
Давай разберём её по частям:
- Σ (сигма) — означает «сумма». Мы будем складывать результаты вычислений для всех категорий наших данных.
- Oᵢ — наблюдаемая частота для категории i (то, что мы реально увидели).
- Eᵢ — ожидаемая частота для категории i (то, что мы предполагали увидеть).
- (Oᵢ - Eᵢ)² — мы находим разницу между наблюдаемым и ожидаемым и возводим её в квадрат. Это нужно, чтобы избавиться от отрицательных значений и усилить влияние больших отклонений.
- Деление на Eᵢ — мы нормируем квадрат разности на ожидаемую частоту. Это позволяет учесть относительную значимость отклонения. Отклонение на 5 единиц при ожидании 10 — это много, а при ожидании 1000 — совсем немного.
Чем больше получается значение χ², тем сильнее твои данные расходятся с гипотезой.
Пошаговый алгоритм применения
Чтобы грамотно применить критерий, следуй этим шагам:
- Сформулируй гипотезы:
- Нулевая гипотеза (H₀): «Никаких значимых различий между наблюдениями и ожиданиями нет». Это наша гипотеза по умолчанию, которую мы проверяем.
- Альтернативная гипотеза (H₁): «Есть значимые различия между наблюдениями и ожиданиями».
- Определи уровень значимости (α): Обычно выбирают α = 0.05 (5%). Это вероятность ошибочно отвергнуть верную нулевую гипотезу.
- Вычисли ожидаемые частоты (Eᵢ): Рассчитай, какими должны были быть данные, если бы H₀ была верна.
- Рассчитай статистику χ²: По формуле, которую мы только что разобрали.
- Найди число степеней свободы (df): Оно рассчитывается по формуле:
df = (number_of_rows - 1) * (number_of_columns - 1)Для таблицы сопряжённости это обычно (количество строк - 1) * (количество столбцов - 1). - Прими решение: Сравни полученное значение χ² с критическим значением из таблицы хи-квадрат для твоего df и α.
- Если χ² < критического значения → Нет оснований отвергать H₀. Различия незначимы.
- Если χ² > критического значения → Отвергаем H₀ в пользу H₁. Различия статистически значимы.
🎯 Важное правило: Критерий даёт достоверные результаты, если все ожидаемые частоты (Eᵢ) больше 5. Если некоторые значения меньше, категории часто объединяют.
Решаем задачу вместе
Давай применим всё на практике! Представь, мы изучаем, равномерно ли распределяются заказы в интернет-магазине по дням недели. За неделю мы получили вот такие данные:
| День недели | Наблюдаемое число заказов (O) |
|---|---|
| Понедельник | 30 |
| Вторник | 25 |
| Среда | 22 |
| Четверг | 28 |
| Пятница | 40 |
| Суббота | 35 |
| Воскресенье | 20 |
Условие: Проверь на уровне значимости α=0.05 гипотезу о том, что заказы распределяются по дням недели равномерно.