Центральная предельная теорема: смысл и значение
Что такое Центральная Предельная Теорема? 🎯
Представьте, что вы пытаетесь понять средний рост всех людей в стране. Измерить каждого — нереально. Но если вы возьмете много небольших групп (выборок) и измерите средний рост в каждой, то обнаружите нечто удивительное: эти средние значения будут образовывать красивое колоколообразное распределение (нормальное распределение), даже если сам рост распределен не нормально! Это и есть суть Центральной Предельной Теоремы (ЦПТ).
ЦПТ — это фундаментальная теорема статистики и теории вероятностей. Она гласит, что при достаточно большом размере выборки выборочное среднее любой случайной величины будет иметь распределение, близкое к нормальному, независимо от того, как было распределено исходная величина.
💡 Запомните: ЦПТ работает с выборочными средними (или суммами), а не с исходными данными.
Почему это так важно для Data Science? 🔍
ЦПТ — это суперсила data-сайентиста. Она лежит в основе многих методов статистического вывода и машинного обучения:
- Доверительные интервалы: Позволяет оценить, насколько точно выборочное среднее приближает истинное среднее по популяции.
- Проверка гипотез (A/B-тесты): Дает основание использовать нормальное распределение для расчета p-value, даже если мы не знаем исходное распределение данных.
- Машинное обучение: Многие алгоритмы (например, линейные модели) предполагают нормальность распределения ошибок. ЦПT часто помогает обосновать это assumption.
Она оправдывает использование нормального распределения в огромном количестве реальных задач!
Формальное определение и условия 📏
Пусть X₁, X₂, ..., Xₙ — это независимые и одинаково распределенные случайные величины (i.i.d.) с математическим ожиданием μ и конечной дисперсией σ².
Тогда выборочное среднее X̄ₙ = (X₁ + X₂ + ... + Xₙ) / n при n → ∞ сходится к нормальному распределению с параметрами:
- Среднее:
μ - Дисперсия:
σ²/n
Записывается это так:
X̄ₙ ~ N(μ, σ²/n)
Для применения ЦПТ должны выполняться три ключевых условия:
- Независимость: Наблюдения в выборке должны быть независимыми.
- Одинаковое распределение: Данные должны быть получены из одного распределения.
- Конечная дисперсия: Дисперсия исходного распределения не должна быть бесконечной.
📘 На практике "достаточно большой" размер выборки часто считается n >= 30. Однако если исходное распределение сильно скошено или имеет выбросы, может потребоваться бóльший размер.
Наглядный пример ➕
Допустим, мы бросаем игральную кость. Исходное распределение — равномерное (вероятность выпадения любой грани 1/6). Оно совсем не похоже на нормальное.
| Размер выборки (n) | Что мы делаем | Распределение выборочного среднего |
|---|---|---|
| n=1 | Бросаем кость 1 раз, записываем результат | Равномерное (совпадает с исходным) |
| n=5 | Бросаем кость 5 раз, считаем среднее значение | Начинаем видеть форму колокола |
| n=30 | Бросаем кость 30 раз, считаем среднее значение | Четкое нормальное распределение! |
Мы многократно повторяем процесс для каждого n: бросаем кость n раз, считаем среднее, записываем его. После тысяч повторений мы строим гистограмму этих средних и видим, как с ростом n она все больше стремится к нормальной кривой.
Решим задачу вместе! 🧮
Условие:
Средняя зарплата в отрасли составляет 75 000 рублей со стандартным отклонением 15 000 рублей. Мы случайным образом опрашиваем 50 человек. Какова вероятность того, что средняя зарплата в нашей выборке будет между 72 000 и 78 000 рублей?
Решение:
Шаг 1: Проверяем условия ЦПТ
- Выборка случайная и, предположим, независимая ✅
- n = 50 > 30 — достаточно большой размер выборки ✅
- Дисперсия конечна ✅
Мы можем применять ЦПT. Выборочное среднее зарплат будет распределено нормально.
Шаг 2: Находим параметры распределения выборочного среднего
- Среднее распределения:
μ = 75000 - Стандартная ошибка среднего (стандартное отклонение для выборочного среднего):
SE = σ / √n = 15000 / √50
Давайте вычислим SE:
SE = 15000 / √50 ≈ 15000 / 7.071 ≈ 2121.32
Таким образом, X̄ ~ N(75000, 2121.32²)
Шаг 3: Стандартизируем интервал
Нам нужна вероятность P(72000 < X̄ < 78000). Перейдем к стандартному нормальному распределению Z ~ N(0, 1) с помощью Z-преобразования:
Z = (X̄ - μ) / SE
Находим Z-оценки для границ интервала:
Z₁ = (72000 - 75000) / 2121.32 ≈ -3000 / 2121.32 ≈ -1.41 Z₂ = (78000 - 75000) / 2121.32 ≈ 3000 / 2121.32 ≈ 1.41
Теперь наша задача свелась к нахождению P(-1.41 < Z < 1.41).
Шаг 4: Находим вероятность по таблице Z-значений
P(Z < 1.41) ≈ 0.9207(Площадь слева от 1.41)P(Z < -1.41) ≈ 0.0793(Площадь слева от -1.41)