Центральная предельная теорема: смысл и значение

Что такое Центральная Предельная Теорема? 🎯

Представьте, что вы пытаетесь понять средний рост всех людей в стране. Измерить каждого — нереально. Но если вы возьмете много небольших групп (выборок) и измерите средний рост в каждой, то обнаружите нечто удивительное: эти средние значения будут образовывать красивое колоколообразное распределение (нормальное распределение), даже если сам рост распределен не нормально! Это и есть суть Центральной Предельной Теоремы (ЦПТ).

ЦПТ — это фундаментальная теорема статистики и теории вероятностей. Она гласит, что при достаточно большом размере выборки выборочное среднее любой случайной величины будет иметь распределение, близкое к нормальному, независимо от того, как было распределено исходная величина.

💡 Запомните: ЦПТ работает с выборочными средними (или суммами), а не с исходными данными.

Почему это так важно для Data Science? 🔍

ЦПТ — это суперсила data-сайентиста. Она лежит в основе многих методов статистического вывода и машинного обучения:

  • Доверительные интервалы: Позволяет оценить, насколько точно выборочное среднее приближает истинное среднее по популяции.
  • Проверка гипотез (A/B-тесты): Дает основание использовать нормальное распределение для расчета p-value, даже если мы не знаем исходное распределение данных.
  • Машинное обучение: Многие алгоритмы (например, линейные модели) предполагают нормальность распределения ошибок. ЦПT часто помогает обосновать это assumption.

Она оправдывает использование нормального распределения в огромном количестве реальных задач!


Формальное определение и условия 📏

Пусть X₁, X₂, ..., Xₙ — это независимые и одинаково распределенные случайные величины (i.i.d.) с математическим ожиданием μ и конечной дисперсией σ².

Тогда выборочное среднее X̄ₙ = (X₁ + X₂ + ... + Xₙ) / n при n → ∞ сходится к нормальному распределению с параметрами:

  • Среднее: μ
  • Дисперсия: σ²/n

Записывается это так:

X̄ₙ ~ N(μ, σ²/n)

Для применения ЦПТ должны выполняться три ключевых условия:

  1. Независимость: Наблюдения в выборке должны быть независимыми.
  2. Одинаковое распределение: Данные должны быть получены из одного распределения.
  3. Конечная дисперсия: Дисперсия исходного распределения не должна быть бесконечной.

📘 На практике "достаточно большой" размер выборки часто считается n >= 30. Однако если исходное распределение сильно скошено или имеет выбросы, может потребоваться бóльший размер.


Наглядный пример ➕

Допустим, мы бросаем игральную кость. Исходное распределение — равномерное (вероятность выпадения любой грани 1/6). Оно совсем не похоже на нормальное.

Размер выборки (n) Что мы делаем Распределение выборочного среднего
n=1 Бросаем кость 1 раз, записываем результат Равномерное (совпадает с исходным)
n=5 Бросаем кость 5 раз, считаем среднее значение Начинаем видеть форму колокола
n=30 Бросаем кость 30 раз, считаем среднее значение Четкое нормальное распределение!

Мы многократно повторяем процесс для каждого n: бросаем кость n раз, считаем среднее, записываем его. После тысяч повторений мы строим гистограмму этих средних и видим, как с ростом n она все больше стремится к нормальной кривой.


Решим задачу вместе! 🧮

Условие:

Средняя зарплата в отрасли составляет 75 000 рублей со стандартным отклонением 15 000 рублей. Мы случайным образом опрашиваем 50 человек. Какова вероятность того, что средняя зарплата в нашей выборке будет между 72 000 и 78 000 рублей?

Решение:

Шаг 1: Проверяем условия ЦПТ

  • Выборка случайная и, предположим, независимая ✅
  • n = 50 > 30 — достаточно большой размер выборки ✅
  • Дисперсия конечна ✅

Мы можем применять ЦПT. Выборочное среднее зарплат будет распределено нормально.

Шаг 2: Находим параметры распределения выборочного среднего

  • Среднее распределения: μ = 75000
  • Стандартная ошибка среднего (стандартное отклонение для выборочного среднего): SE = σ / √n = 15000 / √50

Давайте вычислим SE:

SE = 15000 / √50 ≈ 15000 / 7.071 ≈ 2121.32

Таким образом, X̄ ~ N(75000, 2121.32²)

Шаг 3: Стандартизируем интервал

Нам нужна вероятность P(72000 < X̄ < 78000). Перейдем к стандартному нормальному распределению Z ~ N(0, 1) с помощью Z-преобразования:

Z = (X̄ - μ) / SE

Находим Z-оценки для границ интервала:

Z₁ = (72000 - 75000) / 2121.32 ≈ -3000 / 2121.32 ≈ -1.41
Z₂ = (78000 - 75000) / 2121.32 ≈ 3000 / 2121.32 ≈ 1.41

Теперь наша задача свелась к нахождению P(-1.41 < Z < 1.41).

Шаг 4: Находим вероятность по таблице Z-значений

  • P(Z < 1.41) ≈ 0.9207 (Площадь слева от 1.41)
  • P(Z < -1.41) ≈ 0.0793 (Площадь слева от -1.41)
Скрыть рекламу навсегда

📘 VK Видео — обучение без ограничений

Все уроки доступны без VPN, без блокировок и зависаний.

Можно смотреть с телефона, планшета или компьютера — в любое время.

▶️ Смотреть на VK Видео