Формулы полной вероятности и Байеса

Что такое полная вероятность и почему она важна

Представьте, что вы пытаетесь предсказать, пойдет ли завтра дождь 🌧️. Вы знаете, что вероятность дождя зависит от многих факторов: времени года, облачности, направления ветра. Формула полной вероятности помогает учесть все эти условия и найти общую вероятность события, даже когда оно может произойти разными путями.

Это фундаментальный инструмент в теории вероятностей, который особенно важен в Data Science для построения прогностических моделей и анализа сложных систем.


Основная идея формулы полной вероятности

Мы разбиваем сложное событие на несколько более простых, взаимно исключающих сценариев (гипотез), и считаем вероятность через них.

💡 Совет: Гипотезы должны покрывать все возможные варианты и не пересекаться между собой!

Математически это выглядит так:

P(A) = P(A|H₁)*P(H₁) + P(A|H₂)*P(H₂) + ... + P(A|Hₙ)*P(Hₙ)

Где:

  • P(A) — полная вероятность события A
  • P(H₁), P(H₂), ..., P(Hₙ) — вероятности гипотез
  • P(A|H₁), P(A|H₂), ..., P(A|Hₙ) — условные вероятности события A при каждой гипотезе

Давайте разберем на живом примере 👇


📊 Практический пример с медицинским тестом

Представьте, что есть заболевание, которым болеет 1% населения. Тест на это заболевание:

  • Обнаруживает болезнь у 99% больных (верные положительные результаты)
  • Ошибается у 5% здоровых людей (ложные положительные результаты)

Какова вероятность, что случайно выбранный человек получит положительный результат теста?

Разобьем на гипотезы:

  • H₁: человек болен (вероятность 0.01)
  • H₂: человек здоров (вероятность 0.99)

Теперь посчитаем полную вероятность положительного теста (событие A):

P(A) = P(A|H₁)*P(H₁) + P(A|H₂)*P(H₂)
P(A) = 0.99*0.01 + 0.05*0.99
P(A) = 0.0099 + 0.0495 = 0.0594

Получается, вероятность положительного теста около 5.94%.


Формула Байеса: переоценка вероятностей

А теперь самый интересный вопрос 🤔: если человек получил положительный тест, какова вероятность, что он действительно болен?

Здесь на помощь приходит формула Байеса — она позволяет "переворачивать" условные вероятности:

P(H|A) = P(A|H)*P(H) / P(A)

Где:

  • P(H|A) — апостериорная вероятность (что хотим найти)
  • P(A|H) — правдоподобие (что знаем из данных)
  • P(H) — априорная вероятность (наша первоначальная оценка)
  • P(A) — полная вероятность события (посчитали выше)

Применим к нашему примеру:

P(болен|положительный) = P(положительный|болен)*P(болен) / P(положительный)
P(болен|положительный) = 0.99*0.01 / 0.0594 ≈ 0.1667

Всего около 16.7%! 🤯 Несмотря на положительный тест, вероятность болезни довольно низкая.

🎯 Ключевая мысль: Формула Байеса показывает, как новые данные (результат теста) меняют наши первоначальные представления (распространенность болезни).

🧠 Задачи для закрепления

Задача 1: Производственная линия

На фабрике 3 линии производят одинаковые изделия:

ЛинияДоля продукцииБрак
135%2%
240%3%
325%4%

Какова вероятность, что случайно выбранное изделие бракованное?

Решение:

P(брак) = P(брак|линия1)*P(линия1) + P(брак|линия2)*P(линия2) + P(брак|линия3)*P(линия3)
P(брак) = 0.02*0.35 + 0.03*0.40 + 0.04*0.25
P(брак) = 0.007 + 0.012 + 0.01 = 0.029

Вероятность брака составляет 2.9%.

Задача 2: Урны с шарами

Есть две урны. В первой 3 красных и 2 синих шара, во второй — 1 красный и 4 синих. Вы случайно выбираете урну и достаете шар. Он оказался красным. Какова вероятность, что он из первой урны?

Решение:

Сначала найдем полную вероятность вытащить красный шар:

P(красный) = P(красный|урна1)*P(урна1) + P(красный|урна2)*P(урна2)
P(красный) = (3/5)*0.5 + (1/5)*0.5 = 0.3 + 0.1 = 0.4

Теперь применим Байеса:

P(урна1|красный) = P(красный|урна1)*P(урна1) / P(красный)
P(урна1|красный) = (3/5)*0.5 / 0.4 = 0.3 / 0.4 = 0.75

Вероятность, что шар из первой урны — 75%.


💡 Применение в Data Science

Формулы полной вероятности и Байеса лежат в основе многих алгоритмов машинного обучения:

  • Наивный Байес — классификация текстов, спам-фильтры
  • Байесовские сети — моделирование сложных вероятностных зависимостей
  • А/B тестирование — оценка статистической значимости результатов
  • Обучение с подкреплением — принятие решений в условиях неопределенности
📘 Запомните: Байесовский подход особенно powerful когда данных мало, но есть экспертные знания, которые можно использовать как априорные вероятности.

Эти формулы — не просто абстрактные математические концепции, а практические инструменты, которые помогают делать более informed decisions на основе данных.

Скрыть рекламу навсегда

🎥 YouTube: программирование простым языком

Канал, где я спокойно и по шагам объясняю сложные темы — без заумных терминов и лишней теории.

Подходит, если раньше «не заходило», но хочется наконец понять.

▶️ Смотреть курсы на YouTube