Множественная регрессия: построение и анализ модели

Что такое множественная регрессия? 🎯

Представьте, что вы пытаетесь предсказать цену дома. На неё влияет не только площадь, но и количество комнат, район, год постройки и многое другое. Множественная регрессия — это как раз тот инструмент, который позволяет учесть все эти факторы одновременно!

Если простая линейная регрессия описывает связь между одной независимой переменной и целевой переменной, то множественная работает с несколькими независимыми переменными.

💡 Проще говоря: множественная регрессия помогает понять, как несколько факторов вместе влияют на тот результат, который нас интересует.

Математическая модель 🧮

Основное уравнение множественной линейной регрессии выглядит так:

y = b₀ + b₁x₁ + b₂x₂ + ... + bₚxₚ + ε

Где:

  • y — целевая переменная (то, что мы предсказываем)
  • b₀ — свободный член (intercept)
  • b₁, b₂, ..., bₚ — коэффициенты регрессии (показывают силу влияния каждого признака)
  • x₁, x₂, ..., xₚ — независимые переменные (признаки)
  • ε — ошибка (случайная компонента, которую мы не можем объяснить)

🎯 Цель построения модели — найти такие значения коэффициентов b, чтобы ошибка ε была минимальной.

Метод наименьших квадратов (МНК) ➕

Для нахождения коэффициентов чаще всего используется метод наименьших квадратов. Он минимизирует сумму квадратов разностей между предсказанными и реальными значениями.

Minimize Σ(yᵢ - ŷᵢ)²

Где ŷᵢ — предсказанное значение для i-го наблюдения.

В матричной форме решение выглядит так:

β = (XᵀX)⁻¹Xᵀy

Где:

  • β — вектор коэффициентов [b₀, b₁, ..., bₚ]
  • X — матрица признаков (с добавленным столбцом единиц для свободного члена)
  • y — вектор целевых значений


Построение модели: шаг за шагом 🔨

  1. Сбор и подготовка данных
    • Убедитесь, что данные чистые и нет пропущенных значений
    • Нормализуйте или стандартизируйте признаки, если они в разных масштабах
  2. Выбор значимых переменных
    • Используйте методы отбора признаков (Forward Selection, Backward Elimination)
    • Убедитесь в отсутствии мультиколлинеарности
  3. Обучение модели
    • Разделите данные на обучающую и тестовую выборки
    • Обучите модель на обучающих данных
  4. Оценка качества модели
    • Протестируйте модель на тестовых данных
    • Проанализируйте метрики качества

📘 Всегда разделяйте данные на обучающую и тестовую выборки! Это поможет оценить, насколько хорошо модель обобщает знания на новые данные.

Анализ качества модели 📊

После построения модели важно оценить её качество. Вот ключевые метрики:

Метрика Формула Описание
R² (коэффициент детерминации) 1 - (Σ(y-ŷ)² / Σ(y-ȳ)²) Доля дисперсии, объяснённая моделью (0-1)
Adjusted R² 1 - [(1-R²)(n-1)/(n-p-1)] R² с поправкой на количество признаков
MSE (Mean Squared Error) Σ(y-ŷ)² / n Среднеквадратическая ошибка
RMSE (Root MSE) √MSE Корень из MSE, в единицах целевой переменной

🔺 R² ближе к 1 — лучше модель. Но будьте осторожны: слишком высокий R² может указывать на переобучение!

Практическая задача 🎯

Условие: У нас есть данные о продажах домов: площадь (м²), количество комнат, район (кодирован числами 1-5) и цена продажи. Постройте модель множественной регрессии для предсказания цены дома.

Данные:

Площадь Комнаты Район Цена
80 2 3 320000
95 3 2 380000
120 4 4 510000

Решение:

  1. Подготовим данные: добавим столбец единиц для свободного члена
  2. Создадим матрицу X и вектор y:
X = [
  [1, 80, 2, 3],
  [1, 95, 3, 2], 
  [1, 120, 4, 4]
]

y = [320000, 380000, 510000]
  1. Рассчитаем коэффициенты по формуле:
β = (XᵀX)⁻¹Xᵀy
  1. После вычислений получим уравнение:
Цена = 50000 + 3000×Площадь + 20000×Комнаты + 15000×Район
  1. Проанализируем качество модели на тестовых данных

💡 На практике для вычислений используют библиотеки типа scikit-learn, которые делают все вычисления автоматически!

Скрыть рекламу навсегда

📘 VK Видео — обучение без ограничений

Все уроки доступны без VPN, без блокировок и зависаний.

Можно смотреть с телефона, планшета или компьютера — в любое время.

▶️ Смотреть на VK Видео