Множественная регрессия: построение и анализ модели

Что такое множественная регрессия? 🎯

Представьте, что вы пытаетесь предсказать цену дома. На неё влияет не только площадь, но и количество комнат, район, год постройки и многое другое. Множественная регрессия — это как раз тот инструмент, который позволяет учесть все эти факторы одновременно!

Если простая линейная регрессия описывает связь между одной независимой переменной и целевой переменной, то множественная работает с несколькими независимыми переменными.

💡 Проще говоря: множественная регрессия помогает понять, как несколько факторов вместе влияют на тот результат, который нас интересует.

Математическая модель 🧮

Основное уравнение множественной линейной регрессии выглядит так:

y = b₀ + b₁x₁ + b₂x₂ + ... + bₚxₚ + ε

Где:

y — целевая переменная (то, что мы предсказываем)
b₀ — свободный член (intercept)
b₁, b₂, ..., bₚ — коэффициенты регрессии (показывают силу влияния каждого признака)
x₁, x₂, ..., xₚ — независимые переменные (признаки)
ε — ошибка (случайная компонента, которую мы не можем объяснить)

🎯 Цель построения модели — найти такие значения коэффициентов b, чтобы ошибка ε была минимальной.

Метод наименьших квадратов (МНК) ➕

Для нахождения коэффициентов чаще всего используется метод наименьших квадратов. Он минимизирует сумму квадратов разностей между предсказанными и реальными значениями.

Minimize Σ(yᵢ - ŷᵢ)²

Где ŷᵢ — предсказанное значение для i-го наблюдения.

В матричной форме решение выглядит так:

β = (XᵀX)⁻¹Xᵀy

Где:

β — вектор коэффициентов [b₀, b₁, ..., bₚ]
X — матрица признаков (с добавленным столбцом единиц для свободного члена)
y — вектор целевых значений

Построение модели: шаг за шагом 🔨

Сбор и подготовка данных
- Убедитесь, что данные чистые и нет пропущенных значений
- Нормализуйте или стандартизируйте признаки, если они в разных масштабах
Выбор значимых переменных
- Используйте методы отбора признаков (Forward Selection, Backward Elimination)
- Убедитесь в отсутствии мультиколлинеарности
Обучение модели
- Разделите данные на обучающую и тестовую выборки
- Обучите модель на обучающих данных
Оценка качества модели
- Протестируйте модель на тестовых данных
- Проанализируйте метрики качества

📘 Всегда разделяйте данные на обучающую и тестовую выборки! Это поможет оценить, насколько хорошо модель обобщает знания на новые данные.

Анализ качества модели 📊

После построения модели важно оценить её качество. Вот ключевые метрики:

Метрика	Формула	Описание
R² (коэффициент детерминации)	`1 - (Σ(y-ŷ)² / Σ(y-ȳ)²)`	Доля дисперсии, объяснённая моделью (0-1)
Adjusted R²	`1 - [(1-R²)(n-1)/(n-p-1)]`	R² с поправкой на количество признаков
MSE (Mean Squared Error)	`Σ(y-ŷ)² / n`	Среднеквадратическая ошибка
RMSE (Root MSE)	`√MSE`	Корень из MSE, в единицах целевой переменной

🔺 R² ближе к 1 — лучше модель. Но будьте осторожны: слишком высокий R² может указывать на переобучение!

Практическая задача 🎯

Условие: У нас есть данные о продажах домов: площадь (м²), количество комнат, район (кодирован числами 1-5) и цена продажи. Постройте модель множественной регрессии для предсказания цены дома.

Данные:

Площадь	Комнаты	Район	Цена
80	2	3	320000
95	3	2	380000
120	4	4	510000

Решение:

Подготовим данные: добавим столбец единиц для свободного члена
Создадим матрицу X и вектор y:

X = [
  [1, 80, 2, 3],
  [1, 95, 3, 2], 
  [1, 120, 4, 4]
]

y = [320000, 380000, 510000]

Рассчитаем коэффициенты по формуле:

β = (XᵀX)⁻¹Xᵀy

После вычислений получим уравнение:

Цена = 50000 + 3000×Площадь + 20000×Комнаты + 15000×Район

Проанализируем качество модели на тестовых данных

💡 На практике для вычислений используют библиотеки типа scikit-learn, которые делают все вычисления автоматически!