Линейная регрессия: модель, оценка параметров
Что такое линейная регрессия? 🎯
Представьте, что вы пытаетесь предсказать цену квартиры на основе её площади. Чем больше площадь, тем выше цена — это интуитивно понятная линейная зависимость. Линейная регрессия — это именно тот математический инструмент, который помогает нам формализовать и количественно описать такие взаимосвязи.
В основе модели лежит простая идея: мы ищем прямую линию, которая наилучшим образом приближает облако наших данных. Эта линия описывается линейным уравнением:
📌 Проще говоря: мы находим формулу, которая показывает, как одна переменная (например, цена) зависит от другой (например, площади).
Математическая модель 📐
Формально модель линейной регрессии записывается следующим образом:
y = β₀ + β₁x + ε
Давайте разберём каждый компонент этого уравнения:
- y — зависимая переменная (то, что мы хотим предсказать)
- x — независимая переменная (признак, на основе которого делаем预测)
- β₀ — свободный член (intercept), точка пересечения с осью Y
- β₁ — коэффициент наклона (slope), показывает steepness зависимости
- ε — случайная ошибка (шум, неучтённые факторы)
На практике мы работаем с оценками параметров, поэтому модель выглядит так:
ŷ = b₀ + b₁x
Где ŷ — предсказанное значение y, а b₀ и b₁ — оценки параметров β₀ и β₁.
Как найти лучшие параметры? 🔍
Чтобы найти наилучшие значения b₀ и b₁, мы используем метод наименьших квадратов (МНК). Идея метода — минимизировать сумму квадратов разностей между реальными значениями y и предсказанными значениями ŷ.
Σ(yᵢ - ŷᵢ)² → min
Эта сумма квадратов ошибок называется функцией потерь:
L = Σ(yᵢ - (b₀ + b₁xᵢ))²
Чтобы найти минимум этой функции, мы берём частные производные по b₀ и b₁ и приравниваем их к нулю.
💡 Совет: Не пугайтесь производных! Это просто способ найти точку, где функция перестаёт убывать и начинает возрастать — именно там и находится минимум.
Формулы для оценок параметров 🧮
Решая систему уравнений, получаем формулы для расчёта коэффициентов:
b₁ = Σ((xᵢ - x̄)(yᵢ - ȳ)) / Σ((xᵢ - x̄)²)
b₀ = ȳ - b₁x̄
Где x̄ и ȳ — средние значения переменных x и y соответственно.
Давайте разберёмся, что означает каждая часть формулы для b₁:
| Компонент | Интерпретация |
|---|---|
| (xᵢ - x̄) | Отклонение x от среднего |
| (yᵢ - ȳ) | Отклонение y от среднего |
| Произведение отклонений | Совместная вариация x и y |
| Σ((xᵢ - x̄)²) | Общая вариация x |
Практическая задача 🎯
Давайте применим теорию на практике! Представим, что у нас есть данные о площади квартир и их ценах:
| Площадь (x), м² | Цена (y), тыс. $ |
|---|---|
| 50 | 100 |
| 60 | 120 |
| 70 | 140 |
| 80 | 160 |
| 90 | 180 |
Шаг 1: Находим средние значения
x̄ = (50 + 60 + 70 + 80 + 90) / 5 = 70 ȳ = (100 + 120 + 140 + 160 + 180) / 5 = 140
Шаг 2: Рассчитываем отклонения и их произведения
| xᵢ - x̄ | yᵢ - ȳ | (xᵢ - x̄)(yᵢ - ȳ) | (xᵢ - x̄)² |
|---|---|---|---|
| -20 | -40 | 800 | 400 |
| -10 | -20 | 200 | 100 |
| 0 | 0 | 0 | 0 |
| 10 | 20 | 200 | 100 |
| 20 | 40 | 800 | 400 |
| Σ = 0 | Σ = 0 | Σ = 2000 | Σ = 1000 |
Шаг 3: Вычисляем коэффициенты
b₁ = 2000 / 1000 = 2 b₀ = 140 - 2 × 70 = 140 - 140 = 0
Шаг 4: Получаем итоговую модель
ŷ = 0 + 2x
Или просто: ŷ = 2x
Это означает, что каждый дополнительный квадратный метр площади увеличивает стоимость квартиры на 2 тысячи долларов.
📘 Замечание: В реальных данных редко получается такая идеальная линейная зависимость, но принцип работы метода остаётся точно таким же!