Линейная регрессия: модель, оценка параметров

Что такое линейная регрессия? 🎯

Представьте, что вы пытаетесь предсказать цену квартиры на основе её площади. Чем больше площадь, тем выше цена — это интуитивно понятная линейная зависимость. Линейная регрессия — это именно тот математический инструмент, который помогает нам формализовать и количественно описать такие взаимосвязи.

В основе модели лежит простая идея: мы ищем прямую линию, которая наилучшим образом приближает облако наших данных. Эта линия описывается линейным уравнением:

📌 Проще говоря: мы находим формулу, которая показывает, как одна переменная (например, цена) зависит от другой (например, площади).


Математическая модель 📐

Формально модель линейной регрессии записывается следующим образом:

y = β₀ + β₁x + ε

Давайте разберём каждый компонент этого уравнения:

  • y — зависимая переменная (то, что мы хотим предсказать)
  • x — независимая переменная (признак, на основе которого делаем预测)
  • β₀ — свободный член (intercept), точка пересечения с осью Y
  • β₁ — коэффициент наклона (slope), показывает steepness зависимости
  • ε — случайная ошибка (шум, неучтённые факторы)

На практике мы работаем с оценками параметров, поэтому модель выглядит так:

ŷ = b₀ + b₁x

Где ŷ — предсказанное значение y, а b₀ и b₁ — оценки параметров β₀ и β₁.

Как найти лучшие параметры? 🔍

Чтобы найти наилучшие значения b₀ и b₁, мы используем метод наименьших квадратов (МНК). Идея метода — минимизировать сумму квадратов разностей между реальными значениями y и предсказанными значениями ŷ.

Σ(yᵢ - ŷᵢ)² → min

Эта сумма квадратов ошибок называется функцией потерь:

L = Σ(yᵢ - (b₀ + b₁xᵢ))²

Чтобы найти минимум этой функции, мы берём частные производные по b₀ и b₁ и приравниваем их к нулю.

💡 Совет: Не пугайтесь производных! Это просто способ найти точку, где функция перестаёт убывать и начинает возрастать — именно там и находится минимум.

Формулы для оценок параметров 🧮

Решая систему уравнений, получаем формулы для расчёта коэффициентов:

b₁ = Σ((xᵢ - x̄)(yᵢ - ȳ)) / Σ((xᵢ - x̄)²)
b₀ = ȳ - b₁x̄

Где x̄ и ȳ — средние значения переменных x и y соответственно.

Давайте разберёмся, что означает каждая часть формулы для b₁:

Компонент Интерпретация
(xᵢ - x̄) Отклонение x от среднего
(yᵢ - ȳ) Отклонение y от среднего
Произведение отклонений Совместная вариация x и y
Σ((xᵢ - x̄)²) Общая вариация x


Практическая задача 🎯

Давайте применим теорию на практике! Представим, что у нас есть данные о площади квартир и их ценах:

Площадь (x), м² Цена (y), тыс. $
50 100
60 120
70 140
80 160
90 180

Шаг 1: Находим средние значения

x̄ = (50 + 60 + 70 + 80 + 90) / 5 = 70
ȳ = (100 + 120 + 140 + 160 + 180) / 5 = 140

Шаг 2: Рассчитываем отклонения и их произведения

xᵢ - x̄ yᵢ - ȳ (xᵢ - x̄)(yᵢ - ȳ) (xᵢ - x̄)²
-20 -40 800 400
-10 -20 200 100
0 0 0 0
10 20 200 100
20 40 800 400
Σ = 0 Σ = 0 Σ = 2000 Σ = 1000

Шаг 3: Вычисляем коэффициенты

b₁ = 2000 / 1000 = 2
b₀ = 140 - 2 × 70 = 140 - 140 = 0

Шаг 4: Получаем итоговую модель

ŷ = 0 + 2x

Или просто: ŷ = 2x

Это означает, что каждый дополнительный квадратный метр площади увеличивает стоимость квартиры на 2 тысячи долларов.

📘 Замечание: В реальных данных редко получается такая идеальная линейная зависимость, но принцип работы метода остаётся точно таким же!

Скрыть рекламу навсегда

🎥 YouTube: программирование простым языком

Канал, где я спокойно и по шагам объясняю сложные темы — без заумных терминов и лишней теории.

Подходит, если раньше «не заходило», но хочется наконец понять.

▶️ Смотреть курсы на YouTube