Перейти к содержанию

Блок "Линейная регрессия"

Назначение блока

Блок предназначен для расчета множественной линейной модели методами OLS и GLS.

Специфические пункты меню

Наименование Примечание
Мастер автоподбора... Вызывает меню "Мастер автоподбора факторов линейной регрессии". Мастер разработан для подбора лучшей модели регрессии из предложенный методу на вход, факторов.

Настройки блока

Основные свойства

Наименование Тип данных Обязательное Примечание
Наименование блока Строка Нет Наименование, которое будет иметь блок в графе

Структурный тип данных

Наименование Тип данных Обязательное Примечание
Спецификация Выпадающий список Да Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы".
Содержит следующие элементы:
- Индексы
- Даты

Период моделирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет

Период прогнозирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет
Автоопределение ретро Флаг Да

Специфические настройки блока

Наименование Тип данных Обязательное Примечание
С константой Флаг Нет Определяет будет ли оцениваться константа в модели.
Вид модели Выпадающий список Нет Поле поддерживает единичную отметку. По умолчанию выбрана OLS.
Содержит следующие элементы:
- Линейная регрессия OLS.
- Линейная регрессия GLS.
Семейство распределений Выпадающий список Нет Поле поддерживает единичную отметку. По умолчанию выбрана OLS. Активен только если для расчета выбрана "Линейная регрессия GLS". По умолчанию выбрано нормальное распределение.
Содержит следующие элементы:
- Биноминальное распределение.
- Распределение Пуасона.
- Отрицательное биномиальное распределение.
- Нормальное распределение.
- Гамма распределение.
- Обратное нормальное распределение.
- Распределение Твидди.

Автоподбор

Наименование Тип данных Обязательное Примечание
Учет автоподбора Флаг Нет Автоматически включается, если был использован "Мастер автоподбора факторов линейной регрессии" (см. раздел "Специфические пункты меню"). Если выключить флаг будет рассчитана обычная линейная регрессия
Список рядов, отобранных автоподбором Строка Нет Результат работы мастера автоподбора факторов линейной регрессии.

Обработка пропусков

Наименование Тип данных Обязательное Примечание
Обработка пропусков Выпадающий список Нет По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку.
- Удаление пропусков.
- Средним по выборке.
- Заданным значением.
- Максимальным значением.
- Минимальным значением.
- Линейная интерполяция.
- Квадратичная интерполяция.
- Кубическая интерполяция.
Значение Вещественное число Нет Значение появляется только при выборе метода "Заданным значением"
Вывод значений Выпадающий список Нет По умолчанию выбран "Выводить исходные ряды". Поле поддерживает единичную отметку. Содержит следующие элементы:
- Выводить исходные ряды. Будут выведены ряды, в том виде, в котором они были введены в метод.
- Выводить обработанные ряды. Будут выведены ряды с заполненными или удаленными точками.

Общие настройки блока

Общие настройки блоков описаны в отдельном разделе.

Входы

Наименование Тип данных Обязательное Примечание
Зависимая переменная Y Ряд данных Да Зависимый бинарный ряд
Независимые переменные X. Факт Ряд данных Да
Независимые переменные X. Прогноз Ряд данных Нет

Выходы

Наименование Тип данных Примечание
Зависимая переменная Y Ряд данных
Статистические характеристики модели Строка (HTML) Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики")
Уравнение зависимости с оцененными характеристики Строка
Коэффициенты модели и из статистические характеристики Объект
Модельный ряд Ряд данных
Прогнозный ряд Ряд данных
Ряд остатков Ряд данных
Предупреждения Строка

События блока

В блоке нет событий

Описание работы блока

Общая теория блока

В блоке представлено два метода оценки линейных моделей:

Метод наименьших квадратов (OLS).

Метод предназначен для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных.

Другими словами пусть $x$ — набор $n$ неизвестных переменных (параметров).

$f_i(x)$, $i=1,...,m$, $m>n$ — совокупность функций от этого набора переменных.

Задача заключается в подборе таких значений $x$, чтобы значения этих функций были максимально близки к некоторым значениям $y_i$. По существу речь идет о «решении» переопределенной системы уравнений $f_i(x)=y_i, i=1,...,m$, в указанном смысле максимальной близости левой и правой частей системы. Суть МНК заключается в выборе в качестве «меры близости» суммы квадратов отклонений левых и правых частей $|f_i(x)-y_i|$. Таким образом, сущность МНК может быть выражена следующим образом:

$$ \sum_{i} e^2_i = \sum_{i} (y_i - f_i(x))^2 \to \min\limits_{x} $$

В случае, если система уравнений имеет решение, то есть наименьшее значение суммы квадратов будет равно нулю, то для таких задач, лучше использовать "методы поиска точных решений", например решение может быть найдено аналитически или различными численными методами оптимизации. Метод наименьших квадратов лучше использовать, если система переопределена, то есть, говоря нестрого, количество независимых уравнений больше количества искомых переменных, то система не имеет точного решения. Метод позволяет найти некоторый «оптимальный» вектор $x$ в смысле максимальной близости векторов $y$ и $f(x)$ или максимальной близости вектора отклонений $e$ к нулю.

Обобщённый метод наименьших квадратов (GLS)

Обобщённый метод наименьших квадратов сводится к минимизации «обобщённой суммы квадратов» остатков регрессии — $e^TWe$, где $e$ — вектор остатков, $W$ — симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем обобщённого, когда весовая матрица пропорциональна единичной. Метод поддерживает несколько вариантов распределений остатков, для этого в методе предусмотрен параметр "Семейство распределений". В зависимости от выбранного семейства можно решить следующие модели:

  • Биноминальное распределение - логистическая регрессия
  • Распределение Пуасcона - регрессия Пуассона
  • Нормальное распределение - линейная регрессия
  • Гамма распределение - Гамма-регрессия

Ограничения метода

  • Блок работает только с временными рядами.
  • Метод не может расcчитать без факторную модель типа y=const.
  • В ряде должно быть поле ts_name, в атрибутах или же в первичном ключе.
  • Для оценки параметров ряды должны иметь k+1 точку наблюдений, где k -количество независимых переменных X в наборе.
  • Наборы "Ряды независимых переменных X. Факт" и "Ряды независимых переменных X. Прогноз" должны иметь одинаковое количество независимых переменных.

Полезные ссылки

Общая информация о линейной регрессии - Обобщённый метод наименьших квадратов

Регрессия Пуассона - Poisson regression

Гамма распределение - Gamma

Описание функции в пакете statmodels - OLS, GLS