Перейти к содержанию

Блок "Эластичная сеть"

Назначение блока

Блок предназначен для расчета регрессии Elastic Net (эластическая сеть). Elastic-Net Regression представляет собой метод регуляризованной регрессии сочитающий в себе Lasso (лассо L1) и Ridge (гребня) регрессии.

Настройки блока

Основные свойства

Наименование Тип данных Обязательное Примечание
Наименование блока Строка Нет Наименование, которое будет иметь блок в графе. . По умолчанию "Эластичная сеть"

Структурный тип данных

Наименование Тип данных Обязательное Примечание
Спецификация Выпадающий список Да Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы".
Содержит следующие элементы:
- Индексы
- Даты

Период моделирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет

Период прогнозирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет
Автоопределение ретро Флаг Да

Специфические настройки блока

Наименование Тип данных Обязательное Примечание
С константой Флаг Нет Определяет будет ли оцениваться константа в модели.
Семейство распределения остатков модели Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбрано "Нормальное распределение".
Содержит следующие элементы:
- Нормальное распределение
Тип регрессии Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбрано "Регрессия эластичная сеть".
Содержит следующие элементы:
- Регрессия гребня
- Регрессия Лассо
- Регрессия эластичная сеть
- Подбор лучшей модели.

Настройки кросс-валидации

Наименование Тип данных Обязательное Примечание
Количество отрезков nfold Целое число Нет По умолчанию задано 10

Обработка пропусков

Наименование Тип данных Обязательное Примечание
Обработка пропусков Выпадающий список Нет По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку.
- Удаление пропусков.
- Средним по выборке.
- Заданным значением.
- Максимальным значением.
- Минимальным значением.
- Линейная интерполяция.
- Квадратичная интерполяция.
- Кубическая интерполяция.
Значение Вещественное число Нет Значение появляется только при выборе метода "Заданным значением"
Вывод значений Выпадающий список Нет По умолчанию выбран "Выводить исходные ряды". Поле поддерживает единичную отметку. Содержит следующие элементы:
- Выводить исходные ряды. Будут выведены ряды, в том виде, в котором они были введены в метод.
- Выводить обработанные ряды. Будут выведены ряды с заполненными или удаленными точками.

Общие настройки блока

Общие настройки блоков описаны в отдельном разделе.

Входы

Наименование Тип данных Обязательное Примечание
Зависимая переменная Y Ряд данных Да Зависимый бинарный ряд
Независимые переменные X. Факт Ряд данных Да
Независимые переменные X. Прогноз Ряд данных Нет

Выходы

Наименование Тип данных Примечание
Зависимая переменная Y Ряд данных
Статистические характеристики модели Строка (HTML) Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики")
Модельный ряд Ряд данных
Прогнозный ряд Ряд данных
Ряд остатков Ряд данных
Предупреждения Строка

События блока

В блоке нет событий

Описание работы блока

Общая теория блока

Гребневая регрессия (ridge regression). Регуляризатор L2.

Гребневая регрессия - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Применение гребневой регрессии нередко оправдывают тем, что это практический приём, с помощью которого при желании можно получить меньшее значение среднего квадрата ошибки.

При оценке модели гребневой регрессии в общем случае вычисляется следующая задача:

$$ \sum (y-\beta X)^2 + \lambda\beta^2 \to \min $$

где $y$ - зависимая переменная, $X$ - множество независимых переменных, $\beta$ - коэффициента модели, $\lambda$ - коэффициент штрафа.

Регрессия Лассо (lasso regressoin) Регуляризатор L1.

Метод регрессии лассо похож на гребневую регрессию, но использует другое ограничение на коэффициенты. Основное различие лассо- и ридж-регрессии заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю.

При оценке модели Лассо регрессии в общем случае вычисляется следующая задача:

$$ \sum (y-\beta X)^2 + \lambda|\beta| \to \min $$

Регрессия Эластичная сеть (elastic net regression)

Эластичная сеть - это модель регрессии с двумя регуляризаторами L1 и L2. В общем случае при оценке модели решается следующая задача:

$$ \sum (y-\beta X)^2 + \lambda_1|\beta| + \lambda_2\beta^2 \to \min $$

где $\lambda_1$ - коэффициент штрафа лассо регрессии, $\lambda_2$ - коэффициент штрафа гребневой регрессии.

В нашей реализации существует метод автоподбора лучшей модели эластической сети (сочетания $\lambda_1$) и $\lambda_2$). Для этого решается общее уравнение эластической сети модифицируется следующим образом:

$$ \sum (y-\beta X)^2 + \lambda(\alpha|\beta| + (1-\alpha)\beta^2 \to \min $$

здесь $\lambda$ - общий штраф компонент уравнение, $\alpha$ - коэффициент вовлеченности компонент уравнения, который может принимать значения из промежутка $[0;1]$. При расчете подбирается наилучшая степень вовлеченности каждой компоненты, модель для которой сумма квадратов остатков будет минимальна - считается лучшей.

Ограничения метода

  • Блок работает только с временными рядами.
  • Наборы "Ряды независимых переменных X. Факт" и "Ряды независимых переменных X. Прогноз" должны иметь одинаковое количество независимых переменных.

Полезные ссылки

Общая теория