Блок "Эластичная сеть"
Назначение блока
Блок предназначен для расчета регрессии Elastic Net (эластическая сеть). Elastic-Net Regression представляет собой метод регуляризованной регрессии сочитающий в себе Lasso (лассо L1) и Ridge (гребня) регрессии.
Настройки блока
Основные свойства
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Наименование блока | Строка | Нет | Наименование, которое будет иметь блок в графе. . По умолчанию "Эластичная сеть" |
Структурный тип данных
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Спецификация | Выпадающий список | Да | Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы". Содержит следующие элементы: - Индексы - Даты |
Период моделирования
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Первая точка/Начальная дата | Целое число / Дата и время | Нет | Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты |
| Последняя точка/Последняя дата | Целое число / Дата и время | Нет |
Период прогнозирования
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Первая точка/Начальная дата | Целое число / Дата и время | Нет | Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты |
| Последняя точка/Последняя дата | Целое число / Дата и время | Нет | |
| Автоопределение ретро | Флаг | Да |
Специфические настройки блока
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| С константой | Флаг | Нет | Определяет будет ли оцениваться константа в модели. |
| Семейство распределения остатков модели | Выпадающий список | Да | Поле поддерживает единичную отметку. По умолчанию выбрано "Нормальное распределение". Содержит следующие элементы: - Нормальное распределение |
| Тип регрессии | Выпадающий список | Да | Поле поддерживает единичную отметку. По умолчанию выбрано "Регрессия эластичная сеть". Содержит следующие элементы: - Регрессия гребня - Регрессия Лассо - Регрессия эластичная сеть - Подбор лучшей модели. |
Настройки кросс-валидации
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Количество отрезков nfold | Целое число | Нет | По умолчанию задано 10 |
Обработка пропусков
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Обработка пропусков | Выпадающий список | Нет | По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку. - Удаление пропусков. - Средним по выборке. - Заданным значением. - Максимальным значением. - Минимальным значением. - Линейная интерполяция. - Квадратичная интерполяция. - Кубическая интерполяция. |
| Значение | Вещественное число | Нет | Значение появляется только при выборе метода "Заданным значением" |
| Вывод значений | Выпадающий список | Нет | По умолчанию выбран "Выводить исходные ряды". Поле поддерживает единичную отметку. Содержит следующие элементы: - Выводить исходные ряды. Будут выведены ряды, в том виде, в котором они были введены в метод. - Выводить обработанные ряды. Будут выведены ряды с заполненными или удаленными точками. |
Общие настройки блока
Общие настройки блоков описаны в отдельном разделе.
Входы
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Зависимая переменная Y | Ряд данных | Да | Зависимый бинарный ряд |
| Независимые переменные X. Факт | Ряд данных | Да | |
| Независимые переменные X. Прогноз | Ряд данных | Нет |
Выходы
| Наименование | Тип данных | Примечание |
|---|---|---|
| Зависимая переменная Y | Ряд данных | |
| Статистические характеристики модели | Строка (HTML) | Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики") |
| Модельный ряд | Ряд данных | |
| Прогнозный ряд | Ряд данных | |
| Ряд остатков | Ряд данных | |
| Предупреждения | Строка |
События блока
В блоке нет событий
Описание работы блока
Общая теория блока
Гребневая регрессия (ridge regression). Регуляризатор L2.
Гребневая регрессия - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Применение гребневой регрессии нередко оправдывают тем, что это практический приём, с помощью которого при желании можно получить меньшее значение среднего квадрата ошибки.
При оценке модели гребневой регрессии в общем случае вычисляется следующая задача:
$$ \sum (y-\beta X)^2 + \lambda\beta^2 \to \min $$
где $y$ - зависимая переменная, $X$ - множество независимых переменных, $\beta$ - коэффициента модели, $\lambda$ - коэффициент штрафа.
Регрессия Лассо (lasso regressoin) Регуляризатор L1.
Метод регрессии лассо похож на гребневую регрессию, но использует другое ограничение на коэффициенты. Основное различие лассо- и ридж-регрессии заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю.
При оценке модели Лассо регрессии в общем случае вычисляется следующая задача:
$$ \sum (y-\beta X)^2 + \lambda|\beta| \to \min $$
Регрессия Эластичная сеть (elastic net regression)
Эластичная сеть - это модель регрессии с двумя регуляризаторами L1 и L2. В общем случае при оценке модели решается следующая задача:
$$ \sum (y-\beta X)^2 + \lambda_1|\beta| + \lambda_2\beta^2 \to \min $$
где $\lambda_1$ - коэффициент штрафа лассо регрессии, $\lambda_2$ - коэффициент штрафа гребневой регрессии.
В нашей реализации существует метод автоподбора лучшей модели эластической сети (сочетания $\lambda_1$) и $\lambda_2$). Для этого решается общее уравнение эластической сети модифицируется следующим образом:
$$ \sum (y-\beta X)^2 + \lambda(\alpha|\beta| + (1-\alpha)\beta^2 \to \min $$
здесь $\lambda$ - общий штраф компонент уравнение, $\alpha$ - коэффициент вовлеченности компонент уравнения, который может принимать значения из промежутка $[0;1]$. При расчете подбирается наилучшая степень вовлеченности каждой компоненты, модель для которой сумма квадратов остатков будет минимальна - считается лучшей.
Ограничения метода
- Блок работает только с временными рядами.
- Наборы "Ряды независимых переменных X. Факт" и "Ряды независимых переменных X. Прогноз" должны иметь одинаковое количество независимых переменных.
