Блок "Бинарная регрессия"
Назначение блока
Блок предназначен для расчета логистической регрессии (Logit и Probit). Логистическая регрессия — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).
Настройки блока
Основные свойства
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Наименование блока | Строка | Нет | Наименование, которое будет иметь блок в графе |
Структурный тип данных
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Спецификация | Выпадающий список | Да | Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы". Содержит следующие элементы: - Индексы - Даты |
Период моделирования
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Первая точка/Начальная дата | Целое число / Дата и время | Нет | Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты |
| Последняя точка/Последняя дата | Целое число / Дата и время | Нет |
Период прогнозирования
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Первая точка/Начальная дата | Целое число / Дата и время | Нет | Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты |
| Последняя точка/Последняя дата | Целое число / Дата и время | Нет | |
| Автоопределение ретро | Флаг | Да |
Специфические настройки блока
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| С константой | Флаг | Да | Определяет будет ли оцениваться константа в модели. |
| Тип модели | Выпадающий список | Да | Поле поддерживает единичную отметку. По умолчанию выбрана Logit. Содержит следующие элементы: - Logit. - Probit. |
Обработка пропусков
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Обработка пропусков | Выпадающий список | Нет | По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку. - Без обработки. - Удаление пропусков. |
Общие настройки блока
Общие настройки блоков описаны в отдельном разделе.
Входы
| Наименование | Тип данных | Обязательное | Примечание |
|---|---|---|---|
| Зависимая переменная Y | Ряд данных | Да | Зависимый бинарный ряд |
| Независимые переменные X. Факт | Ряд данных | Да | |
| Независимые переменные X. Прогноз | Ряд данных | Нет |
Выходы
| Наименование | Тип данных | Примечание |
|---|---|---|
| Зависимая переменная Y | Ряд данных | |
| Статистические характеристики модели | Строка (HTML) | Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики") |
| Уравнение зависимости с оцененными характеристики | Строка | |
| Коэффициенты модели и из статистические характеристики | Объект | |
| Модельный ряд | Ряд данных | |
| Прогнозный ряд | Ряд данных | |
| Ряд остатков | Ряд данных | |
| Предупреждения | Строка |
События блока
В блоке нет событий
Описание работы блока
Общая теория блока
Logit модель
Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса и вероятность, которую мы будем определять, $P_+$ вероятности того, что некоторое значение принадлежит классу "+". И конечно $P_-=1-P_+$. Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].
Другими словами делается предположение о том, что вероятность наступления события $y=1$ равна: $$ \mathbb{P} \lbrace y=1 \mid x \rbrace = f(z) $$ где $z= \theta ^Tx=\theta _0 + \theta _1x_1 + ... + \theta _nx_n$, $x$ и $\theta$ — векторы-столбцы значений независимых переменных $1, x_1, ..., x_n$ и параметров (коэффициентов регрессии) — вещественных чисел $\theta _0, ..., \theta _n$, соответственно, а $f(z)$ — так называемая логистическая функция (иногда также называемая логит-функцией:
$$ f(z) = \frac{1}{1+e^{-z}} $$
Probit модель
Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, $Y$ может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $X$, которые оказывают влияние на $Y$. В пробит-модели предполагается, что вероятность того, что $Y=1$ определяется нормальным распределением, таким образом пробит-модель имеет вид:
$$ \rho (x) = P(Y=1 \mid X=x) = \Phi (x^T b) $$
где $\Phi$ — интегральная функция распределения (CDF) стандартного нормального распределения, $b$ — неизвестные параметры, которые требуется оценить.
Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов $b$.
Ограничения метода
- Зависимый ряд должен быть бинарным
- Обработка пропусков в зависимой переменной может быть только через удаление пропусков, метод заполнения для модели недопустимы
- Структура массивов независимых рядов для моделирования и прогнозирования должна совпадать.
- Иногда выходит ошибка Perfect separation detected, results not available, в таких случаях необходимо подкорректировать период моделирования или зависимую переменную. Это особенность модели бинарной регрессии.
- Ряды должны иметь минимум k+1/k+2(константа false/true) точек.
Полезные ссылки
Общая информация: Логистическая регрессия
Теоретическая информация об используемых функциях: Discrete Choice Models
