Перейти к содержанию

Блок "Бинарная регрессия"

Назначение блока

Блок предназначен для расчета логистической регрессии (Logit и Probit). Логистическая регрессия — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).

Настройки блока

Основные свойства

Наименование Тип данных Обязательное Примечание
Наименование блока Строка Нет Наименование, которое будет иметь блок в графе

Структурный тип данных

Наименование Тип данных Обязательное Примечание
Спецификация Выпадающий список Да Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы".
Содержит следующие элементы:
- Индексы
- Даты

Период моделирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет

Период прогнозирования

Наименование Тип данных Обязательное Примечание
Первая точка/Начальная дата Целое число / Дата и время Нет Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата Целое число / Дата и время Нет
Автоопределение ретро Флаг Да

Специфические настройки блока

Наименование Тип данных Обязательное Примечание
С константой Флаг Да Определяет будет ли оцениваться константа в модели.
Тип модели Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбрана Logit.
Содержит следующие элементы:
- Logit.
- Probit.

Обработка пропусков

Наименование Тип данных Обязательное Примечание
Обработка пропусков Выпадающий список Нет По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку.
- Без обработки.
- Удаление пропусков.

Общие настройки блока

Общие настройки блоков описаны в отдельном разделе.

Входы

Наименование Тип данных Обязательное Примечание
Зависимая переменная Y Ряд данных Да Зависимый бинарный ряд
Независимые переменные X. Факт Ряд данных Да
Независимые переменные X. Прогноз Ряд данных Нет

Выходы

Наименование Тип данных Примечание
Зависимая переменная Y Ряд данных
Статистические характеристики модели Строка (HTML) Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики")
Уравнение зависимости с оцененными характеристики Строка
Коэффициенты модели и из статистические характеристики Объект
Модельный ряд Ряд данных
Прогнозный ряд Ряд данных
Ряд остатков Ряд данных
Предупреждения Строка

События блока

В блоке нет событий

Описание работы блока

Общая теория блока

Logit модель

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса и вероятность, которую мы будем определять, $P_+$ вероятности того, что некоторое значение принадлежит классу "+". И конечно $P_-=1-P_+$. Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].

Другими словами делается предположение о том, что вероятность наступления события $y=1$ равна: $$ \mathbb{P} \lbrace y=1 \mid x \rbrace = f(z) $$ где $z= \theta ^Tx=\theta _0 + \theta _1x_1 + ... + \theta _nx_n$, $x$ и $\theta$ — векторы-столбцы значений независимых переменных $1, x_1, ..., x_n$ и параметров (коэффициентов регрессии) — вещественных чисел $\theta _0, ..., \theta _n$, соответственно, а $f(z)$ — так называемая логистическая функция (иногда также называемая логит-функцией:

$$ f(z) = \frac{1}{1+e^{-z}} $$

Probit модель

Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, $Y$ может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $X$, которые оказывают влияние на $Y$. В пробит-модели предполагается, что вероятность того, что $Y=1$ определяется нормальным распределением, таким образом пробит-модель имеет вид:

$$ \rho (x) = P(Y=1 \mid X=x) = \Phi (x^T b) $$

где $\Phi$ — интегральная функция распределения (CDF) стандартного нормального распределения, $b$ — неизвестные параметры, которые требуется оценить.

Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов $b$.

Ограничения метода

  1. Зависимый ряд должен быть бинарным
  2. Обработка пропусков в зависимой переменной может быть только через удаление пропусков, метод заполнения для модели недопустимы
  3. Структура массивов независимых рядов для моделирования и прогнозирования должна совпадать.
  4. Иногда выходит ошибка Perfect separation detected, results not available, в таких случаях необходимо подкорректировать период моделирования или зависимую переменную. Это особенность модели бинарной регрессии.
  5. Ряды должны иметь минимум k+1/k+2(константа false/true) точек.

Полезные ссылки

Общая информация: Логистическая регрессия

Теоретическая информация об используемых функциях: Discrete Choice Models