Блок "Бинарная регрессия"

Назначение блока

Блок предназначен для расчета логистической регрессии (Logit и Probit). Логистическая регрессия — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0).

Настройки блока

Основные свойства

Наименование	Тип данных	Обязательное	Примечание
Наименование блока	Строка	Нет	Наименование, которое будет иметь блок в графе

Структурный тип данных

Наименование	Тип данных	Обязательное	Примечание
Спецификация	Выпадающий список	Да	Поле поддерживает единичную отметку. Определяет каким образом будут заданы периоды моделирования и прогнозирования. по умолчанию выбран "Индексы". Содержит следующие элементы: - Индексы - Даты

Период моделирования

Наименование	Тип данных	Обязательное	Примечание
Первая точка/Начальная дата	Целое число / Дата и время	Нет	Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата	Целое число / Дата и время	Нет

Период прогнозирования

Наименование	Тип данных	Обязательное	Примечание
Первая точка/Начальная дата	Целое число / Дата и время	Нет	Первая точка/Начальная дата должна быть меньше Последней точки/Последней даты
Последняя точка/Последняя дата	Целое число / Дата и время	Нет
Автоопределение ретро	Флаг	Да

Специфические настройки блока

Наименование	Тип данных	Обязательное	Примечание
С константой	Флаг	Да	Определяет будет ли оцениваться константа в модели.
Тип модели	Выпадающий список	Да	Поле поддерживает единичную отметку. По умолчанию выбрана Logit. Содержит следующие элементы: - Logit. - Probit.

Обработка пропусков

Наименование	Тип данных	Обязательное	Примечание
Обработка пропусков	Выпадающий список	Нет	По умолчанию выбран "Удаление пропусков". Поле поддерживает единичную отметку. - Без обработки. - Удаление пропусков.

Общие настройки блока

Общие настройки блоков описаны в отдельном разделе.

Входы

Наименование	Тип данных	Обязательное	Примечание
Зависимая переменная Y	Ряд данных	Да	Зависимый бинарный ряд
Независимые переменные X. Факт	Ряд данных	Да
Независимые переменные X. Прогноз	Ряд данных	Нет

Выходы

Наименование	Тип данных	Примечание
Зависимая переменная Y	Ряд данных
Статистические характеристики модели	Строка (HTML)	Структура содержит общие характеристики модели. (см. Блок "Статистические характеристики")
Уравнение зависимости с оцененными характеристики	Строка
Коэффициенты модели и из статистические характеристики	Объект
Модельный ряд	Ряд данных
Прогнозный ряд	Ряд данных
Ряд остатков	Ряд данных
Предупреждения	Строка

События блока

В блоке нет событий

Описание работы блока

Общая теория блока

Logit модель

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса и вероятность, которую мы будем определять, $P_+$ вероятности того, что некоторое значение принадлежит классу "+". И конечно $P_-=1-P_+$. Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].

Другими словами делается предположение о том, что вероятность наступления события $y=1$ равна: $$ \mathbb{P} \lbrace y=1 \mid x \rbrace = f(z) $$ где $z= \theta ^Tx=\theta _0 + \theta _1x_1 + ... + \theta _nx_n$, $x$ и $\theta$ — векторы-столбцы значений независимых переменных $1, x_1, ..., x_n$ и параметров (коэффициентов регрессии) — вещественных чисел $\theta _0, ..., \theta _n$, соответственно, а $f(z)$ — так называемая логистическая функция (иногда также называемая логит-функцией:

$$ f(z) = \frac{1}{1+e^{-z}} $$

Probit модель

Пробит-модель является частным случаем модели бинарного выбора в которой используется нормальное распределение. А именно, пусть зависимая переменная $Y$ является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, $Y$ может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) $X$, которые оказывают влияние на $Y$. В пробит-модели предполагается, что вероятность того, что $Y=1$ определяется нормальным распределением, таким образом пробит-модель имеет вид:

$$ \rho (x) = P(Y=1 \mid X=x) = \Phi (x^T b) $$

где $\Phi$ — интегральная функция распределения (CDF) стандартного нормального распределения, $b$ — неизвестные параметры, которые требуется оценить.

Использование именно стандартного нормального распределения не ограничивает общности модели, так как возможное ненулевое среднее учтено в константе, которая обязательно присутствует в числе факторов, а возможная неединичная дисперсия учитывается за счет соответствующего нормирования всех коэффициентов $b$.

Ограничения метода

Зависимый ряд должен быть бинарным
Обработка пропусков в зависимой переменной может быть только через удаление пропусков, метод заполнения для модели недопустимы
Структура массивов независимых рядов для моделирования и прогнозирования должна совпадать.
Иногда выходит ошибка Perfect separation detected, results not available, в таких случаях необходимо подкорректировать период моделирования или зависимую переменную. Это особенность модели бинарной регрессии.
Ряды должны иметь минимум k+1/k+2(константа false/true) точек.

Полезные ссылки

Общая информация: Логистическая регрессия

Теоретическая информация об используемых функциях: Discrete Choice Models