Перейти к содержанию

Блок "Методы автоподбора факторов"

Назначение блока

Блок предназначен для автоматического отбора факторов методами: рекурсивное исключение признаков с перекрестной проверкой (RFECV) и одномерный автоподбор факторов с настраиваемой стратегией (GUS). Методы автоподбора можно использовать для выбора признаков (уменьшения размерности наборов выборок), для улучшения показателей точности моделей или для повышения производительности на наборах данных очень большой размерности.

Настройки блока

Основные свойства

Наименование Тип данных Обязательное Примечание
Наименование блока Строка Нет Наименование, которое будет иметь блок в графе. По умолчанию Методы автоподбора факторов

Автоподбор факторов

Наименование Тип данных Обязательное Примечание
Тип автоподбора Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Рекурсивное исключение признаков (RFECV)".
Содержит следующие элементы:
- Рекурсивное исключение признаков (RFECV).
- Одномерный автоподбор факторов (GUS).

Модель

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Рекурсивное исключение признаков (RFECV)

Наименование Тип данных Обязательное Примечание
Модель Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Линейная регрессия".
Содержит следующие элементы:
- Линейная регрессия.
- Логистическая регрессия.
С константой Флаг Да
Начальное состояние системы Целое число Нет По умолчанию 123. Поле доступно только для модели "Логистическая регрессия"

Специфические настройки блока

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Рекурсивное исключение признаков (RFECV)

Наименование Тип данных Обязательное Примечание
Минимальное количество отбираемых факторов Целое число Нет По умолчанию 1.
Метод отбора Выпадающий список Да Если в настройке Модель выбран пункт "Линейная регрессия", то список выглядит следующим образом:
По умолчанию выбран "Автоматический". Поле поддерживает единичную отметку.
Содержит следующие элементы:
- Автоматический.
- Коэффициент детерминации R2.
- Средняя абсолютная ошибка MAE.
- Квадрат средней ошибка MSE.
- Корень из квадрата средней ошибки RMSE.
Если в настройке Модель выбран пункт "Логистическая регрессия", то список выглядит следующим образом:
По умолчанию выбран "Автоматический". Поле поддерживает единичную отметку.
Содержит следующие элементы:
- Автоматический.
- Точность Accuracy.
- Точность Precision.
- Отзыв Recall.
- Площадь под Roc кривой RocAUC.

Настройки кросс-валидации

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Рекурсивное исключение признаков (RFECV)

Наименование Тип данных Обязательное Примечание
Тип кросс-валидации Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Обычная".
Содержит следующие элементы:
-Линейная регрессия.
-Логистическая регрессия.
Количество отрезков nfold Целое число Нет

Функция автоподбора

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Одномерный автоподбор факторов (GUS).

Наименование Тип данных Обязательное Примечание
Функция отбора данных Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Регрессия. Коэффициент Пирсона".
Содержит следующие элементы:
- Регрессия. Коэффициент Пирсона.
- Регрессия. F-тест.
- Классификация. Хи-квадрат.
- Классификация. F-тест.

Настройки стратегии R

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Одномерный автоподбор факторов (GUS).

Наименование Тип данных Обязательное Примечание
Стратегия отбора данных Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Процент лучших переменных".
Содержит следующие элементы:
- Процент лучших переменных.
- K лучших переменных.
Процент Целое число Нет Процент отбираемых факторов. По умолчанию 50. Виден, если в пункте Стратегия отбора данных выбран пункт Процент лучших переменных.
Параметр k Целое число Нет Количество k отбираемых факторов. По умолчанию 5. Виден, если в пункте Стратегия отбора данных выбран пункт K лучших переменных.

Настройки стратегиии F

Раздел виден в случае, если в пункте Тип автоподбора выбран пункт Одномерный автоподбор факторов (GUS).

Наименование Тип данных Обязательное Примечание
Стратегия отбора данных Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Процент лучших переменных".
Содержит следующие элементы:
- Процент лучших переменных.
- K лучших переменных.
- Тест Fpr.
- Процедура Беньямини-Хохберга.
- Коэффициент семейных ошибок (FWE).
Процент Целое число Нет Процент отбираемых факторов. По умолчанию 50.
Виден, если в пункте Стратегия отбора данных выбран пункт Процент лучших переменных.
Параметр k Целое число Нет Количество k отбираемых факторов. По умолчанию 5.
Виден, если в пункте Стратегия отбора данных выбран пункт K лучших переменных.
Параметр alpha Вещественное число Нет Уровень значимости критерия alpha. По умолчанию 0.5.
Виден, если в пункте Стратегия отбора данных выбраны пункты:
- Тест Fpr.
- Процедура Беньямини-Хохберга.
- Коэффициент семейных ошибок (FWE).

Обработка пропусков

Наименование Тип данных Обязательное Примечание
Обработка пропусков Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Удаление пропусков".
Содержит следующие элементы:
- Удаление пропусков.
- Без пропусков.
Вывод значений Выпадающий список Да Поле поддерживает единичную отметку. По умолчанию выбран "Выводить исходные ряды".
Содержит следующие элементы:
- Выводить исходные ряды. Будут выведены ряды, в том виде, в котором они были введены в метод
- Выводить обработанные ряды. Будут выведены ряды с заполненными или удаленными точками.

Общие настройки блока

Общие настройки блоков описаны в отдельном разделе.

Входы блока

Наименование Тип данных Обязательное Примечание
Зависимая переменная Y Ряд данных Да Атрибуты входного ряда должны содержать поле ts_name.
Независимые переменные X. Факт Ряд данных Да Атрибуты входного ряда должны содержать поле ts_name. Факт и прогноз одного ряда должны иметь одинаковый ts_name.
Независимые переменные X. Прогноз Ряд данных Нет Атрибуты входного ряда должны содержать поле ts_name. Факт и прогноз одного ряда должны иметь одинаковый ts_name.

Входы блока

Наименование входа Тип данных Примечание
Зависимая переменная Y Ряд данных
Ранги факторов Ряд данных
Отобранные факторы X_new. Факт Ряд данных
Отобранные факторы X_new. Прогноз Ряд данных

События блока

В блоке нет событий

Описание работы блока

Общая теория блока

Метод RFECV

Цель рекурсивного исключения признаков (RFE) состоит в том, чтобы выбрать признаки путем рекурсивного рассмотрения все меньших и меньших наборов признаков. Метод работает с учетом внешних оценщиков, который присваивает веса признакам (например, коэффициентам линейной модели.

Оценщик обучается на начальном наборе факторов, важность каждого фактора рассчитывается автоматически. Из текущего набора факторов удаляются наименее не значимые факторы. Эта процедура рекурсивно повторяется для сокращенного набора до тех пор, пока в итоге не будет достигнуто желаемое количество факторов.

Метод GUS

Одномерный выбор факторов работает путем выбора лучших рядов на основе одномерных статистических тестов. Его можно рассматривать как этап предварительной обработки перед моделированием. Для регрессионных моделей выбор происходит на основании r коэффициента Пирсона или F-статистики. Для классификационных моделей на основании теста Хи квадрат (только для положительных данных) и F-теста ANOVA.

В качестве настраиваемых стратегий можно выбрать следующие: – удаляет все переменные из набора кроме $k$ с наивысшим рейтингом. – удаляет все переменные, кроме указанного пользователем процента с наивысшим рейтингом. – выбор происходит на основании теста Fpr или теста на ложноположительные результаты. Фильтр отсеет все ранги ниже заданного $\alpha$. – выбор происходит на основании процедуры Беньямини-Хохберга. Здесь параметр $\alpha$ – это верхняя граница ожидаемого уровня ложных обнаружений. – выбор происходит на основании коэффициента семейных ошибок (FWER).

Ограничения метода

  1. Размерность входного массива независимых переменных $X$ должна содержать хотя бы 3 ряда.
  2. Минимальное количество объектов, которые необходимо выбрать должно принадлежать промежутку $[1,k-1]$, где $k$ - количество независимых факторов $X$.
  3. Параметр $k$ должен принадлежать промежутку $[1,k-1]$, где $k$ - количество независимых факторов $X$.
  4. Параметр кросс-валидации n-fold принадлежать промежутку $[1,n]$, где $n$ - количество наблюдений на периоде моделирования.
  5. Методы классификации подходят только для бинарной классификации
  6. Метод $\chi^2$ может работать только с положительными независимыми рядами.

Полезные ссылки