Перейти к содержанию

Блок "Обработка категориальных переменных"

Блок доступен начиная с версии 1.0

Назначение блока

Блок предназначен для расчета модели регрессии методом "Случаный лес".

Настройки блока

Общие настройки блоков описаны в отдельном разделе.

Раздел "Специфические настройки блока"

Наименование Тип Обязательное Описание Пример
Режим моделирования Выпадающий список Да По умолчанию "Создать новую модель".
Количество деревьев в лесу Целое число Да По умолчанию 100.
Максимальная глубина дерева Целое число Да По умолчанию 3.
Мин. кол-во точек для разбиения узла Целое число Да По умолчанию 2.
Мин. кол-во точек в листе Целое число Да По умолчанию 1.
Доля факторов Целое число Да По умолчанию 0.5.
Критерий Выпадающий список Да По умолчанию "Квадрат остатков".
Начальное положение системы Целое число Нет По умолчанию 123.

Входы блока

Наименование выхода Тип Описание
Обучающая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Обучающая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Тестовая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Тестовая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Прогнозная выборка. Независимые переменные DataFrame DataFrame с набором признаков
Модель Модель Объект типа RandomForestRegressor

Выходы блока

Наименование выхода Тип Описание
Обучающая выборка. Зависимая переменная DataFrame
Обучающая выборка. Модельный ряд DataFrame
Обучающая выборка. Ряд остатков DataFrame
Тестовая выборка. Зависимая переменная DataFrame
Тестовая выборка. Модельный ряд DataFrame
Тестовая выборка. Ряд остатков DataFrame
Прогнозная выборка. Прогнозный ряд DataFrame
Значимость факторов DataFrame
Описательные статистики html Статистический отчет о работе метода
Модель Модель Результирующая модель. Объект типа RandomForestRegressor

События блока

В блоке нет событий.

Описание работы блока

Блок рассчитывает модель регрессии методом «Случайный лес». Метод должен работать с таблицами типа DataFrame. Метод должен обучаться на обучающей выборке, затем применять обученную модель на тестовую и прогнозную выборки. Метод может работать только с числовыми данными. Итогом работы метода являются, полученный во время моделирования и прогнозирования, ряды, html отчет о модели как на обучающей, так и на тестовой (если она задана) выборках, а также сам объект обученной модели.

Режим моделирования Для моделирования доступны три режима моделирования:

  1. Режим "Создать новую модель" - берутся гиперпараметры, заданные внутри блока, и входные данные. На их основе рассчитывается новая модель.

  2. Режим "Использовать заданную модель" - на вход ожидается уже обученная модель. В этом режиме модель внутри блока не пересчитывается. Используются её внутренние параметры (деревья), и на основании заданных независимых переменных рассчитываются только модельные ряды.

  3. Режим "Переобучить заданную модель" - из переданной модели берутся только её гиперпараметры. Далее на основании входных данных строится новая модель.

Ограничения блока

  1. Метод работает только с объектами pandas.DataFrame
  2. Обучающая выборка не должна содержать полностью пустых столбцов.
  3. Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
  4. Зависимая переменная должна состоять только из одного столбца.
  5. Зависимая и независимые переменные должны иметь одинаковое количество наблюдений.
  6. Все входные данные должны быть числовыми и не содержать пропусков и бесконечных значений.
  7. Индексы строк зависимой и независимых переменных должны совпадать. Это работает как на обучающую, так и на тестовую выборки.
  8. Максимальная глубина отдельного дерева должна быть целым положительным числом из промежутка [1,30].
  9. Количество деревьев в лесу должно быть целым положительным числом.
  10. Минимальное количество наблюдений для разбиения должно быть целым положительным числом из промежутка [2, Количество наблюдений].
  11. Минимальное количество наблюдений в листе должно быть целым положительным числом из промежутка [1, Количество наблюдений].
  12. Доля факторов должна быть вещественным числом из промежутка [0.01, 1].