Перейти к содержанию

Блок "Случайный лес. Регрессия"

Блок доступен начиная с версии 1.0

Назначение блока

Блок предназначен для построения регрессионной модели с использованием метода «Случайный лес».

Чтобы начать работу с блоком, необходимо его выбрать в библиотеке и переместить в область графа.

Настройки блока

Работа с настройками осуществляется через локальное меню (пункт Настройки):

Модальное окно представлено ниже:

Общие настройки блоков описаны в отдельном разделе.

Раздел "Специфические настройки блока"

Наименование Тип Обязательное Описание Пример
Режим моделирования Выпадающий список Да По умолчанию "Создать новую модель". Варианты:
- Создать новую модель;
- Использовать заданную модель;
- Переобучить заданную модель
Создать новую модель
Количество деревьев в лесу Целое число Да По умолчанию 100 100
Максимальная глубина дерева Целое число Да По умолчанию 3 3
Мин. кол-во точек для разбиения узла Целое число Да По умолчанию 2 2
Мин. кол-во точек в листе Целое число Да По умолчанию 1 1
Доля факторов Целое число Да По умолчанию 0.5 0,5
Критерий Выпадающий список Да По умолчанию "Квадрат остатков". Варианты:
- Квадрат остатков;
- Абсолютная ошибка;
- Критерий Фридмана;
- Критерий Пуассона
Квадрат остатков
Начальное положение системы Целое число Нет По умолчанию 123 123

Входы блока

Наименование выхода Тип Описание
Обучающая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Обучающая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Тестовая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Тестовая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Прогнозная выборка. Независимые переменные DataFrame DataFrame с набором признаков
Модель Модель Объект типа RandomForestRegressor

Выходы блока

Наименование выхода Тип Описание
Обучающая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Обучающая выборка. Модельный ряд DataFrame
Обучающая выборка. Ряд остатков DataFrame
Тестовая выборка. Зависимая переменная DataFrame DataFrame с одним рядом
Тестовая выборка. Модельный ряд DataFrame
Тестовая выборка. Ряд остатков DataFrame
Прогнозная выборка. Прогнозный ряд DataFrame
Значимость факторов DataFrame
Описательные статистики html Статистический отчет о работе метода
Модель Модель Результирующая модель. Объект типа RandomForestRegressor

События блока

В блоке нет событий.

Описание работы блока

Блок строит регрессионную модель методом «Случайный лес» (Random Forest Regressor).

Требования к данным:

  • входные данные — таблицы в формате DataFrame;
  • поддерживаются только числовые данные.

Процесс работы:

  1. Обучение — модель обучается на обучающей выборке.
  2. Применение — обученная модель применяется к тестовой и прогнозной выборкам.

Результаты работы:

  • ряды, полученные в процессе моделирования и прогнозирования;
  • HTML-отчет о качестве модели (по обучающей выборке, а также по тестовой, если она задана);
  • объект обученной модели (для дальнейшего использования).

Режим моделирования

Для моделирования доступны три режима моделирования:

  1. Режим "Создать новую модель" - используются гиперпараметры, заданные внутри блока, и входные данные. На их основе строится новая модель.

  2. Режим "Использовать заданную модель" - на вход блока подается уже обученная модель. В этом режиме модель внутри блока не пересчитывается. Блок использует ее внутренние параметры (деревья) и на основе заданных независимых переменных рассчитывает только модельные ряды.

  3. Режим "Переобучить заданную модель" - из переданной модели извлекаются только ее гиперпараметры. На основе входных данных строится новая модель.

Ограничения блока

  1. Метод работает только с объектами pandas.DataFrame.
  2. Обучающая выборка не должна содержать пустых столбцов.
  3. Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
  4. Зависимая переменная должна состоять только из одного столбца.
  5. Зависимая и независимые переменные должны иметь одинаковое количество наблюдений.
  6. Все входные данные должны быть числовыми и не содержать пропусков и бесконечных значений.
  7. Индексы строк зависимой и независимых переменных должны совпадать. Это работает как на обучающую, так и на тестовую выборки.
  8. Максимальная глубина отдельного дерева должна быть целым положительным числом из промежутка [1,30].
  9. Количество деревьев в лесу должно быть целым положительным числом.
  10. Минимальное количество наблюдений для разбиения должно быть целым положительным числом из промежутка [2, Количество наблюдений].
  11. Минимальное количество наблюдений в листе должно быть целым положительным числом из промежутка [1, Количество наблюдений].
  12. Доля факторов должна быть вещественным числом из промежутка [0.01, 1].