Блок "Случайный лес. Регрессия"

Блок доступен начиная с версии 1.0

Назначение блока

Блок предназначен для построения регрессионной модели с использованием метода «Случайный лес».

Чтобы начать работу с блоком, необходимо его выбрать в библиотеке и переместить в область графа.

Настройки блока

Работа с настройками осуществляется через локальное меню (пункт Настройки):

Модальное окно представлено ниже:

Общие настройки блоков описаны в отдельном разделе.

Раздел "Специфические настройки блока"

Наименование	Тип	Обязательное	Описание	Пример
Режим моделирования	Выпадающий список	Да	По умолчанию "Создать новую модель". Варианты: - Создать новую модель; - Использовать заданную модель; - Переобучить заданную модель	Создать новую модель
Количество деревьев в лесу	Целое число	Да	По умолчанию 100	100
Максимальная глубина дерева	Целое число	Да	По умолчанию 3	3
Мин. кол-во точек для разбиения узла	Целое число	Да	По умолчанию 2	2
Мин. кол-во точек в листе	Целое число	Да	По умолчанию 1	1
Доля факторов	Целое число	Да	По умолчанию 0.5	0,5
Критерий	Выпадающий список	Да	По умолчанию "Квадрат остатков". Варианты: - Квадрат остатков; - Абсолютная ошибка; - Критерий Фридмана; - Критерий Пуассона	Квадрат остатков
Начальное положение системы	Целое число	Нет	По умолчанию 123	123

Входы блока

Наименование выхода	Тип	Описание
Обучающая выборка. Зависимая переменная	DataFrame	DataFrame с одним рядом
Обучающая выборка. Независимые переменные	DataFrame	DataFrame с набором признаков
Тестовая выборка. Зависимая переменная	DataFrame	DataFrame с одним рядом
Тестовая выборка. Независимые переменные	DataFrame	DataFrame с набором признаков
Прогнозная выборка. Независимые переменные	DataFrame	DataFrame с набором признаков
Модель	Модель	Объект типа RandomForestRegressor

Выходы блока

Наименование выхода	Тип	Описание
Обучающая выборка. Зависимая переменная	DataFrame	DataFrame с одним рядом
Обучающая выборка. Модельный ряд	DataFrame
Обучающая выборка. Ряд остатков	DataFrame
Тестовая выборка. Зависимая переменная	DataFrame	DataFrame с одним рядом
Тестовая выборка. Модельный ряд	DataFrame
Тестовая выборка. Ряд остатков	DataFrame
Прогнозная выборка. Прогнозный ряд	DataFrame
Значимость факторов	DataFrame
Описательные статистики	html	Статистический отчет о работе метода
Модель	Модель	Результирующая модель. Объект типа RandomForestRegressor

События блока

В блоке нет событий.

Описание работы блока

Блок строит регрессионную модель методом «Случайный лес» (Random Forest Regressor).

Требования к данным:

входные данные — таблицы в формате DataFrame;
поддерживаются только числовые данные.

Процесс работы:

Обучение — модель обучается на обучающей выборке.
Применение — обученная модель применяется к тестовой и прогнозной выборкам.

Результаты работы:

ряды, полученные в процессе моделирования и прогнозирования;
HTML-отчет о качестве модели (по обучающей выборке, а также по тестовой, если она задана);
объект обученной модели (для дальнейшего использования).

Режим моделирования

Для моделирования доступны три режима моделирования:

Режим "Создать новую модель" - используются гиперпараметры, заданные внутри блока, и входные данные. На их основе строится новая модель.
Режим "Использовать заданную модель" - на вход блока подается уже обученная модель. В этом режиме модель внутри блока не пересчитывается. Блок использует ее внутренние параметры (деревья) и на основе заданных независимых переменных рассчитывает только модельные ряды.
Режим "Переобучить заданную модель" - из переданной модели извлекаются только ее гиперпараметры. На основе входных данных строится новая модель.

Ограничения блока

Метод работает только с объектами pandas.DataFrame.
Обучающая выборка не должна содержать пустых столбцов.
Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
Зависимая переменная должна состоять только из одного столбца.
Зависимая и независимые переменные должны иметь одинаковое количество наблюдений.
Все входные данные должны быть числовыми и не содержать пропусков и бесконечных значений.
Индексы строк зависимой и независимых переменных должны совпадать. Это работает как на обучающую, так и на тестовую выборки.
Максимальная глубина отдельного дерева должна быть целым положительным числом из промежутка [1,30].
Количество деревьев в лесу должно быть целым положительным числом.
Минимальное количество наблюдений для разбиения должно быть целым положительным числом из промежутка [2, Количество наблюдений].
Минимальное количество наблюдений в листе должно быть целым положительным числом из промежутка [1, Количество наблюдений].
Доля факторов должна быть вещественным числом из промежутка [0.01, 1].