Блок "Случайный лес. Регрессия"
Блок доступен начиная с версии 1.0
Назначение блока
Блок предназначен для построения регрессионной модели с использованием метода «Случайный лес».
Чтобы начать работу с блоком, необходимо его выбрать в библиотеке и переместить в область графа.
Настройки блока
Работа с настройками осуществляется через локальное меню (пункт Настройки):
Модальное окно представлено ниже:
Общие настройки блоков описаны в отдельном разделе.
Раздел "Специфические настройки блока"
| Наименование | Тип | Обязательное | Описание | Пример |
|---|---|---|---|---|
| Режим моделирования | Выпадающий список | Да | По умолчанию "Создать новую модель". Варианты: - Создать новую модель;- Использовать заданную модель; - Переобучить заданную модель | Создать новую модель |
| Количество деревьев в лесу | Целое число | Да | По умолчанию 100 | 100 |
| Максимальная глубина дерева | Целое число | Да | По умолчанию 3 | 3 |
| Мин. кол-во точек для разбиения узла | Целое число | Да | По умолчанию 2 | 2 |
| Мин. кол-во точек в листе | Целое число | Да | По умолчанию 1 | 1 |
| Доля факторов | Целое число | Да | По умолчанию 0.5 | 0,5 |
| Критерий | Выпадающий список | Да | По умолчанию "Квадрат остатков". Варианты: - Квадрат остатков; - Абсолютная ошибка; - Критерий Фридмана; - Критерий Пуассона | Квадрат остатков |
| Начальное положение системы | Целое число | Нет | По умолчанию 123 | 123 |
Входы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Обучающая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Тестовая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Тестовая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Прогнозная выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Модель | Модель | Объект типа RandomForestRegressor |
Выходы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Обучающая выборка. Модельный ряд | DataFrame | |
| Обучающая выборка. Ряд остатков | DataFrame | |
| Тестовая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Тестовая выборка. Модельный ряд | DataFrame | |
| Тестовая выборка. Ряд остатков | DataFrame | |
| Прогнозная выборка. Прогнозный ряд | DataFrame | |
| Значимость факторов | DataFrame | |
| Описательные статистики | html | Статистический отчет о работе метода |
| Модель | Модель | Результирующая модель. Объект типа RandomForestRegressor |
События блока
В блоке нет событий.
Описание работы блока
Блок строит регрессионную модель методом «Случайный лес» (Random Forest Regressor).
Требования к данным:
- входные данные — таблицы в формате DataFrame;
- поддерживаются только числовые данные.
Процесс работы:
- Обучение — модель обучается на обучающей выборке.
- Применение — обученная модель применяется к тестовой и прогнозной выборкам.
Результаты работы:
- ряды, полученные в процессе моделирования и прогнозирования;
- HTML-отчет о качестве модели (по обучающей выборке, а также по тестовой, если она задана);
- объект обученной модели (для дальнейшего использования).
Режим моделирования
Для моделирования доступны три режима моделирования:
-
Режим "Создать новую модель" - используются гиперпараметры, заданные внутри блока, и входные данные. На их основе строится новая модель.
-
Режим "Использовать заданную модель" - на вход блока подается уже обученная модель. В этом режиме модель внутри блока не пересчитывается. Блок использует ее внутренние параметры (деревья) и на основе заданных независимых переменных рассчитывает только модельные ряды.
-
Режим "Переобучить заданную модель" - из переданной модели извлекаются только ее гиперпараметры. На основе входных данных строится новая модель.
Ограничения блока
- Метод работает только с объектами pandas.DataFrame.
- Обучающая выборка не должна содержать пустых столбцов.
- Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
- Зависимая переменная должна состоять только из одного столбца.
- Зависимая и независимые переменные должны иметь одинаковое количество наблюдений.
- Все входные данные должны быть числовыми и не содержать пропусков и бесконечных значений.
- Индексы строк зависимой и независимых переменных должны совпадать. Это работает как на обучающую, так и на тестовую выборки.
- Максимальная глубина отдельного дерева должна быть целым положительным числом из промежутка [1,30].
- Количество деревьев в лесу должно быть целым положительным числом.
- Минимальное количество наблюдений для разбиения должно быть целым положительным числом из промежутка [2, Количество наблюдений].
- Минимальное количество наблюдений в листе должно быть целым положительным числом из промежутка [1, Количество наблюдений].
- Доля факторов должна быть вещественным числом из промежутка [0.01, 1].


