Блок "Обработка категориальных переменных"
Блок доступен начиная с версии 1.0
Назначение блока
Блок предназначен для расчета модели регрессии методом "Случаный лес".
Настройки блока
Общие настройки блоков описаны в отдельном разделе.
Раздел "Специфические настройки блока"
| Наименование | Тип | Обязательное | Описание | Пример |
|---|---|---|---|---|
| Режим моделирования | Выпадающий список | Да | По умолчанию "Создать новую модель". | |
| Количество деревьев в лесу | Целое число | Да | По умолчанию 100. | |
| Максимальная глубина дерева | Целое число | Да | По умолчанию 3. | |
| Мин. кол-во точек для разбиения узла | Целое число | Да | По умолчанию 2. | |
| Мин. кол-во точек в листе | Целое число | Да | По умолчанию 1. | |
| Доля факторов | Целое число | Да | По умолчанию 0.5. | |
| Критерий | Выпадающий список | Да | По умолчанию "Квадрат остатков". | |
| Начальное положение системы | Целое число | Нет | По умолчанию 123. |
Входы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Обучающая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Тестовая выборка. Зависимая переменная | DataFrame | DataFrame с одним рядом |
| Тестовая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Прогнозная выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Модель | Модель | Объект типа RandomForestRegressor |
Выходы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Зависимая переменная | DataFrame | |
| Обучающая выборка. Модельный ряд | DataFrame | |
| Обучающая выборка. Ряд остатков | DataFrame | |
| Тестовая выборка. Зависимая переменная | DataFrame | |
| Тестовая выборка. Модельный ряд | DataFrame | |
| Тестовая выборка. Ряд остатков | DataFrame | |
| Прогнозная выборка. Прогнозный ряд | DataFrame | |
| Значимость факторов | DataFrame | |
| Описательные статистики | html | Статистический отчет о работе метода |
| Модель | Модель | Результирующая модель. Объект типа RandomForestRegressor |
События блока
В блоке нет событий.
Описание работы блока
Блок рассчитывает модель регрессии методом «Случайный лес». Метод должен работать с таблицами типа DataFrame. Метод должен обучаться на обучающей выборке, затем применять обученную модель на тестовую и прогнозную выборки. Метод может работать только с числовыми данными. Итогом работы метода являются, полученный во время моделирования и прогнозирования, ряды, html отчет о модели как на обучающей, так и на тестовой (если она задана) выборках, а также сам объект обученной модели.
Режим моделирования Для моделирования доступны три режима моделирования:
-
Режим "Создать новую модель" - берутся гиперпараметры, заданные внутри блока, и входные данные. На их основе рассчитывается новая модель.
-
Режим "Использовать заданную модель" - на вход ожидается уже обученная модель. В этом режиме модель внутри блока не пересчитывается. Используются её внутренние параметры (деревья), и на основании заданных независимых переменных рассчитываются только модельные ряды.
-
Режим "Переобучить заданную модель" - из переданной модели берутся только её гиперпараметры. Далее на основании входных данных строится новая модель.
Ограничения блока
- Метод работает только с объектами pandas.DataFrame
- Обучающая выборка не должна содержать полностью пустых столбцов.
- Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
- Зависимая переменная должна состоять только из одного столбца.
- Зависимая и независимые переменные должны иметь одинаковое количество наблюдений.
- Все входные данные должны быть числовыми и не содержать пропусков и бесконечных значений.
- Индексы строк зависимой и независимых переменных должны совпадать. Это работает как на обучающую, так и на тестовую выборки.
- Максимальная глубина отдельного дерева должна быть целым положительным числом из промежутка [1,30].
- Количество деревьев в лесу должно быть целым положительным числом.
- Минимальное количество наблюдений для разбиения должно быть целым положительным числом из промежутка [2, Количество наблюдений].
- Минимальное количество наблюдений в листе должно быть целым положительным числом из промежутка [1, Количество наблюдений].
- Доля факторов должна быть вещественным числом из промежутка [0.01, 1].
