Перейти к содержанию

Блок "Обработка непрерывных переменных"

Блок доступен начиная с версии 1.0

Назначение блока

Блок предназначен для предобработки числовых (непрерывных) признаков в обучающей и тестовой выборках.

Процесс включает два этапа:

  1. Заполнение пропущенных значений — в соответствии с выбранной стратегией.
  2. Масштабирование данных — в соответствии с выбранной стратегией.

Чтобы начать работать с блоком, необходимо выбрать его в библиотеке и переместить в область графа.

Настройки блока

Работа с настройками блока осуществляется через локальное меню (пункт Настройки):

Модальное окно выглядит следующим образом:

Общие настройки блоков описаны в отдельном разделе.

Раздел "Специфические настройки блока"

Наименование Тип Обязательное Описание Пример
Метод заполнения пропусков Выпадающий список Да По умолчанию "Среднее" Кубическая интерполяция
Значение Вещественное число Нет По умолчанию 5. Отображается при выборе параметра "Константа" 5
Метод масштабирования Выпадающий список Да По умолчанию "Стандартизация" Робастное масштабирование

Входы блока

Наименование выхода Тип Описание
Обучающая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Тестовая выборка. Независимые переменные DataFrame DataFrame с набором признаков
Прогнозная выборка Независимые переменные DataFrame DataFrame с набором признаков
Метод заполнения пропусков Строка Стратегия заполнения пропусков из доступного перечня методов (см. раздел 'Описание работы блока'
Константа Вещественное число Применяется только для стратегии заполнения "Константа"
Метод масштабирования Строка Стратегия масштабирования из доступного перечня методов (см. раздел 'Описание работы блока'

Выходы блока

Наименование выхода Тип Описание
Обучающая выборка. Независимые переменные DataFrame Обработанные данные
Тестовая выборка. Независимые переменные DataFrame Обработанные данные
Прогнозная выборка. Независимые переменные DataFrame Обработанные данные
Отчет о работе метода DataFrame Summary работы метода

События блока

В блоке нет событий.

Описание работы блока

Блок выполняет обработку и преобразование числовых переменных: заполняет пропущенные значения и масштабирует данные. Результатом являются данные, готовые для передачи в модель.

В качестве стратегий заполнения пропусков могут быть использованы следующие методы:

Наименование Наименование (вход блока) Комментарий
Среднее mean
Медиана median
Минимум min
Максимум max
Константа constant Требует указания параметра "Значение"
Линейная интерполяция interpolate_linear
Квадратичная интерполяция interpolate_quadratic
Кубическая интерполяция interpolate_cubic

При передаче стратегии на вход блока необходимо использовать значения из столбца «Наименование (вход блока)».

  • Для метода «Константа» необходимо дополнительно указать значение параметра.
  • Если метод задан через вход блока, соответствующая внутренняя настройка игнорируется.

В качестве методов масштабирования могут быть использованы следующие:

Наименование Наименование (вход блока)
Среднее standard
MinMax minmax
Робастное масштабирование robust
MaxABS maxabs
Без масштабирования none

При передаче метода масштабирования в качестве входа блока необходимо использовать имена из столбца "Наименование (вход блока)".

Ограничения блока

  1. Обучающая выборка не должна содержать полностью пустых столбцов.
  2. Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
  3. Все выборки должны содержать только числовые данные.
  4. Для квадратичной интерполяции каждый признак должен содержать как минимум три непустых значения. Метод не заполняет пропуски в начале и конце ряда.
  5. Для кубической интерполяции каждый признак должен содержать как минимум четыре непустых значения.
  6. Метод не заполняет пропуски в начале и конце ряда.