Блок "Обработка непрерывных переменных"
Блок доступен начиная с версии 1.0
Назначение блока
Блок предназначен для предобработки числовых (непрерывных) признаков в обучающей и тестовой выборках.
Процесс включает два этапа:
- Заполнение пропущенных значений — в соответствии с выбранной стратегией.
- Масштабирование данных — в соответствии с выбранной стратегией.
Чтобы начать работать с блоком, необходимо выбрать его в библиотеке и переместить в область графа.
Настройки блока
Работа с настройками блока осуществляется через локальное меню (пункт Настройки):
Модальное окно выглядит следующим образом:
Общие настройки блоков описаны в отдельном разделе.
Раздел "Специфические настройки блока"
| Наименование | Тип | Обязательное | Описание | Пример |
|---|---|---|---|---|
| Метод заполнения пропусков | Выпадающий список | Да | По умолчанию "Среднее" | Кубическая интерполяция |
| Значение | Вещественное число | Нет | По умолчанию 5. Отображается при выборе параметра "Константа" | 5 |
| Метод масштабирования | Выпадающий список | Да | По умолчанию "Стандартизация" | Робастное масштабирование |
Входы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Тестовая выборка. Независимые переменные | DataFrame | DataFrame с набором признаков |
| Прогнозная выборка Независимые переменные | DataFrame | DataFrame с набором признаков |
| Метод заполнения пропусков | Строка | Стратегия заполнения пропусков из доступного перечня методов (см. раздел 'Описание работы блока' |
| Константа | Вещественное число | Применяется только для стратегии заполнения "Константа" |
| Метод масштабирования | Строка | Стратегия масштабирования из доступного перечня методов (см. раздел 'Описание работы блока' |
Выходы блока
| Наименование выхода | Тип | Описание |
|---|---|---|
| Обучающая выборка. Независимые переменные | DataFrame | Обработанные данные |
| Тестовая выборка. Независимые переменные | DataFrame | Обработанные данные |
| Прогнозная выборка. Независимые переменные | DataFrame | Обработанные данные |
| Отчет о работе метода | DataFrame | Summary работы метода |
События блока
В блоке нет событий.
Описание работы блока
Блок выполняет обработку и преобразование числовых переменных: заполняет пропущенные значения и масштабирует данные. Результатом являются данные, готовые для передачи в модель.
В качестве стратегий заполнения пропусков могут быть использованы следующие методы:
| Наименование | Наименование (вход блока) | Комментарий |
|---|---|---|
| Среднее | mean | |
| Медиана | median | |
| Минимум | min | |
| Максимум | max | |
| Константа | constant | Требует указания параметра "Значение" |
| Линейная интерполяция | interpolate_linear | |
| Квадратичная интерполяция | interpolate_quadratic | |
| Кубическая интерполяция | interpolate_cubic |
При передаче стратегии на вход блока необходимо использовать значения из столбца «Наименование (вход блока)».
- Для метода «Константа» необходимо дополнительно указать значение параметра.
- Если метод задан через вход блока, соответствующая внутренняя настройка игнорируется.
В качестве методов масштабирования могут быть использованы следующие:
| Наименование | Наименование (вход блока) |
|---|---|
| Среднее | standard |
| MinMax | minmax |
| Робастное масштабирование | robust |
| MaxABS | maxabs |
| Без масштабирования | none |
При передаче метода масштабирования в качестве входа блока необходимо использовать имена из столбца "Наименование (вход блока)".
Ограничения блока
- Обучающая выборка не должна содержать полностью пустых столбцов.
- Тестовая и прогнозная выборки должны иметь тот же набор признаков, что и обучающая выборка.
- Все выборки должны содержать только числовые данные.
- Для квадратичной интерполяции каждый признак должен содержать как минимум три непустых значения. Метод не заполняет пропуски в начале и конце ряда.
- Для кубической интерполяции каждый признак должен содержать как минимум четыре непустых значения.
- Метод не заполняет пропуски в начале и конце ряда.


