Algorithms: DT, FS
Цель данной лабораторной работы — реализовать алгоритмы построения дерева решений и случайного леса, а также исследовать их производительность, используя как собственные реализации, так и библиотечные аналоги. В завершении работы проводится анализ производительности бустинга на основе библиотечной реализации.
-
Выбор данных:
- Используйте любой набор данных для задачи классификации.
- Желательно использовать данные из первой лабораторной работы.
-
Подготовка данных:
- Преобразуйте данные в числовой вид.
- Допускается наличие нецелевых категориальных признаков.
- Разбейте данные на тренировочную и тестовую части.
-
Целевая функция:
- Выберите подходящую целевую функцию ошибки или качества.
- Реализуйте алгоритм построения дерева принятия решений.
- Алгоритм должен поддерживать не менее 3 гиперпараметров для ограничения размера дерева:
- Максимальная глубина.
- Минимальное количество объектов в листе.
- Минимальное количество объектов для разделения.
- Реализуйте алгоритм случайного леса, включающий:
- Строительство множества деревьев решений.
- Подбор гиперпараметров для улучшения качества модели.
-
Анализ высоты дерева:
- Выберите библиотечную реализацию дерева решений.
- Без ограничения высоты переберите разные значения числовых гиперпараметров.
- Постройте график зависимости высоты полученного дерева от гиперпараметров.
-
Сравнение с собственной реализацией дерева решений:
- Повторите предыдущий пункт для собственной реализации алгоритма дерева решений.
-
Качество на основе высоты дерева:
- Постройте график зависимости целевой функции ошибки или качества от высоты дерева на тренировочном и тестовом множестве.
- Сравните собственную и библиотечную реализации дерева решений.
-
Качество случайного леса:
- Постройте график зависимости целевой функции ошибки или качества от числа деревьев на тренировочном и тестовом множестве.
- Сравните собственную и библиотечную реализации случайного леса.
-
Сравнение с бустингом:
- Повторите предыдущий пункт для библиотечной реализации алгоритма бустинга.
В результате выполнения данной лабораторной работы вы:
- Реализуете дерево решений и случайный лес.
- Сравните собственные реализации алгоритмов с библиотечными.
- Проанализируете влияние гиперпараметров на производительность моделей.
- Построите и проанализируете графики зависимости качества моделей от гиперпараметров.