В рамках этой лабораторной работы требуется сформировать уникальный набор данных, начиная с парсинга данных с веб-ресурса. Главной целью является создание набора данных, содержащего разнообразные признаки, которые можно использовать в задачах машинного обучения.
-
Источник данных:
- Данные должны быть получены с веб-сайта, содержащего список однотипных объектов в неструктурированном виде.
- Парсинг готовых таблиц или JSON-файлов запрещён и приведёт к снижению баллов.
-
Характеристики набора данных:
- Количество признаков:
- Минимум 6 признаков.
- Из них 2 категориальных и 2 числовых.
- Количество объектов:
- Не менее 500 строк (объектов).
- Дополнительные типы данных (текст, изображения, аудио, видео) допускаются и могут быть использованы в будущих лабораторных работах.
- Количество признаков:
-
Извлечение признаков:
- Если не хватает текстовых и категориальных признаков, их необходимо извлечь из исходных данных в рамках лабораторной работы.
- Запрещено:
- Отбрасывать объекты или признаки с пропусками.
- Отбрасывать аномальные объекты.
- Заменять аномальные или пропущенные значения.
- Сливать разные значения одной категории в одно.
- Нормализовать значения.
- Необходимо:
- Унификация единиц измерения:
- Например, преобразовывать "1 234 567 м." или "1,234.567 км." в "1234567". Единицы измерения должны сохраняться в названии признака.
- Очистка числовых данных:
- Удаление лишнего форматирования (пробелы, запятые и т.д.).
- Унификация категориальных значений:
- Преобразование "Cat", "CAT", "кот" в "cat".
- Унификация единиц измерения:
- Набор данных необходимо сохранить в сыром виде в формате
.tsv
.
- Преобразовать набор данных из
.tsv
в.arff
формат с определением типов признаков и их описанием.
- Выполняется после сохранения данных в
.tsv
и.arff
форматы:- Выбрать целевой категориальный признак.
- Заполнить пропуски.
- Преобразовать нецелевые категории в числовые значения.
- Нормализовать числовые данные.
- Сохранить преобразованный набор данных, например, в формате
.csv
.