Skip to content

StasaoSan/ML_Dataset

Repository files navigation

ML_Dataset: Forming Dataset from Raw Data

Описание задачи

В рамках этой лабораторной работы требуется сформировать уникальный набор данных, начиная с парсинга данных с веб-ресурса. Главной целью является создание набора данных, содержащего разнообразные признаки, которые можно использовать в задачах машинного обучения.


Требования к набору данных:

  1. Источник данных:

    • Данные должны быть получены с веб-сайта, содержащего список однотипных объектов в неструктурированном виде.
    • Парсинг готовых таблиц или JSON-файлов запрещён и приведёт к снижению баллов.
  2. Характеристики набора данных:

    • Количество признаков:
      • Минимум 6 признаков.
      • Из них 2 категориальных и 2 числовых.
    • Количество объектов:
      • Не менее 500 строк (объектов).
    • Дополнительные типы данных (текст, изображения, аудио, видео) допускаются и могут быть использованы в будущих лабораторных работах.
  3. Извлечение признаков:

    • Если не хватает текстовых и категориальных признаков, их необходимо извлечь из исходных данных в рамках лабораторной работы.

Этапы работы:

1. Парсинг данных:

  • Запрещено:
    • Отбрасывать объекты или признаки с пропусками.
    • Отбрасывать аномальные объекты.
    • Заменять аномальные или пропущенные значения.
    • Сливать разные значения одной категории в одно.
    • Нормализовать значения.
  • Необходимо:
    • Унификация единиц измерения:
      • Например, преобразовывать "1 234 567 м." или "1,234.567 км." в "1234567". Единицы измерения должны сохраняться в названии признака.
    • Очистка числовых данных:
      • Удаление лишнего форматирования (пробелы, запятые и т.д.).
    • Унификация категориальных значений:
      • Преобразование "Cat", "CAT", "кот" в "cat".

2. Сохранение данных:

  • Набор данных необходимо сохранить в сыром виде в формате .tsv.

3. Преобразование данных:

  • Преобразовать набор данных из .tsv в .arff формат с определением типов признаков и их описанием.

4. Предобработка данных:

  • Выполняется после сохранения данных в .tsv и .arff форматы:
    • Выбрать целевой категориальный признак.
    • Заполнить пропуски.
    • Преобразовать нецелевые категории в числовые значения.
    • Нормализовать числовые данные.
  • Сохранить преобразованный набор данных, например, в формате .csv.

About

Forming dataset from raw data, parsed from site

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published