- Обработка данных
- Заполнение пропусков
- Чистка столбцов
- Разделение данных на нумерические и категоральные
- Обработка нумерических и категоральных данных
- регрессия для предсказания целевой переменной (sold_price)
- разделение данных на тестовые и обучающие
- проверка ошибки
- проверка на переобучаемость (не переобучены)
- Вычесления весов выборки для главных компонентов
- Вывод весов на графике
- area_total больше всего вес, значит имеет больше всего влияния
- Оптимизация обработки данных, более чистый код
- Скорее всего из-за не очень качественного заполненния и обрабокти данных, низкий показатель R^2 (0.4 без столбца price, 0.98 с стобцом price)
- Более подробная документация в коде
cd myproject
pip install -r requirements.txt
cd myproject
conda install --file requirements.txt