Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
Работа с признаками. Тетрадка, веб-форма для ответов, решение
Метод главных компонент, t-SNE и кластеризация. Тетрадка, веб-форма для ответов, решение
Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, веб-форма для ответов
Предсказание числа просмотров вики-страницы. Тетрадка, веб-форма для ответов

Соревнования Kaggle Inclass

Рейтинг

В течение курса ведется рейтинг. На него влияют:

домашние задания (от 10 до 20 баллов за каждое)
соревнования Kaggle Inclass (за каждое 40(1−(p−1)/N) баллов, где p – место участника в приватном рейтинге, N – число участников, побивших все бенчмарки в приватном рейтинге)
разовые короткие контесты, объявляемые в slack OpenDataScience в канале #mlcourse_open (от 1 до 8 баллов)

Авторы статей и лекторы

(в скобках – ники в OpenDataScience и на Хабрахабре)

Юрий Кашницкий (@yorko, yorko)

Программист-исследователь Mail.ru Group, старший преподаватель факультета компьютерных наук ВШЭ, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ. В прошлом — разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ. Домашняя страница. Преподаватель в годовой программе дополнительного образования по анализу данных в ВШЭ, автор Capstone проекта специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Юрия есть репозиторий с Jupyter-тетрадками по языку Python и основным алгоритмам и структурам данных.

Павел Нестеров (@mephistopheies, mephistopheies)

Data Scientist в стартапе, который нельзя называть. Раньше - программист-исследователь Mail.Ru Group в департаменте рекламы, позже в департаменте поиска. Преподавал в Техносфере@Mail.Ru на базе МГУ ВМК. Еще раньше - программист-исследователь в сфере компьютерного зрения, до нейросетевой эпохи, в Aspose ltd. Домашняя страница. Павел пишет содержательные статьи на Хабре по нейронным сетям.

Екатерина Демидова (@katya, cotique)

Data Scientist в Segmento, г. Санкт-Петербург. Ментор специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Кати есть репозиторий со списком книг/курсов/статей по Data Science.

Мария Мансурова (@miptgirl, miptgirl)

Аналитик-разработчик в команде Яндекс.Метрики. До этого в Яндексе работала аналитиком ключевых показателей. В прошлом также успела поработать бизнес-аналитиком в компании-интеграторе в сфере телекоммуникаций.

Виталий Радченко (@vradchenko, vradchenko)

Data Science Intern в компании Ciklum. Студент магистерской программы Computer Science with Specialization in Data Science в Украинском Католическом Университете. Организовывает кагл-тренировки и другие активности по Data Science в Киеве и Львове. Был ментором специализации Яндекса и МФТИ "Машинное обучение и анализ данных". Раньше работал в банке, большой ритейл-компании и интернет-рекламе.

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Data Science Team Lead @ gojuno.com. В прошлом - аналитик-разработчик в Яндексе и менеджер по продукту в Wargaming. Домашняя страница.

Сергей Королев (@libfun, libfun)

Исследователь в СколТехе, разработчик в Snap Inc.

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Data Scientist @ Zeptolab, лектор в Центре Математических Финансов МГУ.

Алексей Натекин (@natekin, natekin)

Основатель сообщества OpenDataScience и DM Labs, Chief Data Officer @ Diginetica. В прошлом – глава отдела аналитики Deloitte.

Инструкция по установке Docker-контейнера

(необходимое ПО)

В курсе используются тетрадки Jupyter, библиотеки Pandas, Scikit-learn, Xgboost, Vowpal Wabbit и некоторые другие. Все это можно не устанавливать, а использовать Docker-контейнер (требования: около 4 Гб места на диске, 4 Гб RAM). Введение в Docker. Рекомендуется тем, кто использует Windows, c *NIX проще самостоятельно установить необходимое (см. Dockerfile).

Инструкция:

скачать данный репозиторий
на Windows скорее всего придется включить в BIOS виртуализацию, если раньше не использовали виртуальные машины или Docker
установить Docker
перейти в командной строке/терминале в скачанный каталог mlcourse_open
выполнить python run_docker_jupyter.py. Первый раз это займет 5-10 минут (в зависимости от скорости соединения) - docker-образ скачается с hub.docker
при желании можно добавить установку дополнительных библиотек в Dockerfile, собрать локально образ Docker: docker build -t <tag_name> . и выполнить python run_docker_jupyter.py -t <tag_name>
открыть localhost:4545
далее можно выполнить тетрадку check_docker.ipynb и убедиться, что нужные библиотеки подключаются

Контейнеры Docker, как правило, занимают много места на диске.

docker ps – посмотреть весь список контейнеров
docker stop $(docker ps -a -q) – остановить все контейнеры
docker rm $(docker ps -a -q) – удалить все контейнеры
docker images - посмотреть весь список образов
docker rmi <image_id> – удалить ненужный образ

Доступная и понятная документация Docker с примерами

Name		Name	Last commit message	Last commit date
Latest commit History 141 Commits
data		data
docker_files		docker_files
img		img
jupyter_notebooks		jupyter_notebooks
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
run_docker_jupyter.py		run_docker_jupyter.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Соревнования Kaggle Inclass

Рейтинг

Авторы статей и лекторы

Юрий Кашницкий (@yorko, yorko)

Павел Нестеров (@mephistopheies, mephistopheies)

Екатерина Демидова (@katya, cotique)

Мария Мансурова (@miptgirl, miptgirl)

Виталий Радченко (@vradchenko, vradchenko)

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Сергей Королев (@libfun, libfun)

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Алексей Натекин (@natekin, natekin)

Инструкция по установке Docker-контейнера

About

Releases

Packages

Languages

zloom/mlcourse_open

Folders and files

Latest commit

History

Repository files navigation

Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Соревнования Kaggle Inclass

Рейтинг

Авторы статей и лекторы

Юрий Кашницкий (@yorko, yorko)

Павел Нестеров (@mephistopheies, mephistopheies)

Екатерина Демидова (@katya, cotique)

Мария Мансурова (@miptgirl, miptgirl)

Виталий Радченко (@vradchenko, vradchenko)

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Сергей Королев (@libfun, libfun)

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Алексей Натекин (@natekin, natekin)

Инструкция по установке Docker-контейнера

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages