Skip to content

OpenDataScience Machine Learning course (yet Russian-only)

License

Notifications You must be signed in to change notification settings

stepanovD/mlcourse_open

 
 

Repository files navigation

<<<<<<< HEAD

Открытый курс OpenDataScience по машинному обучению

ODS stickers

❗ Новая сессия стартовала 6 сентября 2017 г. Тут подробное описание активностей в течение курса ❗

Статья про курс на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале mlcourse_open. Заявка на вступление.

В статьях курса даются теоретические основы машинного обучения. Навыки практического анализа данных и построения прогнозных моделей можно получить через выполнение домашних заданий и индивидуального проекта, а также за счет участия в 2 соревнованиях по анализу данных. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений

Прочее

  1. Беседа с А.Г. Дьяконовым

Домашние задания

  1. Анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V), ipynb
  2. Визуальный анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
  3. Деревья решений для классификации и регрессии, ipynb. Реализация дерева решений (опционально, не в зачет рейтинга), ipynb

Соревнования

  1. Идентификация пользователя по последовательности посещенных сайтов ("Элис"). Kaggle Inclass
  2. Прогноз популярности статьи на medium.com. Скоро...

Проекты

  1. Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
  2. Индивидуальные проекты. Описаны на Wiki.

Рейтинг

На рейтинг участников влияют домашки, соревнования, проекты, тьюториалы и мини-конкурсы по визуализации данных.

Wiki-страницы этого репозитория:

  • Все активности по втором запуске курса. Домашки, соревнования, проекты, тьюториалы и мини-конкурсы и все, за что еще можно получить баллы и, главное, опыт.
  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • Домашние задания 1-ой сессии курса. С решениями. На текущий рейтинг не влияют.
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 1-ой сессии курса. 1 сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
  • Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных. =======

Open Machine Learning Course

upstream/master

ODS stickers

Russian version

❗ The course in English started on Feb. 5, 2018 as a series of articles (a "Publication" on Medium) with assignments and Kaggle Inclass competitions. The next session is planned to start on Oct. 1, 2018. Fill in this form to participate:exclamation:

Outline

Icons 🇬🇧 and 🇷🇺 are clickable.

  1. Exploratory Data Analysis with Pandas 🇬🇧 🇷🇺
  2. Visual Data Analysis with Python 🇬🇧 🇷🇺
  3. Classification, Decision Trees and k Nearest Neighbors 🇬🇧 🇷🇺
  4. Linear Classification and Regression 🇬🇧 🇷🇺
  5. Bagging and Random Forest 🇬🇧 🇷🇺
  6. Feature Engineering and Feature Selection 🇷🇺
  7. Unsupervised Learning: Principal Component Analysis and Clustering 🇷🇺
  8. Vowpal Wabbit: Learning with Gigabytes of Data 🇬🇧 🇷🇺
  9. Time Series Analysis with Python 🇷🇺
  10. Gradient Boosting 🇷🇺

Assignments

  1. "Exploratory data analysis with Pandas", nbviewer. Deadline: Feb. 11, 23.59 CET
  2. "Analyzing cardiovascular disease data", nbviewer. Deadline: Feb. 18, 23.59 CET
  3. "Decision trees with a toy task and the UCI Adult dataset", nbviewer. Deadline: Feb. 25, 23.59 CET
  4. "User Identification with Logistic Regression", nbviewer. Deadline: March 11, 23.59 CET
  5. "Logistic Regression and Random Forest in the Credit Scoring Problem", nbviewer. Deadline: March 18, 23.59 CET
  6. Beating benchmarks in two Kaggle Inclass competitons. Part 1, "Alice", nbviewer. Part 2, "Medium", nbviewer. Deadline: March 25, 23.59 CET

Kaggle competitions

  1. Catch Me If You Can: Intruder Detection through Webpage Session Tracking. Kaggle Inclass
  2. How good is your Medium article? Kaggle Inclass

Rating

Throughout the course we are maintaining a student rating. It takes into account credits scored in assignments and Kaggle competitions. Top-10 students (according to the final rating) will be listed on a special Wiki page.

Community

Discussions between students are held in the #eng_mlcourse_open channel of the OpenDataScience Slack team. Fill in this form to get an invitation. The form will also ask you some personal questions, don't hesitate 👋

Wiki Pages

The course is free but you can support organizers by making a pledge on Patreon

About

OpenDataScience Machine Learning course (yet Russian-only)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%