<<<<<<< HEAD
❗ Новая сессия стартовала 6 сентября 2017 г. Тут подробное описание активностей в течение курса ❗
Статья про курс на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале mlcourse_open. Заявка на вступление.
В статьях курса даются теоретические основы машинного обучения. Навыки практического анализа данных и построения прогнозных моделей можно получить через выполнение домашних заданий и индивидуального проекта, а также за счет участия в 2 соревнованиях по анализу данных. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.
- Первичный анализ данных с Pandas
- Визуальный анализ данных с Python
- Классификация, деревья решений и метод ближайших соседей
- Линейные модели классификации и регрессии
- Композиции: бэггинг, случайный лес
- Построение и отбор признаков
- Обучение без учителя: PCA и кластеризация
- Обучаемся на гигабайтах с Vowpal Wabbit
- Анализ временных рядов с помощью Python
- Градиентный бустинг. Часть 1
- Градиентный бустинг. Часть 2. Скоро...
- Первичный анализ данных с Pandas
- Визуальный анализ данных с Seaborn и Matplotlib
- Классификация. Деревья решений
- Анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V), ipynb
- Визуальный анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
- Деревья решений для классификации и регрессии, ipynb. Реализация дерева решений (опционально, не в зачет рейтинга), ipynb
- Идентификация пользователя по последовательности посещенных сайтов ("Элис"). Kaggle Inclass
- Прогноз популярности статьи на medium.com. Скоро...
- Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
- Индивидуальные проекты. Описаны на Wiki.
На рейтинг участников влияют домашки, соревнования, проекты, тьюториалы и мини-конкурсы по визуализации данных.
- Все активности по втором запуске курса. Домашки, соревнования, проекты, тьюториалы и мини-конкурсы и все, за что еще можно получить баллы и, главное, опыт.
- Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
- Домашние задания 1-ой сессии курса. С решениями. На текущий рейтинг не влияют.
- Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
- ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
- Топ-100 1-ой сессии курса. 1 сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
- Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных. =======
upstream/master
❗ The course in English started on Feb. 5, 2018 as a series of articles (a "Publication" on Medium) with assignments and Kaggle Inclass competitions. The next session is planned to start on Oct. 1, 2018. Fill in this form to participate:exclamation:
Icons 🇬🇧 and 🇷🇺 are clickable.
- Exploratory Data Analysis with Pandas 🇬🇧 🇷🇺
- Visual Data Analysis with Python 🇬🇧 🇷🇺
- Classification, Decision Trees and k Nearest Neighbors 🇬🇧 🇷🇺
- Linear Classification and Regression 🇬🇧 🇷🇺
- Bagging and Random Forest 🇬🇧 🇷🇺
- Feature Engineering and Feature Selection 🇷🇺
- Unsupervised Learning: Principal Component Analysis and Clustering 🇷🇺
- Vowpal Wabbit: Learning with Gigabytes of Data 🇬🇧 🇷🇺
- Time Series Analysis with Python 🇷🇺
- Gradient Boosting 🇷🇺
- "Exploratory data analysis with Pandas", nbviewer. Deadline: Feb. 11, 23.59 CET
- "Analyzing cardiovascular disease data", nbviewer. Deadline: Feb. 18, 23.59 CET
- "Decision trees with a toy task and the UCI Adult dataset", nbviewer. Deadline: Feb. 25, 23.59 CET
- "User Identification with Logistic Regression", nbviewer. Deadline: March 11, 23.59 CET
- "Logistic Regression and Random Forest in the Credit Scoring Problem", nbviewer. Deadline: March 18, 23.59 CET
- Beating benchmarks in two Kaggle Inclass competitons. Part 1, "Alice", nbviewer. Part 2, "Medium", nbviewer. Deadline: March 25, 23.59 CET
- Catch Me If You Can: Intruder Detection through Webpage Session Tracking. Kaggle Inclass
- How good is your Medium article? Kaggle Inclass
Throughout the course we are maintaining a student rating. It takes into account credits scored in assignments and Kaggle competitions. Top-10 students (according to the final rating) will be listed on a special Wiki page.
Discussions between students are held in the #eng_mlcourse_open channel of the OpenDataScience Slack team. Fill in this form to get an invitation. The form will also ask you some personal questions, don't hesitate 👋
- Prerequisites: Python, math and DevOps – how to get prepared for the course
- Software requirements and Docker container – this will guide you through installing all necessary stuff for working with course materials
- 1st session in English: all activities accounted for in rating
The course is free but you can support organizers by making a pledge on Patreon