Приветствуем Вас на третьем занятии нашего курса. Сегодня мы узнаем про классическое машинное обучение. Глубокое обучение обычно считается частью машинного обучения и по сути отличается от классических методов моделью, которая учится. Для классического машинного обучения - это решающие деревья, регрессии и т.д., а для глубокого - нейронные сети. В то же время изучить основные этапы работы с данными легче, когда моделью является решающее дерево.
В этом занятии важнее всего научиться работе с инструментами, которые помогают работать с данными - Pandas и Matplotlib.
При решении тетрадей Вы можете встретить функцию, которую Вы не знаете, в этом случае необходимо использовать поиск и найти информацию в документации. Почти всегда такая информация будет на первой странице поисковика. Библиотеки, которые мы используем содержат много функций, поэтому важно научиться самостоятельно пользоваться документацией.
Данная лекция дает не только общее представление о машинном обучении, но и вводит концепции, которые будут важны в глубоком обучении, также в конце лектор рассказывает о методе ближайших соседей, на который будет домашнее задание. Эта лекция важна и ее не стоит пропускать. Запись лекции доступна по ссылке.
На семинарах мы переходим к изучению инструментов, которые являются основным фокусом данного занятия.
Pandas - очень популярная библиотека для работы с табличными данными (обычно они записаны в формате .xls или .csv). Большинство доступных данных имеют именно такой вид, поэтому она часто используется при подготовке данных.
Эта библиотека очень большая и мощная, но для нашего курса будет достаточно познакомиться с основной функциональностью. Запись первой части семинара даст вам достаточно умений, если Вы выполните задания в тетради [seminar]pandas.ipynb
Продолжая изучать полезные инструменты, мы переходим к библиотеке для построения matplotlib. Она является самой популярной для построения графиков, несмотря на низкий уровень абстракции, который иногда заставляет программиста писать много стандартного кода (для решения этой проблемы существуют многие обертки над matplotlib, которые вы сможете потом с легкостью использовать). Далее в курсе matplotlib будет использоваться как для построения разнообразных графиков, так и просто для показа картинок.
Чтобы разобраться с основами вы, как всегда, можете посмотреть запись нашего семинара и прорешать тетрадку, идущую к нему [seminar]matplotlib.ipynb .
Примечание: на семинаре были разобраны только базовые функции Pandas и matplotlib. Чтобы узнать о них больше, вы можете использовать любой хороший курс по машинному обучению. Например, запускающийся каждый сезон курс от Open Data Science.
Чтобы закрепить навыки, полученные на семинаре выполните задания в тетради [homework]pandas.ipynb . Также стоит выполнить задание на тему, объясненную на лекции - метод ближайших соседей knn_HW.ipynb . Если Вы участвуете в курсе, то Вы можете проверить ответы и получить оценку, которая нужна для закрытия курса, на canvas нашего курса. Не слушатели, к сожалению, не имеют возможности свериться, но Вы можете присоединиться к следующей итерации курса как онлайн слушатель на нашем сайте.