Обучение с учителем

Что изучается в курсе

Supervised learning — наиболее широко применяемая парадигма машинного обучения. Этот курс систематически разбирает каждый ключевой алгоритм: откуда он берётся, как оптимизируется, в каких условиях работает лучше или хуже конкурентов.

Охватываемые алгоритмы

◆Линейная регрессия

◆Логистическая регрессия

◆Дерево решений (CART)

◆Случайный лес

◆Gradient Boosting (XGBoost)

◆Метод опорных векторов (SVM)

◆K-ближайших соседей

◆Наивный Байес

Модуль 1: Линейная регрессия4 раздела

▶МНК и градиентная оптимизация

▶Многомерная регрессия

▶Полиномиальные признаки

▶Диагностика остатков и VIF

Модуль 2: Логистическая регрессия4 раздела

▶Сигмоидная функция и вероятности

▶Оптимизация через кросс-энтропию

▶Многоклассовая: OvR vs Softmax

▶Интерпретация коэффициентов

Модуль 3: Деревья решений4 раздела

▶Критерии разбиения: Gini, Entropy

▶Рост дерева и его ограничение

▶Переобучение деревьев

▶Важность признаков

Модуль 4: Ансамблевые методы4 раздела

▶Bagging и Random Forest

▶Out-of-bag оценка

▶Gradient Boosting: последовательные ошибки

▶XGBoost и LightGBM

Модуль 5: SVM4 раздела

▶Максимизация зазора (margin)

▶Мягкий зазор и параметр C

▶Ядерный трюк: RBF, polynomial

▶Практика на нелинейно разделимых данных

Модуль 6: k-NN4 раздела

▶Метрики расстояния

▶Проблема размерности (curse of dimensionality)

▶Выбор k: cross-validation

▶KD-Tree и Ball-Tree для ускорения

Модуль 7: Наивный Байес4 раздела

▶Теорема Байеса для классификации

▶Гауссовый, Мультиномиальный, Бернулли

▶Сглаживание Лапласа

▶Применение: текст, спам, медицина

Модуль 8: Сравнение и выбор алгоритма4 раздела

▶No Free Lunch теорема

▶Критерии выбора алгоритма

▶Hyperparameter tuning: Grid/Random/Bayesian

▶Итоговый проект: California Housing

Что изучается в курсе

Охватываемые алгоритмы

Следите за миром машинного обучения