Отобранные учебники, научные статьи, инструменты и датасеты — всё, что нужно для серьёзного изучения машинного обучения.
Hastie, Tibshirani, Friedman · Stanford University Press
Фундаментальный учебник по статистическому обучению. Охватывает линейные модели, деревья, ансамбли, нейронные сети и многое другое с математической строгостью.
Aurélien Géron · O'Reilly Media, 3-е изд., 2022
Практически ориентированный учебник с примерами кода на Python. Охватывает классические алгоритмы и глубокое обучение на TensorFlow/Keras.
Christopher Bishop · Springer, 2006
Классический учебник с байесовским взглядом на машинное обучение. Вероятностные графические модели, EM-алгоритм, ядровые методы.
Goodfellow, Bengio, Courville · MIT Press, 2016
Стандартный академический учебник по глубокому обучению. Математические основы, архитектуры нейронных сетей, оптимизация и регуляризация.
Оригинальная статья о методе опорных векторов. Заложила теоретическую основу классификации с максимальным разделяющим зазором — один из фундаментальных результатов в теории ML.
Основополагающая статья об ансамблевом методе случайного леса. Описывает bootstrap aggregation (bagging) и случайный выбор признаков как инструменты снижения дисперсии.
Трансформерная архитектура, ставшая основой современных языковых моделей. Механизм self-attention заменил рекуррентные сети в задачах NLP и вышел далеко за их пределы.
Математический вывод градиентного бустинга как метода итерационной оптимизации в функциональном пространстве. Основа XGBoost, LightGBM и CatBoost.
Описание дропаута — одного из наиболее эффективных методов регуляризации нейронных сетей. Интерпретация как ансамблирования экспоненциально большого числа подсетей.
Более 600 датасетов всех типов. Классические наборы для регрессии, классификации и кластеризации. Стандарт для воспроизводимых экспериментов.
Классика · Любой уровеньМиллионы датасетов от сообщества и компаний. Часто сопровождаются блокнотами и обсуждениями. Отлично подходит для соревновательного ML.
Разнообразные · ПрактикаПлатформа для совместных ML-экспериментов с автоматической оценкой и сравнением алгоритмов. Подходит для воспроизводимых исследований.
Исследования · APIПоисковая система по открытым датасетам из разных доменов. Агрегирует данные из сотен источников.
Поиск · Все доменыРукописные цифры (MNIST), одежда (Fashion-MNIST), буквы (EMNIST). Стандарт для первых экспериментов с нейронными сетями.
Компьютерное зрение · НачальныйВстроенные датасеты: Iris, Boston (устаревший), Breast Cancer, Diabetes, Wine. Идеальны для быстрых экспериментов без загрузки файлов.
Встроенные · PythonФундамент численных вычислений в Python. Многомерные массивы, линейная алгебра, случайные числа. Обязателен для работы с данными.
ДанныеРабота с табличными данными: DataFrame, обработка пропусков, группировка, слияние таблиц. Незаменим для предобработки данных.
ДанныеСтандартная библиотека классических алгоритмов ML. Единый API, кросс-валидация, трубопроводы (Pipeline). Основной инструмент курсов.
MLВизуализация данных и результатов моделей. Seaborn надстраивает Matplotlib для статистических графиков.
ВизуализацияФреймворк для глубокого обучения с динамическим графом вычислений. Популярен в исследованиях. Используется в курсе по нейронным сетям.
Deep LearningИнтерактивная среда разработки для экспериментов с данными и ML. Поддерживает Markdown, LaTeX и встроенные графики.
СредаКурс Эндрю Ына — классика онлайн-образования в ML. Математические основы, линейная алгебра, вероятности, ключевые алгоритмы с выводами.
Начальный/Средний · БесплатноПрактический подход сверху вниз: начинают с рабочих моделей, затем объясняют теорию. Популярен среди практиков.
Практика · БесплатноСпециализация из 3 курсов: линейная алгебра, матанализ, теорвер для ML. Отличная математическая база.
Математика · CourseraОнлайн-журнал с интерактивными визуализациями ML-концепций. Статьи об attention, функциях активации, эмбеддингах — с живыми демонстрациями.
Исследования · БесплатноРекомендованный путь от нуля до уверенного понимания алгоритмов машинного обучения.
Линейная алгебра (векторы, матрицы, разложения), дифференциальное исчисление (производные, градиент), теория вероятностей (условная вероятность, распределения).
NumPy, Pandas, Matplotlib. Умение загружать, обрабатывать и визуализировать данные — необходимый навык для практики.
Линейная и логистическая регрессия, деревья решений, SVM, K-means. Понимание математики каждого алгоритма — не только вызовы sklearn.
Bias-variance tradeoff, кросс-валидация, метрики качества, регуляризация. Без этого невозможно понять, работает ли модель.
Нейронные сети: перцептрон, обратное распространение, свёрточные и рекуррентные сети, трансформеры. После освоения классических методов.
Наши курсы охватывают все темы, представленные в этом разделе ресурсов, с подробными объяснениями и Python-примерами.