Категория

Учебники и книги

The Elements of Statistical Learning

Бесплатно PDF

Hastie, Tibshirani, Friedman · Stanford University Press

Фундаментальный учебник по статистическому обучению. Охватывает линейные модели, деревья, ансамбли, нейронные сети и многое другое с математической строгостью.

Продвинутый Математика Теория

Hands-On Machine Learning with Scikit-Learn

Платная

Aurélien Géron · O'Reilly Media, 3-е изд., 2022

Практически ориентированный учебник с примерами кода на Python. Охватывает классические алгоритмы и глубокое обучение на TensorFlow/Keras.

Начальный/Средний Python Практика

Pattern Recognition and Machine Learning

Бесплатно PDF

Christopher Bishop · Springer, 2006

Классический учебник с байесовским взглядом на машинное обучение. Вероятностные графические модели, EM-алгоритм, ядровые методы.

Продвинутый Байесовский ML

Deep Learning

Бесплатно онлайн

Goodfellow, Bengio, Courville · MIT Press, 2016

Стандартный академический учебник по глубокому обучению. Математические основы, архитектуры нейронных сетей, оптимизация и регуляризация.

Продвинутый Deep Learning
Категория

Ключевые научные статьи

A Training Algorithm for Optimal Margin Classifiers

Boser, Guyon, Vapnik (1992) · COLT '92

Оригинальная статья о методе опорных векторов. Заложила теоретическую основу классификации с максимальным разделяющим зазором — один из фундаментальных результатов в теории ML.

SVM Классификация Теория

Random Forests

Leo Breiman (2001) · Machine Learning, 45(1)

Основополагающая статья об ансамблевом методе случайного леса. Описывает bootstrap aggregation (bagging) и случайный выбор признаков как инструменты снижения дисперсии.

Ансамбли Деревья Классическое

Attention Is All You Need

Vaswani et al. (2017) · NeurIPS 2017

Трансформерная архитектура, ставшая основой современных языковых моделей. Механизм self-attention заменил рекуррентные сети в задачах NLP и вышел далеко за их пределы.

Трансформеры NLP Deep Learning

Greedy Function Approximation: A Gradient Boosting Machine

Jerome Friedman (2001) · Annals of Statistics, 29(5)

Математический вывод градиентного бустинга как метода итерационной оптимизации в функциональном пространстве. Основа XGBoost, LightGBM и CatBoost.

Бустинг Ансамбли Теория

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Srivastava et al. (2014) · JMLR, 15(1)

Описание дропаута — одного из наиболее эффективных методов регуляризации нейронных сетей. Интерпретация как ансамблирования экспоненциально большого числа подсетей.

Регуляризация Нейронные сети Классическое
Категория

Датасеты для практики

UCI Machine Learning Repository

Более 600 датасетов всех типов. Классические наборы для регрессии, классификации и кластеризации. Стандарт для воспроизводимых экспериментов.

Классика · Любой уровень

Kaggle Datasets

Миллионы датасетов от сообщества и компаний. Часто сопровождаются блокнотами и обсуждениями. Отлично подходит для соревновательного ML.

Разнообразные · Практика

OpenML

Платформа для совместных ML-экспериментов с автоматической оценкой и сравнением алгоритмов. Подходит для воспроизводимых исследований.

Исследования · API

Google Dataset Search

Поисковая система по открытым датасетам из разных доменов. Агрегирует данные из сотен источников.

Поиск · Все домены

MNIST и производные

Рукописные цифры (MNIST), одежда (Fashion-MNIST), буквы (EMNIST). Стандарт для первых экспериментов с нейронными сетями.

Компьютерное зрение · Начальный

Scikit-learn Toy Datasets

Встроенные датасеты: Iris, Boston (устаревший), Breast Cancer, Diabetes, Wine. Идеальны для быстрых экспериментов без загрузки файлов.

Встроенные · Python
Категория

Инструменты и библиотеки Python

NumPy

1.26+

Фундамент численных вычислений в Python. Многомерные массивы, линейная алгебра, случайные числа. Обязателен для работы с данными.

Данные

Pandas

2.x

Работа с табличными данными: DataFrame, обработка пропусков, группировка, слияние таблиц. Незаменим для предобработки данных.

Данные

scikit-learn

1.4+

Стандартная библиотека классических алгоритмов ML. Единый API, кросс-валидация, трубопроводы (Pipeline). Основной инструмент курсов.

ML

Matplotlib + Seaborn

3.8+ / 0.13+

Визуализация данных и результатов моделей. Seaborn надстраивает Matplotlib для статистических графиков.

Визуализация

PyTorch

2.x

Фреймворк для глубокого обучения с динамическим графом вычислений. Популярен в исследованиях. Используется в курсе по нейронным сетям.

Deep Learning

Jupyter / JupyterLab

7.x

Интерактивная среда разработки для экспериментов с данными и ML. Поддерживает Markdown, LaTeX и встроенные графики.

Среда
Категория

Дополнительные внешние ресурсы

CS229: Machine Learning

Stanford University

Курс Эндрю Ына — классика онлайн-образования в ML. Математические основы, линейная алгебра, вероятности, ключевые алгоритмы с выводами.

Начальный/Средний · Бесплатно

fast.ai Practical Deep Learning

fast.ai

Практический подход сверху вниз: начинают с рабочих моделей, затем объясняют теорию. Популярен среди практиков.

Практика · Бесплатно

Mathematics for Machine Learning

Imperial College London / Coursera

Специализация из 3 курсов: линейная алгебра, матанализ, теорвер для ML. Отличная математическая база.

Математика · Coursera

Distill.pub

Google Brain, OpenAI и др.

Онлайн-журнал с интерактивными визуализациями ML-концепций. Статьи об attention, функциях активации, эмбеддингах — с живыми демонстрациями.

Исследования · Бесплатно

С чего начать изучение ML

Рекомендованный путь от нуля до уверенного понимания алгоритмов машинного обучения.

1

Математические основы

Линейная алгебра (векторы, матрицы, разложения), дифференциальное исчисление (производные, градиент), теория вероятностей (условная вероятность, распределения).

Начать →
2

Python для анализа данных

NumPy, Pandas, Matplotlib. Умение загружать, обрабатывать и визуализировать данные — необходимый навык для практики.

Начать →
3

Классические алгоритмы ML

Линейная и логистическая регрессия, деревья решений, SVM, K-means. Понимание математики каждого алгоритма — не только вызовы sklearn.

Начать →
4

Оценка и отладка моделей

Bias-variance tradeoff, кросс-валидация, метрики качества, регуляризация. Без этого невозможно понять, работает ли модель.

Начать →
5

Глубокое обучение

Нейронные сети: перцептрон, обратное распространение, свёрточные и рекуррентные сети, трансформеры. После освоения классических методов.

Начать →

Готовы изучать ML с первых принципов?

Наши курсы охватывают все темы, представленные в этом разделе ресурсов, с подробными объяснениями и Python-примерами.

Смотреть курсы Глоссарий ML