Ресурсы по машинному обучению

▤

Категория

Учебники и книги

The Elements of Statistical Learning

Бесплатно PDF

Hastie, Tibshirani, Friedman · Stanford University Press

Фундаментальный учебник по статистическому обучению. Охватывает линейные модели, деревья, ансамбли, нейронные сети и многое другое с математической строгостью.

Продвинутый Математика Теория

Hands-On Machine Learning with Scikit-Learn

Платная

Aurélien Géron · O'Reilly Media, 3-е изд., 2022

Практически ориентированный учебник с примерами кода на Python. Охватывает классические алгоритмы и глубокое обучение на TensorFlow/Keras.

Начальный/Средний Python Практика

Pattern Recognition and Machine Learning

Бесплатно PDF

Christopher Bishop · Springer, 2006

Классический учебник с байесовским взглядом на машинное обучение. Вероятностные графические модели, EM-алгоритм, ядровые методы.

Продвинутый Байесовский ML

Deep Learning

Бесплатно онлайн

Goodfellow, Bengio, Courville · MIT Press, 2016

Стандартный академический учебник по глубокому обучению. Математические основы, архитектуры нейронных сетей, оптимизация и регуляризация.

Продвинутый Deep Learning

▷

Категория

Ключевые научные статьи

A Training Algorithm for Optimal Margin Classifiers

Boser, Guyon, Vapnik (1992) · COLT '92

Оригинальная статья о методе опорных векторов. Заложила теоретическую основу классификации с максимальным разделяющим зазором — один из фундаментальных результатов в теории ML.

SVM Классификация Теория

Random Forests

Leo Breiman (2001) · Machine Learning, 45(1)

Основополагающая статья об ансамблевом методе случайного леса. Описывает bootstrap aggregation (bagging) и случайный выбор признаков как инструменты снижения дисперсии.

Ансамбли Деревья Классическое

Attention Is All You Need

Vaswani et al. (2017) · NeurIPS 2017

Трансформерная архитектура, ставшая основой современных языковых моделей. Механизм self-attention заменил рекуррентные сети в задачах NLP и вышел далеко за их пределы.

Трансформеры NLP Deep Learning

Greedy Function Approximation: A Gradient Boosting Machine

Jerome Friedman (2001) · Annals of Statistics, 29(5)

Математический вывод градиентного бустинга как метода итерационной оптимизации в функциональном пространстве. Основа XGBoost, LightGBM и CatBoost.

Бустинг Ансамбли Теория

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Srivastava et al. (2014) · JMLR, 15(1)

Описание дропаута — одного из наиболее эффективных методов регуляризации нейронных сетей. Интерпретация как ансамблирования экспоненциально большого числа подсетей.

Регуляризация Нейронные сети Классическое

▪

Категория

Датасеты для практики

UCI Machine Learning Repository

Более 600 датасетов всех типов. Классические наборы для регрессии, классификации и кластеризации. Стандарт для воспроизводимых экспериментов.

Классика · Любой уровень

Kaggle Datasets

Миллионы датасетов от сообщества и компаний. Часто сопровождаются блокнотами и обсуждениями. Отлично подходит для соревновательного ML.

Разнообразные · Практика

OpenML

Платформа для совместных ML-экспериментов с автоматической оценкой и сравнением алгоритмов. Подходит для воспроизводимых исследований.

Исследования · API

Google Dataset Search

Поисковая система по открытым датасетам из разных доменов. Агрегирует данные из сотен источников.

Поиск · Все домены

MNIST и производные

Рукописные цифры (MNIST), одежда (Fashion-MNIST), буквы (EMNIST). Стандарт для первых экспериментов с нейронными сетями.

Компьютерное зрение · Начальный

Scikit-learn Toy Datasets

Встроенные датасеты: Iris, Boston (устаревший), Breast Cancer, Diabetes, Wine. Идеальны для быстрых экспериментов без загрузки файлов.

Встроенные · Python

▿

Категория

Инструменты и библиотеки Python

NumPy

1.26+

Фундамент численных вычислений в Python. Многомерные массивы, линейная алгебра, случайные числа. Обязателен для работы с данными.

Данные

Pandas

2.x

Работа с табличными данными: DataFrame, обработка пропусков, группировка, слияние таблиц. Незаменим для предобработки данных.

Данные

scikit-learn

1.4+

Стандартная библиотека классических алгоритмов ML. Единый API, кросс-валидация, трубопроводы (Pipeline). Основной инструмент курсов.

ML

Matplotlib + Seaborn

3.8+ / 0.13+

Визуализация данных и результатов моделей. Seaborn надстраивает Matplotlib для статистических графиков.

Визуализация

PyTorch

2.x

Фреймворк для глубокого обучения с динамическим графом вычислений. Популярен в исследованиях. Используется в курсе по нейронным сетям.

Deep Learning

Jupyter / JupyterLab

7.x

Интерактивная среда разработки для экспериментов с данными и ML. Поддерживает Markdown, LaTeX и встроенные графики.

Среда

▴

Категория

Дополнительные внешние ресурсы

CS229: Machine Learning

Stanford University

Курс Эндрю Ына — классика онлайн-образования в ML. Математические основы, линейная алгебра, вероятности, ключевые алгоритмы с выводами.

Начальный/Средний · Бесплатно

fast.ai Practical Deep Learning

fast.ai

Практический подход сверху вниз: начинают с рабочих моделей, затем объясняют теорию. Популярен среди практиков.

Практика · Бесплатно

Mathematics for Machine Learning

Imperial College London / Coursera

Специализация из 3 курсов: линейная алгебра, матанализ, теорвер для ML. Отличная математическая база.

Математика · Coursera

Distill.pub

Google Brain, OpenAI и др.

Онлайн-журнал с интерактивными визуализациями ML-концепций. Статьи об attention, функциях активации, эмбеддингах — с живыми демонстрациями.

Исследования · Бесплатно

Ресурсы для изучения ML

Учебники и книги

The Elements of Statistical Learning

Hands-On Machine Learning with Scikit-Learn

Pattern Recognition and Machine Learning

Deep Learning

Ключевые научные статьи

A Training Algorithm for Optimal Margin Classifiers

Random Forests

Attention Is All You Need

Greedy Function Approximation: A Gradient Boosting Machine

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Датасеты для практики

UCI Machine Learning Repository

Kaggle Datasets

OpenML

Google Dataset Search

MNIST и производные

Scikit-learn Toy Datasets

Инструменты и библиотеки Python

NumPy

Pandas

scikit-learn

Matplotlib + Seaborn

PyTorch

Jupyter / JupyterLab

Дополнительные внешние ресурсы

CS229: Machine Learning

fast.ai Practical Deep Learning

Mathematics for Machine Learning

Distill.pub

С чего начать изучение ML

Математические основы

Python для анализа данных

Классические алгоритмы ML

Оценка и отладка моделей

Глубокое обучение

Готовы изучать ML с первых принципов?

Ресурсы для изучения ML

Учебники и книги

The Elements of Statistical Learning

Hands-On Machine Learning with Scikit-Learn

Pattern Recognition and Machine Learning

Deep Learning

Ключевые научные статьи

A Training Algorithm for Optimal Margin Classifiers

Random Forests

Attention Is All You Need

Greedy Function Approximation: A Gradient Boosting Machine

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Датасеты для практики

UCI Machine Learning Repository

Kaggle Datasets

OpenML

Google Dataset Search

MNIST и производные

Scikit-learn Toy Datasets

Инструменты и библиотеки Python

NumPy

Pandas

scikit-learn

Matplotlib + Seaborn

PyTorch

Jupyter / JupyterLab

Дополнительные внешние ресурсы

CS229: Machine Learning

fast.ai Practical Deep Learning

Mathematics for Machine Learning

Distill.pub

С чего начать изучение ML

Математические основы

Python для анализа данных

Классические алгоритмы ML

Оценка и отладка моделей

Глубокое обучение

Готовы изучать ML с первых принципов?

Следите за миром машинного обучения