Глоссарий терминов машинного обучения

В глоссарии представлено более 80 терминов машинного обучения с точными определениями. Технические термины даны в оригинальном написании с русским переводом. Ссылки указывают на соответствующие учебные разделы платформы.

Accuracy (Точность)

Доля правильно классифицированных объектов от общего числа. Вычисляется как (TP + TN) / (TP + TN + FP + FN). Не является надёжной метрикой при несбалансированных классах.

Adam (Adaptive Moment Estimation)

Адаптивный оптимизатор градиентного спуска, объединяющий идеи RMSProp и метода импульса. Вычисляет адаптивные скорости обучения для каждого параметра. Один из наиболее широко используемых оптимизаторов в глубоком обучении.

→ Курс по нейронным сетям

Activation Function (Функция активации)

Нелинейная функция в нейронных сетях, применяемая к выходу нейрона. Без функций активации нейронная сеть вырождается в линейную модель. Распространённые: ReLU, sigmoid, tanh, Leaky ReLU, GELU.

AUC-ROC (Area Under the ROC Curve)

Площадь под кривой ROC. Мера качества бинарного классификатора, не зависящая от порога классификации. Значение 0.5 соответствует случайному классификатору, 1.0 — идеальному. Устойчива к дисбалансу классов.

Backpropagation (Обратное распространение ошибки)

Алгоритм вычисления градиентов функции потерь по параметрам нейронной сети. Использует цепное правило дифференцирования для последовательного вычисления градиентов от выходного слоя к входному. Основа обучения нейронных сетей.

→ Разбор в курсе

Bagging (Bootstrap Aggregating)

Метод ансамблирования, при котором несколько базовых моделей обучаются на случайных подвыборках (с возвращением) из обучающей выборки. Финальное предсказание — усреднение (регрессия) или голосование (классификация). Основа случайного леса.

Bias (Смещение)

1) Систематическая ошибка модели — насколько среднее предсказание отличается от истинного значения. Высокое смещение указывает на недообучение. 2) Свободный член в линейных моделях (intercept). 3) Предвзятость в данных или алгоритмах.

Bias-Variance Tradeoff (Компромисс смещения и дисперсии)

Фундаментальная концепция: общая ошибка модели складывается из смещения, дисперсии и неустранимого шума. Уменьшение смещения (усложнение модели) как правило увеличивает дисперсию — и наоборот. Цель — найти оптимальный баланс.

→ Статья о переобучении

Classification (Классификация)

Задача обучения с учителем, в которой модель предсказывает принадлежность объекта к одному из дискретных классов. Различают бинарную (2 класса) и многоклассовую классификацию. Примеры алгоритмов: логистическая регрессия, SVM, дерево решений.

Clustering (Кластеризация)

Задача обучения без учителя — разбиение набора объектов на группы (кластеры) на основе их сходства. Алгоритмы: K-Means, DBSCAN, иерархическая кластеризация, Gaussian Mixture Models.

→ Разбор K-Means

Cross-Validation (Перекрёстная проверка)

Метод оценки обобщающей способности модели. При k-fold CV данные делятся на k частей; модель обучается на k-1 частях и оценивается на оставшейся. Процедура повторяется k раз. Даёт более надёжную оценку, чем однократное разделение на train/test.

Confusion Matrix (Матрица ошибок)

Таблица, отображающая результаты классификации: TP (истинно положительные), TN (истинно отрицательные), FP (ложно положительные), FN (ложно отрицательные). Основа для вычисления precision, recall, F1-score.

Decision Tree (Дерево решений)

Алгоритм, строящий иерархическую структуру ветвлений для классификации или регрессии. На каждом узле выбирается признак, максимизирующий информационный прирост (или минимизирующий критерий Джини). Легко интерпретируем, но склонен к переобучению без ограничений глубины.

→ Урок по деревьям решений

Dropout (Дропаут)

Метод регуляризации для нейронных сетей: во время обучения случайно «выключаются» нейроны с вероятностью p. Это препятствует совместной адаптации нейронов и снижает переобучение. При инференсе все нейроны активны, их веса масштабируются на (1-p).

Dimensionality Reduction (Снижение размерности)

Преобразование данных из пространства высокой размерности в пространство меньшей размерности с сохранением максимума информации. Методы: PCA, t-SNE, UMAP, LDA. Используется для визуализации, борьбы с проклятием размерности и ускорения обучения.

E — F

Early Stopping (Ранняя остановка)

Техника регуляризации: обучение прекращается, когда метрика качества на валидационной выборке перестаёт улучшаться на протяжении заданного числа эпох (patience). Предотвращает переобучение без изменения архитектуры модели.

Epoch (Эпоха)

Один полный проход алгоритма обучения через весь обучающий набор данных. При мини-пакетном градиентном спуске одна эпоха состоит из нескольких итераций (batch update). Количество эпох — гиперпараметр, влияющий на качество и время обучения.

Feature Engineering (Конструирование признаков)

Процесс создания новых информативных признаков из исходных данных или преобразования существующих с целью повышения качества модели. Часто более эффективен, чем улучшение самого алгоритма. Включает полиномиальные признаки, взаимодействия, агрегации.

F1-Score

Гармоническое среднее precision и recall: F1 = 2 × (P × R) / (P + R). Является предпочтительной метрикой при несбалансированных классах. Принимает значения от 0 до 1; значение 1 соответствует идеальной классификации.

G — L

Gradient Descent (Градиентный спуск)

Итерационный алгоритм оптимизации: параметры модели обновляются в направлении антиградиента функции потерь с шагом, определяемым скоростью обучения (learning rate). Варианты: полный, стохастический (SGD), мини-пакетный.

→ Разбор в курсе

Hyperparameter (Гиперпараметр)

Параметр модели или алгоритма обучения, задаваемый до начала обучения (не оптимизируемый градиентным спуском). Примеры: learning rate, глубина дерева, число кластеров K, коэффициент регуляризации λ. Подбирается через grid search, random search или Bayesian optimization.

K-Means

Алгоритм кластеризации: итеративно оптимизирует положение K центроидов для минимизации суммы квадратов расстояний от объектов до ближайшего центроида. Требует заранее указать K. Чувствителен к инициализации и выбросам.

→ Подробный урок

L1 Regularization (Lasso)

Регуляризация, добавляющая к функции потерь сумму абсолютных значений весов: L = Loss + λΣ|wᵢ|. Приводит к разреженным решениям — часть весов становится точно нулевой, что эквивалентно автоматическому отбору признаков.

L2 Regularization (Ridge)

Регуляризация, добавляющая к функции потерь сумму квадратов весов: L = Loss + λΣwᵢ². Веса уменьшаются, но не обнуляются. Стабилизирует обучение и снижает дисперсию модели. Совместно с L1 образует Elastic Net.

→ Статья о регуляризации

Linear Regression (Линейная регрессия)

Модель, предсказывающая непрерывную целевую переменную как линейную комбинацию признаков: ŷ = w₀ + w₁x₁ + ... + wₙxₙ. Оптимизация — метод наименьших квадратов (OLS) или градиентный спуск. Базовый алгоритм регрессии.

→ Урок по линейной регрессии

Loss Function / Cost Function (Функция потерь)

Функция, измеряющая расхождение между предсказаниями модели и истинными значениями. Определяет цель оптимизации. Примеры: MSE (регрессия), Binary Cross-Entropy (бинарная классификация), Categorical Cross-Entropy (многоклассовая).

M — O

Model Selection (Выбор модели)

Процесс сравнения нескольких алгоритмов или конфигураций на валидационной выборке с целью выбора наилучшей. Включает выбор архитектуры, гиперпараметров и стратегии обучения. Критически важно проводить выбор до, а не после финальной оценки на тестовой выборке.

Neural Network (Нейронная сеть)

Вычислительная модель, вдохновлённая биологическими нейронными сетями. Состоит из слоёв нейронов, связанных взвешенными рёбрами. Каждый нейрон вычисляет взвешенную сумму входов и применяет функцию активации. Обучается через backpropagation.

→ Курс по нейронным сетям

Overfitting (Переобучение)

Ситуация, когда модель слишком точно «запоминает» обучающие данные, включая их шум, и теряет способность обобщаться на новые данные. Признаки: низкая ошибка на train, высокая — на validation. Методы борьбы: регуляризация, dropout, early stopping, увеличение данных.

→ Детальная статья

P — R

PCA (Principal Component Analysis)

Метод снижения размерности: нахождение ортогональных направлений (главных компонент), вдоль которых данные имеют максимальную дисперсию. Реализуется через SVD-разложение матрицы ковариаций. Сохраняет глобальную структуру данных.

Precision (Точность, Прецизионность)

Доля истинно положительных среди всех объектов, предсказанных как положительные: P = TP / (TP + FP). Высокая precision означает мало ложных тревог. Важна в задачах, где цена ложного положительного высока (например, детекция спама).

Random Forest (Случайный лес)

Ансамблевый метод: обучает множество деревьев решений на случайных подвыборках данных и признаков (feature bagging). Итоговое предсказание — голосование (классификация) или усреднение (регрессия). Устойчив к переобучению и выбросам.

Recall (Полнота)

Доля истинно положительных среди всех реально положительных объектов: R = TP / (TP + FN). Высокий recall означает мало пропущенных случаев. Важен в задачах, где цена ложного отрицательного высока (например, медицинская диагностика).

Regression (Регрессия)

Задача обучения с учителем для предсказания непрерывной целевой переменной. Примеры: линейная, полиномиальная, Ridge, Lasso, регрессия на основе деревьев. Метрики качества: MAE, MSE, RMSE, R².

S — V

Supervised Learning (Обучение с учителем)

Тип машинного обучения, при котором модель обучается на размеченных данных — парах (признаки, метка). Цель — научиться предсказывать метку для новых объектов. Задачи: классификация, регрессия.

→ Курс

SVM (Support Vector Machine)

Алгоритм классификации и регрессии, ищущий оптимальную разделяющую гиперплоскость с максимальным отступом (margin) между классами. Поддерживает нелинейные разбиения через kernel trick (RBF, polynomial, sigmoid). Эффективен в пространствах высокой размерности.

Underfitting (Недообучение)

Ситуация, когда модель недостаточно сложна для улавливания закономерностей в данных. Проявляется в высокой ошибке и на обучающей, и на тестовой выборке. Решение: усложнение модели, добавление признаков, уменьшение регуляризации.

Unsupervised Learning (Обучение без учителя)

Тип ML, при котором модель обучается на неразмеченных данных, выявляя скрытую структуру. Задачи: кластеризация, снижение размерности, обнаружение аномалий, генеративное моделирование.