Определения ключевых понятий и терминов машинного обучения — точно и без воды
В глоссарии представлено более 80 терминов машинного обучения с точными определениями. Технические термины даны в оригинальном написании с русским переводом. Ссылки указывают на соответствующие учебные разделы платформы.
Доля правильно классифицированных объектов от общего числа. Вычисляется как (TP + TN) / (TP + TN + FP + FN). Не является надёжной метрикой при несбалансированных классах.
Адаптивный оптимизатор градиентного спуска, объединяющий идеи RMSProp и метода импульса. Вычисляет адаптивные скорости обучения для каждого параметра. Один из наиболее широко используемых оптимизаторов в глубоком обучении.
→ Курс по нейронным сетямНелинейная функция в нейронных сетях, применяемая к выходу нейрона. Без функций активации нейронная сеть вырождается в линейную модель. Распространённые: ReLU, sigmoid, tanh, Leaky ReLU, GELU.
Площадь под кривой ROC. Мера качества бинарного классификатора, не зависящая от порога классификации. Значение 0.5 соответствует случайному классификатору, 1.0 — идеальному. Устойчива к дисбалансу классов.
Алгоритм вычисления градиентов функции потерь по параметрам нейронной сети. Использует цепное правило дифференцирования для последовательного вычисления градиентов от выходного слоя к входному. Основа обучения нейронных сетей.
→ Разбор в курсеМетод ансамблирования, при котором несколько базовых моделей обучаются на случайных подвыборках (с возвращением) из обучающей выборки. Финальное предсказание — усреднение (регрессия) или голосование (классификация). Основа случайного леса.
1) Систематическая ошибка модели — насколько среднее предсказание отличается от истинного значения. Высокое смещение указывает на недообучение. 2) Свободный член в линейных моделях (intercept). 3) Предвзятость в данных или алгоритмах.
Фундаментальная концепция: общая ошибка модели складывается из смещения, дисперсии и неустранимого шума. Уменьшение смещения (усложнение модели) как правило увеличивает дисперсию — и наоборот. Цель — найти оптимальный баланс.
→ Статья о переобученииЗадача обучения с учителем, в которой модель предсказывает принадлежность объекта к одному из дискретных классов. Различают бинарную (2 класса) и многоклассовую классификацию. Примеры алгоритмов: логистическая регрессия, SVM, дерево решений.
Задача обучения без учителя — разбиение набора объектов на группы (кластеры) на основе их сходства. Алгоритмы: K-Means, DBSCAN, иерархическая кластеризация, Gaussian Mixture Models.
→ Разбор K-MeansМетод оценки обобщающей способности модели. При k-fold CV данные делятся на k частей; модель обучается на k-1 частях и оценивается на оставшейся. Процедура повторяется k раз. Даёт более надёжную оценку, чем однократное разделение на train/test.
Таблица, отображающая результаты классификации: TP (истинно положительные), TN (истинно отрицательные), FP (ложно положительные), FN (ложно отрицательные). Основа для вычисления precision, recall, F1-score.
Алгоритм, строящий иерархическую структуру ветвлений для классификации или регрессии. На каждом узле выбирается признак, максимизирующий информационный прирост (или минимизирующий критерий Джини). Легко интерпретируем, но склонен к переобучению без ограничений глубины.
→ Урок по деревьям решенийМетод регуляризации для нейронных сетей: во время обучения случайно «выключаются» нейроны с вероятностью p. Это препятствует совместной адаптации нейронов и снижает переобучение. При инференсе все нейроны активны, их веса масштабируются на (1-p).
Преобразование данных из пространства высокой размерности в пространство меньшей размерности с сохранением максимума информации. Методы: PCA, t-SNE, UMAP, LDA. Используется для визуализации, борьбы с проклятием размерности и ускорения обучения.
Техника регуляризации: обучение прекращается, когда метрика качества на валидационной выборке перестаёт улучшаться на протяжении заданного числа эпох (patience). Предотвращает переобучение без изменения архитектуры модели.
Один полный проход алгоритма обучения через весь обучающий набор данных. При мини-пакетном градиентном спуске одна эпоха состоит из нескольких итераций (batch update). Количество эпох — гиперпараметр, влияющий на качество и время обучения.
Процесс создания новых информативных признаков из исходных данных или преобразования существующих с целью повышения качества модели. Часто более эффективен, чем улучшение самого алгоритма. Включает полиномиальные признаки, взаимодействия, агрегации.
Гармоническое среднее precision и recall: F1 = 2 × (P × R) / (P + R). Является предпочтительной метрикой при несбалансированных классах. Принимает значения от 0 до 1; значение 1 соответствует идеальной классификации.
Итерационный алгоритм оптимизации: параметры модели обновляются в направлении антиградиента функции потерь с шагом, определяемым скоростью обучения (learning rate). Варианты: полный, стохастический (SGD), мини-пакетный.
→ Разбор в курсеПараметр модели или алгоритма обучения, задаваемый до начала обучения (не оптимизируемый градиентным спуском). Примеры: learning rate, глубина дерева, число кластеров K, коэффициент регуляризации λ. Подбирается через grid search, random search или Bayesian optimization.
Алгоритм кластеризации: итеративно оптимизирует положение K центроидов для минимизации суммы квадратов расстояний от объектов до ближайшего центроида. Требует заранее указать K. Чувствителен к инициализации и выбросам.
→ Подробный урокРегуляризация, добавляющая к функции потерь сумму абсолютных значений весов: L = Loss + λΣ|wᵢ|. Приводит к разреженным решениям — часть весов становится точно нулевой, что эквивалентно автоматическому отбору признаков.
Регуляризация, добавляющая к функции потерь сумму квадратов весов: L = Loss + λΣwᵢ². Веса уменьшаются, но не обнуляются. Стабилизирует обучение и снижает дисперсию модели. Совместно с L1 образует Elastic Net.
→ Статья о регуляризацииМодель, предсказывающая непрерывную целевую переменную как линейную комбинацию признаков: ŷ = w₀ + w₁x₁ + ... + wₙxₙ. Оптимизация — метод наименьших квадратов (OLS) или градиентный спуск. Базовый алгоритм регрессии.
→ Урок по линейной регрессииФункция, измеряющая расхождение между предсказаниями модели и истинными значениями. Определяет цель оптимизации. Примеры: MSE (регрессия), Binary Cross-Entropy (бинарная классификация), Categorical Cross-Entropy (многоклассовая).
Процесс сравнения нескольких алгоритмов или конфигураций на валидационной выборке с целью выбора наилучшей. Включает выбор архитектуры, гиперпараметров и стратегии обучения. Критически важно проводить выбор до, а не после финальной оценки на тестовой выборке.
Вычислительная модель, вдохновлённая биологическими нейронными сетями. Состоит из слоёв нейронов, связанных взвешенными рёбрами. Каждый нейрон вычисляет взвешенную сумму входов и применяет функцию активации. Обучается через backpropagation.
→ Курс по нейронным сетямСитуация, когда модель слишком точно «запоминает» обучающие данные, включая их шум, и теряет способность обобщаться на новые данные. Признаки: низкая ошибка на train, высокая — на validation. Методы борьбы: регуляризация, dropout, early stopping, увеличение данных.
→ Детальная статьяМетод снижения размерности: нахождение ортогональных направлений (главных компонент), вдоль которых данные имеют максимальную дисперсию. Реализуется через SVD-разложение матрицы ковариаций. Сохраняет глобальную структуру данных.
Доля истинно положительных среди всех объектов, предсказанных как положительные: P = TP / (TP + FP). Высокая precision означает мало ложных тревог. Важна в задачах, где цена ложного положительного высока (например, детекция спама).
Ансамблевый метод: обучает множество деревьев решений на случайных подвыборках данных и признаков (feature bagging). Итоговое предсказание — голосование (классификация) или усреднение (регрессия). Устойчив к переобучению и выбросам.
Доля истинно положительных среди всех реально положительных объектов: R = TP / (TP + FN). Высокий recall означает мало пропущенных случаев. Важен в задачах, где цена ложного отрицательного высока (например, медицинская диагностика).
Задача обучения с учителем для предсказания непрерывной целевой переменной. Примеры: линейная, полиномиальная, Ridge, Lasso, регрессия на основе деревьев. Метрики качества: MAE, MSE, RMSE, R².
Тип машинного обучения, при котором модель обучается на размеченных данных — парах (признаки, метка). Цель — научиться предсказывать метку для новых объектов. Задачи: классификация, регрессия.
→ КурсАлгоритм классификации и регрессии, ищущий оптимальную разделяющую гиперплоскость с максимальным отступом (margin) между классами. Поддерживает нелинейные разбиения через kernel trick (RBF, polynomial, sigmoid). Эффективен в пространствах высокой размерности.
Ситуация, когда модель недостаточно сложна для улавливания закономерностей в данных. Проявляется в высокой ошибке и на обучающей, и на тестовой выборке. Решение: усложнение модели, добавление признаков, уменьшение регуляризации.
Тип ML, при котором модель обучается на неразмеченных данных, выявляя скрытую структуру. Задачи: кластеризация, снижение размерности, обнаружение аномалий, генеративное моделирование.
→ КурсЧувствительность модели к изменениям в обучающей выборке. Высокая дисперсия означает, что модель сильно меняется при небольших изменениях данных — признак переобучения. Снижается регуляризацией, ансамблированием и увеличением объёма данных.
Каждый термин глоссария раскрывается подробнее в соответствующем учебном модуле.