Зачем изучать unsupervised learning
Большинство реальных данных не имеют разметки. Unsupervised learning — это инструментарий для работы с сырыми данными: поиск групп, скрытых структур, сжатие информации без потери смысла. Эти методы часто применяются как предобработка перед supervised learning.
Алгоритмы курса
Модуль 1: Кластеризация. k-means4 раздела
Алгоритм Lloyd и его геометрия
Метод локтя и силуэтный коэффициент
Чувствительность к инициализации: k-means++
Практика: Mall Customers Dataset
Модуль 2: Иерархическая кластеризация4 раздела
Агломеративный подход
Дендрограмма: построение и интерпретация
Методы связывания: Ward, complete, average
Сравнение с k-means
Модуль 3: DBSCAN4 раздела
Параметры epsilon и minPts
Ядровые, граничные и шумовые точки
Работа с кластерами произвольной формы
Выбор параметров через k-distance graph
Модуль 4: PCA — метод главных компонент4 раздела
Собственные векторы ковариационной матрицы
Объяснённая дисперсия
Реконструкция и потеря информации
Применение: сжатие признаков перед обучением
Модуль 5: t-SNE и UMAP4 раздела
Стохастическое вложение соседей
KL-дивергенция как функция потерь
Параметр perplexity и его влияние
UMAP: топологический подход к снижению размерности
Модуль 6: Обнаружение аномалий4 раздела
Isolation Forest: идея и параметры
One-class SVM
Local Outlier Factor
Применение: финансовые транзакции, логи
Модуль 7: Обобщение и применение4 раздела
Когда выбирать кластеризацию vs снижение размерности
Комбинирование методов
Итоговый проект: анализ Wine Dataset
Связь с нейросетевыми методами: автоэнкодеры