Обучение без учителя

Зачем изучать unsupervised learning

Большинство реальных данных не имеют разметки. Unsupervised learning — это инструментарий для работы с сырыми данными: поиск групп, скрытых структур, сжатие информации без потери смысла. Эти методы часто применяются как предобработка перед supervised learning.

Алгоритмы курса

Модуль 1: Кластеризация. k-means4 раздела

▶Алгоритм Lloyd и его геометрия

▶Метод локтя и силуэтный коэффициент

▶Чувствительность к инициализации: k-means++

▶Практика: Mall Customers Dataset

Модуль 2: Иерархическая кластеризация4 раздела

▶Агломеративный подход

▶Дендрограмма: построение и интерпретация

▶Методы связывания: Ward, complete, average

▶Сравнение с k-means

Модуль 3: DBSCAN4 раздела

▶Параметры epsilon и minPts

▶Ядровые, граничные и шумовые точки

▶Работа с кластерами произвольной формы

▶Выбор параметров через k-distance graph

Модуль 4: PCA — метод главных компонент4 раздела

▶Собственные векторы ковариационной матрицы

▶Объяснённая дисперсия

▶Реконструкция и потеря информации

▶Применение: сжатие признаков перед обучением

Модуль 5: t-SNE и UMAP4 раздела

▶Стохастическое вложение соседей

▶KL-дивергенция как функция потерь

▶Параметр perplexity и его влияние

▶UMAP: топологический подход к снижению размерности

Модуль 6: Обнаружение аномалий4 раздела

▶Isolation Forest: идея и параметры

▶One-class SVM

▶Local Outlier Factor

▶Применение: финансовые транзакции, логи

Модуль 7: Обобщение и применение4 раздела

▶Когда выбирать кластеризацию vs снижение размерности

▶Комбинирование методов

▶Итоговый проект: анализ Wine Dataset

▶Связь с нейросетевыми методами: автоэнкодеры

Зачем изучать unsupervised learning

Алгоритмы курса

Следите за миром машинного обучения