Задача классификации Газпром нефть

Содержание

Слайд 2

Задача классификации

Задача классификации
Области применения алгоритмов классификации
Формальное математическое определение
Несбалансированная классификация
Критерии качества классификации:
Precision, Recall,

Задача классификации Задача классификации Области применения алгоритмов классификации Формальное математическое определение Несбалансированная
F1 score, ROC AUC

Слайд 3

Области применения алгоритмов классификации

 

Области применения алгоритмов классификации

Слайд 4

Области применения алгоритмов классификации

Регрессия - множество ответов бесконечно, так как они являются

Области применения алгоритмов классификации Регрессия - множество ответов бесконечно, так как они
действительными числами или векторами действительных чисел.
Классификация - множество ответов дискретно и конечно. Решается задача классификации объектов в один или несколько классов.

Слайд 5

Области применения алгоритмов классификации

Оценка кредитоспособности заемщиков.
Задачи медицинской диагностики
Оптическое распознавание символов.
Распознавание речи.
Обнаружение спама.
Классификация

Области применения алгоритмов классификации Оценка кредитоспособности заемщиков. Задачи медицинской диагностики Оптическое распознавание
документов и т.д.

Слайд 6

Формальное математическое определение

 

Формальное математическое определение

Слайд 7

Формальное математическое определение

Разделяющая гиперплоскость – это гиперплоскость, которая отделяет группы объектов, принадлежащим

Формальное математическое определение Разделяющая гиперплоскость – это гиперплоскость, которая отделяет группы объектов,
различным классам.
Если такая гиперплоскость существует, то говорят о линейной разделимости выборки (A).
Качество линейных методов классификации невысоко на линейно неразделимой выборке (B).

Слайд 8

Формальное математическое определение

 

Формальное математическое определение

Слайд 9

Формальное математическое определение

 

Формальное математическое определение

Слайд 10

Несбалансированная классификация

Imbalanced Data : один из классов представлен значительно бо́льшим количеством объектов,

Несбалансированная классификация Imbalanced Data : один из классов представлен значительно бо́льшим количеством
чем другой – мажоритарный и миноритарный классы.

Классификация на подобных выборках может оказаться неэффективной, т.к. модель будет предвзятой и неточной. Причина: классификатор может полностью отнести объекты миноритарных классов к шуму.
Алгоритмы машинного обучения обычно предназначены для повышения точности за счет уменьшения ошибки. Другими словами, классификатор настраивается на мажоритарный класс, получая высокую точность, не выделяя объекты миноритарного класса.

Слайд 11

Несбалансированная классификация

Задачи, в которых несбалансированность данных не просто общая проблема, а ожидаема

Несбалансированная классификация Задачи, в которых несбалансированность данных не просто общая проблема, а
в силу специфики области применения:
В медицинской диагностике объектам миноритарного класса соответствует наличие редкого заболевания.
Прогнозирование природных катастроф.
Обнаружение аномалий в сценариях обнаружения кражи электроэнергии.
Мошеннические транзакции – 1-2% транзакций, отличающихся от большинства.

Слайд 12

Несбалансированная классификация

Обучение на несбалансированных данных осложняется расположением отдельных примеров выборок:

Вкрапления

Наложения

s – чистые

Несбалансированная классификация Обучение на несбалансированных данных осложняется расположением отдельных примеров выборок: Вкрапления
примеры класса (safe examples);
b – пограничные (borderline);
n – зашумляющие (noisy).

Слайд 13

Несбалансированная классификация

Основные подходы к решению проблемы несбалансированных данных в классификации:
Сэмплинг (sampling)
Уменьшение большего

Несбалансированная классификация Основные подходы к решению проблемы несбалансированных данных в классификации: Сэмплинг
класса
Увеличение меньшего класса
2. Изменение порога решения
Сэмплинг представляет собой выбор прецедентов таким образом, чтобы их количество для обоих классов уравнялось. Этот подход позволяет учесть распределение/соотношение классов.

Imbalanced Data

Over-sampling

Under-sampling

Слайд 14

Несбалансированная классификация

Уменьшение большего класса (Undersampling)
Случайный или синтетический выбор прецедентов мажоритарного класса в

Несбалансированная классификация Уменьшение большего класса (Undersampling) Случайный или синтетический выбор прецедентов мажоритарного
обучающую выборку.
Приводит к уменьшению тренировочной базы
Возможно исключение важной информации и увеличение ошибки
Самый простой вариант — произвольный выбор прецедентов (Random Undersampling) — не учитывает положение прецедентов относительно друг друга и поверхности, разделяющей классы. Однако, на практике он оказывается наиболее эффективным.

Слайд 15

Несбалансированная классификация

Уменьшение большего класса (Undersampling)
Поиск связей Томека (Tomek Links)
Этот способ хорошо удаляет

Несбалансированная классификация Уменьшение большего класса (Undersampling) Поиск связей Томека (Tomek Links) Этот
записи, которые можно рассматривать в качестве «зашумляющих».

Слайд 16

Несбалансированная классификация

Уменьшение большего класса (Undersampling)
Правило сосредоточенного ближайшего соседа
(Condensed Nearest Neighbor Rule)
Этот

Несбалансированная классификация Уменьшение большего класса (Undersampling) Правило сосредоточенного ближайшего соседа (Condensed Nearest
метод учит классификатор находить отличие между похожими примерами, но принадлежащими к разным классам.

Слайд 17

Несбалансированная классификация

Уменьшение большего класса (Undersampling)
Односторонний сэмплинг (One-side Sampling, One-sided Selection)
Применяется правило сосредоточенного

Несбалансированная классификация Уменьшение большего класса (Undersampling) Односторонний сэмплинг (One-side Sampling, One-sided Selection)
ближайшего соседа.
Удаляются все мажоритарные примеры, участвующие в связях Томека.

Таким образом, удаляются большие «сгустки» мажоритарных примеров, а затем область пространства со скоплением миноритарных очищается от потенциальных шумовых эффектов.

Слайд 18

Несбалансированная классификация

Уменьшение большего класса (Undersampling)
Правило «очищающего» соседа (Neighborhood Cleaning Rule)
Все примеры классифицируются

Несбалансированная классификация Уменьшение большего класса (Undersampling) Правило «очищающего» соседа (Neighborhood Cleaning Rule)
по правилу трех ближайших соседей.
Удаляются следующие мажоритарные примеры:
получившие верную метку класса;
являющиеся соседями миноритарных примеров, которые были неверно классифицированы.

Эта стратегия также направлена на то, чтобы удалить те примеры, которые негативно влияют на исход классификации миноритарных.

Слайд 19

Несбалансированная классификация

Увеличение меньшего класса (Oversampling)
Добавление прецедентов миноритарного класса позволяет сохранить всю имеющуюся

Несбалансированная классификация Увеличение меньшего класса (Oversampling) Добавление прецедентов миноритарного класса позволяет сохранить
информацию. Недостаток – увеличение размера тренировочной базы и, как следствие, большее время ее обработки.
Самый простой вариант — дублирование случайных прецедентов меньшего класса, которое не добавляет лишней информации и не изменяет положение разделяющей поверхности.

Слайд 20

Несбалансированная классификация

Увеличение меньшего класса (Oversampling)
Алгоритм SMOTE (Synthetic Minority Oversampling Technique) - генерация

Несбалансированная классификация Увеличение меньшего класса (Oversampling) Алгоритм SMOTE (Synthetic Minority Oversampling Technique)
некоторого количества искусственных примеров, которые «похожи» на имеющиеся в миноритарном классе, но при этом не дублируют их.

Миноритарный пример

Мажоритарный пример

Искусственный пример

Алгоритм не подходит в случае, если миноритарные примеры равномерно распределены среди мажоритарных и имеют низкую плотность. Тогда SMOTE только сильнее перемешает классы.

Слайд 21

Несбалансированная классификация

Увеличение меньшего класса (Oversampling)
Алгоритм ADASYN (Adaptive Synthetic Minority Oversampling) - использование

Несбалансированная классификация Увеличение меньшего класса (Oversampling) Алгоритм ADASYN (Adaptive Synthetic Minority Oversampling)
функции плотности распределения как критерия для автоматического определения числа экземпляров, которые необходимо сгенерировать для каждого из объектов миноритарного класса, адаптивно меняя веса разных экземпляров миноритарного класса

Миноритарный пример

Мажоритарный пример

Искусственный пример

Слайд 22

Несбалансированная классификация

Изменение порога решения (Changing Performance Metric)
Многие алгоритмы классификации определяют степень достоверности

Несбалансированная классификация Изменение порога решения (Changing Performance Metric) Многие алгоритмы классификации определяют
предсказания. При данном подходе, изменяя порог в решающем правиле, можно получать различные разделяющие поверхности.

Правильно классифицированные объекты миноритарного класса

Неправильно классифицированные объекты миноритарного класса

Правильно классифицированные объекты мажоритарного класса

Центральная гиперплоскость

Центральная гиперплоскость

Такие методы довольно просты в реализации; однако, изменение порога не гарантирует точность формы границы, что может привести к значительному повышению общей ошибки.
Существуют методы, предлагающие показатели эффективности, которые могут дать большее представление о точности модели, чем традиционные метрики.

Слайд 23

Критерии качества классификации

Определим ROC-кривую (receiver operating characteristic, рабочая характеристика приёмника)
Ось абсцисс: доля

Критерии качества классификации Определим ROC-кривую (receiver operating characteristic, рабочая характеристика приёмника) Ось
неправильных положительных предсказаний как функция w0
Ось ординат: доля правильных положительных предсказаний
AUC - площадь под кривой, используется для оценки точности классификации (AUC ≥ 0,5)
Пунктирная линия - наихудшая точность (случайное предсказание)

Слайд 24

Критерии качества классификации

Точность и полнота (Precision and Recall) для случая бинарной классификации
TP

Критерии качества классификации Точность и полнота (Precision and Recall) для случая бинарной
- правильные положительные предсказания
FP - неправильные положительные предсказания
FN - неправильные отрицательные предсказания

Слайд 25

Критерии качества классификации

 

 

Критерии качества классификации