Основная идея алгоритма СТОЛП заключается в том, что не все объекты обучающей выборки равноценны. www.machinelearning.ru Среди них есть наиболее типичные представители классов (эталоны), неинформативные объекты, при удалении которых из обучающей выборки качество классификации не изменится, и выбросы, или шумовые объекты, только ухудшающие качество классификации. www.machinelearning.ru Поэтому необходимо уменьшить объём обучающей выборки, оставив в ней только эталонные объекты для каждого класса. www.machinelearning.ru
Для использования алгоритма СТОЛП необходимо: yandex.ru
- Выбрать выборку, допустимую долю ошибок, порог отсечения выбросов, алгоритм классификации и формулу для вычисления величины риска (степень риска для объекта быть классифицированным не в тот класс). yandex.ru www.machinelearning.ru
- Отбросить выбросы. www.machinelearning.ru
- Сформировать начальное приближение — из объектов выборки выбрать по одному объекту каждого класса, обладающему среди объектов данного класса максимальной величиной риска либо минимальной величиной риска. www.machinelearning.ru
- Наращивать множество эталонов (пока число объектов выборки, распознаваемых неправильно, не станет меньше допустимой доли ошибок). www.machinelearning.ru
- Классифицировать объекты, используя в качестве обучающей выборки начальное приближение. yandex.ru www.machinelearning.ru
- Пересчитать величины риска для всех объектов с учётом изменения обучающей выборки. www.machinelearning.ru
- Среди объектов каждого класса, распознанных неправильно, выбрать объекты с максимальной величиной риска и добавить их к начальному приближению. yandex.ru www.machinelearning.ru
Результат работы алгоритма — разбиение всего множества объектов на эталонные, шумовые (выбросы) и неинформативные объекты. www.machinelearning.ru