Учебник по промышленной статистике


Деревья классификации - часть 27


Кросс-проверочное отсечение по минимальной цене-сложности.
Кросс-проверочное отсечение по минимальной цене-сложности.

Для того чтобы в Деревья классификации выполнить кросс-проверочное отсечение по минимальной цене-сложности, нужно выбрать опцию По ошибке классификации в качестве Правила остановки, а кросс-проверочное отсечение по минимальному отклонению-сложности выполняется, если в качестве Правила остановки выбрано отсечение По вариации. Единственное различие между этими двумя опциями - способ измерения ошибки прогноза. При отсечении По ошибке классификации используется неоднократно упоминавшаяся функция потерь (равная доли неправильно классифицированных объектов при оцениваемых априорных вероятностях и одинаковых ценах ошибок классификации). При отсечении По вариации используется мера, основанная на принципе максимума правдоподобия и называемая отклонением (см. Ripley, 1996). Мы сосредоточимся на кросс-проверочном отсечении по минимальной цене-сложности (предложенном Breiman и др., 1984), поскольку отсечение по отклонению-сложности отличается от него только способом измерения ошибки прогноза.

Функция цены, которая требуется для кросс-проверочного отсечения по минимальной цене-сложности, вычисляется по мере построения дерева, начиная с ветвления в корневой вершине, пока дерево не достигнет максимально допустимого размера, определяемого величиной Число неклассифицированных. Цена для обучающей выборки пересчитывается при каждом новом ветвлении дерева, так что в результате получается, вообще говоря, убывающая последовательность цен (это отражает улучшение качества классификации). Цена обучающей выборки называется ценой обучения, чтобы отличать ее от цены кросс-проверки, - это необходимо делать, поскольку V-кратная кросс-проверка также производится при каждом новом ветвлении дерева. В качестве значения цены для корневой вершины следует использовать оценку цены кросс-проверки из V-кратной кросс-проверки. Размер дерева можно определить как число терминальных вершин, потому что для бинарных деревьев при каждом новом ветвлении размер дерева увеличивается на единицу.


Начало  Назад  Вперед