Учебник по промышленной статистике


Деревья классификации - часть 32


Необходимо отметить, что многоуровневое ветвление на самом деле не имеет никаких преимуществ (потому что любое многоуровневое ветвление может быть представлено в виде нескольких последовательных двоичных ветвлений), но может иметь определенные недостатки. В некоторых пакетах фиксированная предикторная переменная может быть использована для многоуровневого ветвления лишь один раз, так что получающееся в результате дерево классификации оказывается слишком коротким и неинтересным (Loh & Shih, 1997). Более серьезная трудность связана со смещением при выборе переменной для ветвления. Такое смещение возможно в любой программе типа THAID (Morgan & Sonquist, 1973), где применяется полный перебор вариантов ветвления (обсуждение этого вопроса см. в Loh & Shih, 1997). Смещение в выборе переменной проявляется в том, что преимущественно выбираются переменные, имеющие много уровней значений, и такое смещение может исказить относительную важность разных предикторных переменных в смысле их влияния на отклик зависимой переменной (см. Breiman и др., 1984).

Смещения в выборе переменной можно избежать, выбрав опцию дискриминантного одномерного или многомерного ветвления модуля Деревья классификации. При этом используются алгоритмы QUEST (Loh & Shih, 1997), предотвращающие смещение в выборе переменной. Опция Полный перебор деревьев с одномерным ветвлением по методу CART модуля Деревья классификации предназначена для тех ситуаций, когда целью анализа является отыскание системы ветвлений, дающей наилучшую классификацию обучающей выборки (которая необязательно окажется лучшей на независимом кросс-проверочной выборке). Для построения надежных вариантов ветвления, а также для большей скорости вычислений мы рекомендуем опцию дискриминантного одномерного ветвления. О построении дерева классификации см. в разделе Вычислительные методы.

Дополнительная информация по методам анализа данных, добычи данных, визуализации и прогнозированию содержится на Портале StatSoft (http://www.statsoft.ru/home/portal/default.asp) и в Углубленном Учебнике StatSoft (Учебник с формулами).



(c) Copyright StatSoft, Inc., 1984-2001
STATISTICA является торговой маркой StatSoft, Inc.




Начало  Назад  Вперед



Книжный магазин