Учебник по промышленной статистике


Деревья классификации - часть 26


V-кратная кросс-проверка.
V-кратная кросс-проверка.

Второй тип кросс-проверки, реализованный в модуле Деревья классификации, - так называемая V-кратная кросс-проверка. Этот вид кросс-проверки разумно использовать в случаях, когда в нашем распоряжении нет отдельной тестовой выборки, а обучающее множество слишком мало для того, чтобы из него выделять тестовую выборку. Задаваемое пользователем значение V (значение по умолчанию равно 3) определяет число случайных подвыборок - по возможности одинакового объема, - которые формируются из обучающей выборки. Дерево классификации нужного размера строится V раз, причем каждый раз поочередно одна из подвыборок не используется в его построении, но затем используется как тестовая выборка для кросс-проверки. Таким образом, каждая подвыборка V - 1 раз участвует в обучающей выборке и ровно один раз служит тестовой выборкой. Цены кросс-проверки, вычисленные для всех V тестовых выборок, затем усредняются, и в результате получается V-кратная оценка для цены кросс-проверки, которая, вместе со своей стандартной ошибкой, доступна в таблице результатов Последовательность деревьев.

Глобальная кросс-проверка.
Глобальная кросс-проверка.

Третий тип кросс-проверки, реализованный в модуле Деревья классификации - глобальная кросс-проверка. В этом варианте производится заданное число итераций (по умолчанию - 3), причем всякий раз часть обучающей выборки (равная единице, деленной на заданное целое число) оставляется в стороне, а затем по очереди каждая из отложенных частей используется как тестовая выборка для кросс-проверки построенного дерева классификации. Этот вариант кросс-проверки, вероятно, уступает методу V-кратной кросс-проверки в случае, если была выбрана опция Прямая остановка по методу FACT, однако он может оказаться очень полезным для проверки методов автоматического построения дерева (обсуждение этих вопросов см. в Breiman и др., 1984). В результате мы естественно приходим ко второй из возможных стратегий выбора "подходящего размера" для дерева - методу автоматического построения дерева, который основывается на результатах Breiman и др. (1984) и называется "кросс-проверочным отсечением по минимальной цене-сложности".




Начало  Назад  Вперед



Книжный магазин