Учебник по промышленной статистике


Методы добычи данных - часть 2


Имеется, однако, важное отличие процедуры добычи данных от классического  разведочного анализа данных (РАД) : системы добычи данных в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при добыче данных нас не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области добычи данных принят такой подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик". При этом используются не только классические приемы  разведочного анализа данных, но и такие методы, как  нейронные сети , которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан.

Очень часто  добыча данных трактуется как  "смесь статистики, методов искуственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась полноценной областью интереса для специалистов по статистике, а порой ее даже называли  "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты (см. например, материалы ежегодно проводимой Международной конференции по поиску знаний и добыче данных( International Conferences on Knowledge Discovery and Data Mining), одним из организаторов которой в 1997 году стала Американская статистическая ассоциация - American Statistical Association).

Информацию по методам добычи данных можно найти в разделах  Разведочный анализ данных и Нейронные сети; подробный обзор и обсуждение этой проблематики см.


Начало  Назад  Вперед