Хранилища данных - статьи

Выбор прецедента


В таких системах одной из самых важных является проблема выбора подходящего прецедента. После того, как прецеденты извлечены, нужно выбрать "наиболее подходящий" из них. Это определяется сравнением признаков ОУ в текущей ситуации и в выбранных прецедентах. Определение метода, на котором будет основываться нахождение меры сходства прецедентов, решается во время создания системы ее разработчиками. Наиболее популярным и часто используемым является метод "ближайшего соседа" []. В его основе лежит тот или иной способ измерения степени близости прецедента и текущего случая по каждому признаку (будь это текстовый, числовой или булевский), который пользователь сочтет полезным для достижения цели.

Говоря более строгим языком, вводится метрика (расстояние) на пространстве всех признаков, в этом пространстве определяется точка, соответствующая текущему случаю, и в рамках этой метрики находится ближайшая к ней точка из точек, представляющих прецеденты. Описанный здесь алгоритм очень прост. Реально применяются некоторые его модификации. Обычно прогноз делается на основе нескольких ближайших точек, а не одной. Такой метод более устойчив, поскольку позволяет сгладить отдельные выбросы, случайный шум, всегда присутствующий в данных.

Каждому признаку назначают вес, учитывающий его относительную ценность. Полностью степень близости прецедента по всем признакам можно вычислить, используя обобщенную формулу типа:

где wj - вес j-го признака, sim - функция подобия (метрика), xij и xik - значения признака xj для текущего случая и прецедента, соответственно. После вычисления степеней подобия для всех прецедентов получаем их единый ранжированный список.

Метод прост, может быть реализован очень эффективно, но требует для работы большой памяти, так как в процессе нахождения значения зависимой переменной для новой записи используется вся существующая база данных.

В методе ближайшего соседа, в классическом его представлении, используются только признаки текущего случая и прецедента. Но в управлении важен еще и результат воздействия, то, насколько он приближает к цели. При вводе метрики можно учесть и этот критерий. Считая, что цель должна быть достигнута за конечное число шагов, можно считать более близким прецедент, позволяющий достичь цели за меньшее число шагов. Мы пока не рассматриваем более сложные случаи управления, когда прецеденты выстраиваются в определенный порядок (в общем случае - в некоторые структуры). Так, например, в медицине лечение иногда проводят этапами, выводя больного из комы сначала в некоторое промежуточное состояние, не граничащее с комой, а затем уже стараются приблизить его показатели ближе к норме.

В общем случае, можно представить многоуровневую метрику, где прецеденты сравниваются по:

  1. Состоянию до воздействия;
  2. Воздействию;
  3. Состоянию после воздействия.



Содержание раздела