Как правило, при «прикрытии» одного товара другим в рамках одного груза (и одной таможенной декларации) действительно перевозятся оба товара, однако доля «дорогого» занижается. Этот факт и может быть использован для выявления подобных пар. При отборе потенциальных пар «товар риска» — «товар прикрытия» мы использовали следующие критерии:
Первый критерий основной и означает, что один из товаров вероятнее всего сопутствует другому. Выбор условных вероятностей, вместо, например, коэффициента корреляций, обуславливается их большей чувствительностью. Коэффициент корреляции близок к единице лишь в случае, если оба товара все время ввозятся одновременно. Мы же налагаем гораздо более слабое условие: лишь один из товаров постоянно сопутствует другому, поскольку один из товаров может ввозиться в больших объемах без всякого сопровождения. Использованный критерий известен в литературе как алгоритм ассоциированных правил и, в частности, реализован в Oracle Data Mining 9i. К сожалению, использованные данные находились в базе Oracle Server 8, в связи с чем пришлось использовать собственную реализацию алгоритма.
Впрочем, высокая корреляция одного из товаров с другим еще не означает, что товар обязательно прикрывается другим: множество людей ежедневно покупают одновременно хлеб и молоко без всякого злого умысла. И при импорте товаров существуют случаи естественной корреляции между товарами. Чтобы очистить отобранные пары от таких случаев, мы наложили дополнительные условия: прикрытие должно быть экономически выгодно, а сравнительный анализ статистических данных должен подтверждать факт прикрытия.
Анализ предоставленных ГТК данных выявил значительное количество пар, удовлетворяющих выбранным критериям. Безусловно, не все они являются парами «товар риска — товар прикрытия». Эффективность реализованного алгоритма может быть подтверждена только в ходе дополнительных проверок на таможенных постах. Однако следует отметить, что число подобных пар существенно меньше, нежели общее число товарных групп, и их список вполне может быть использован как рекомендация по более тщательному досмотру определенных грузов.
В качестве примера приведем одну пару товаров: шины для легковых автомобилей и протекторные заготовки для их восстановления. В приведены данные по импорту этих двух групп товаров за 2000 год, а именно число случаев ввоза каждого из товаров, число случаев совместного ввоза и вычисленные по этим данным коэффициенты корреляции и вероятности.
Как видно из , на протяжении всего 2000 года вероятность ввоза шин вместе с заготовками очень высока — в среднем 95% за год. Случаев ввоза только заготовок практически не было. При этом коэффициент корреляции не столь велик, поскольку достаточно большой объем импорта шин не сопровождается заготовками. Сам по себе факт корреляции между этими группами товаров достаточно естественен, однако ставка таможенной пошлины в 2000 году на заготовки была в 5 раз ниже, нежели для шин — 5% и 25% соответственно. Более того, сравнительный анализ данных РФ и ЕС показал, что импорт заготовок согласно российским данным почти в 200 раз выше, чем по данным ЕС, а импорт шин ниже в 3,5 раза, если сравнивать объемы импорта по весу. При этом суммарный вес импорта по этим двум группам совпадает по данным РФ и ЕС с точностью до 20% ().
Похожая картина наблюдается и в стоимостном выражении. Стоимость ввезенных в РФ заготовок в 30 раз выше, чем вывезенных из стран ЕС, в то время как шин, если судить по декларированной стоимости, ввезено в 2,7 раза меньше вывезенного количества. Т. е., судя по приведенным данным, с большой вероятностью протекторные заготовки в 2000 году использовались рядом импортеров как прикрытие для ввозимых шин. Потери государства на таможенных пошлинах составили предположительно около 7 млн. долл.
Отметим, что анализ был проведен на полном объеме грузовых таможенных деклараций за 2000 год, что составляет более 2 млн. деклараций с общим числом товаров порядка 5 млн. Ясно, что анализ такого количества данных не может быть выполнен ни вручную, ни с помощью ряда других технологий поддержки решений. И хотя, безусловно, невозможно полностью заменить аналитика автоматизированной системой, применение методов поиска знаний позволяет отсеять огромное количество данных, не представляющих, интереса и сократить объем анализируемой информации до уровня адекватного человеческому восприятию.