Статья 'Прогнозирование риска террористических актов на основе алгоритмов машинного обучения' - журнал 'Национальная безопасность / nota bene' - NotaBene.ru
по
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > Требования к статьям > Редакция > Порядок рецензирования статей > Редакционный совет > Ретракция статей > Этические принципы > О журнале > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала
ГЛАВНАЯ > Вернуться к содержанию
Национальная безопасность / nota bene
Правильная ссылка на статью:

Прогнозирование риска террористических актов на основе алгоритмов машинного обучения

Новиков Андрей Вадимович

ассистент, Российский экономический университет им. Г.В. Плеханова

117997, Россия, Москва, г. Москва, пер. Стремянный, 36, каб. 339

Novikov Andrey Vadimovich

Assistant, Plekhanov Russian University of Economics

117997, Russia, Moskva, g. Moscow, per. Stremyannyi, 36, kab. 339

Camouflage@yandex.ru
Другие публикации этого автора
 

 

DOI:

10.7256/2454-0668.2022.1.36596

Дата направления статьи в редакцию:

06-10-2021


Дата публикации:

15-03-2022


Аннотация: Данная статья посвящена анализу и прогнозированию риска террористических актов на основе сравнения различных алгоритмов машинного обучения. Для того чтобы определить важнейшие показатели всесторонне рассматриваются более тридцати внешних и внутренних факторов риска путем их количественной оценки и строится начальный набор исходных данных. В исследовании анализируются многомерные социально-экономические и политические данные для 136 стран за период с 1992 по 2020 год. Также прогнозируются четыре показателя, отражающие предполагаемую успешность террористических атак, вероятность получения социально-экономических последствий и общего ущерба от терроризма. Помимо классических моделей анализа проводится сравнение эффективности других четырех алгоритмов машинного обучения, которые могут быть использованы для анализа многомерных данных. Для прогнозирования риска террористических атак создается модель случайного леса, а также на основе статистических критериев оценивается эффективность и точность модели. Для определения важнейших исходных показателей использовался метод рекурсивного устранения признаков в случайном лесу. Главный результат данного исследования заключается в определении важнейших показателей прогнозирования риска терроризма и сокращении избыточных индикаторов, что позволяет улучшить понимание основных характеристик нападений. Между тем, результаты показывают, что необходимо принимать надлежащие упреждающие меры не только в виде силовых операций задержания, разведки и реагирования, но и по улучшению стабильности государства, достижения социального равновесия и повышения качества жизни граждан.


Ключевые слова:

терроризм, террористический риск, факторы риска, машинное обучение, случайный лес, модель, противодействие терроризму, прогнозирование, социальные последствия, материально-экономические последствия

Abstract: This article is devoted to the analysis and prediction of the risk of terrorist acts based on a comparison of various machine learning algorithms. In order to determine the most important indicators, more than thirty external and internal risk factors are comprehensively considered by quantifying them and an initial set of initial data is built. The study analyzes multidimensional socio-economic and political data for 136 countries for the period from 1992 to 2020. Four indicators are also predicted, reflecting the expected success of terrorist attacks, the likelihood of socio-economic consequences and general damage from terrorism. In addition to the classical analysis models, the effectiveness of the other four machine learning algorithms that can be used to analyze multidimensional data is compared. To predict the risk of terrorist attacks, a random forest model is created, and the effectiveness and accuracy of the model are evaluated based on statistical criteria. To determine the most important initial indicators, the method of recursive elimination of features in a random forest was used. The main result of this study is to identify the most important indicators for predicting the risk of terrorism and to reduce redundant indicators, which makes it possible to improve understanding of the main characteristics of attacks. Meanwhile, the results show that it is necessary to take appropriate proactive measures not only in the form of forceful detention, intelligence and response operations, but also to improve the stability of the state, achieve social balance and improve the quality of life of citizens.


Keywords:

terrorism, terrorist risk, risk factors, machine learning, random forest, model, countering terrorism, forecasting, social consequences, material and economic consequences

Введение

Террористические нападения как один из наиболее актуальных видов конфликтов обычно происходят неожиданно, приводят к человеческим жертвам и в конечном итоге сеют хаос [18]. По данным «Глобальной базы данных по терроризму» (GTD), число террористических нападений в мире выросло в среднем с 1000 случаев в год в начале XXI века до более чем 7000 случаев в 2020 году [25]. Хотя правительства многих стран за этот период потратили огромные суммы на борьбу с терроризмом, результаты оказались не столь впечатляющими как могли бы быть. Контртеррористические операции, такие как упреждение и пресечение террористических атак, широко применяются, но иногда они могут еще больше подпитывать нападения, а не предотвращать их [12]. Прогнозирование риска террористических актов полезно для разработки превентивных мер, а также для обеспечения более целенаправленного долгосрочного формирования политики. Однако факторы, влияющие на риск террористических нападений, многочисленны и сложным образом взаимосвязаны. Эта неоднозначность осложняет прогнозирование и может привести к необдуманным политическим решениям, которые бесконечно оттягивают ресурсы и создают панику среди населения. Поэтому очень важно определить важнейшие показатели, влияющие на риск террористических актов, на основе которых прогнозирование станет более четким и надежным, а решения по противодействию терроризму станут более активными [9].

В последние годы, благодаря развитию технологий машинного обучения и их способности эффективно выявлять многофакторные взаимосвязи, соответствующие научные работы постепенно преодолевают кажущуюся «непредсказуемой» проблему прогнозирования террористических атак [5]. Эти работы можно разделить на две категории. В первой категории в основном применяются показатели уровня отдельных террористических инцидентов для прогнозирования будущего характера терроризма. В работе Н. Мо отобраны 56 исходных атрибутов террористической атаки из базы GTD, включая время, местоположение, тип атаки и т.д., и классифицировали типы терроризма с помощью метода опорных векторов (SVM), наивного байесовского классификатора (NB) и логит-регрессии (LR) [31]. Исследование К. Мину использует вейвлет-нейронные сети и GARCH-модели для прогнозирования будущего времени террористических атак на основе исторических данных о численности нападений в месяц [30]. Х. М. Исмаил и Х. Кази применяли 16 атрибутов уровня конкретного инцидента (таких как год, тип атаки, количество исполнителей и т.д.) для оценки характера террористических атак на основе ансамблевого классификатора, объединяющего байесовские модели и модели дерева решений (DT) [26]. В работе Р. Т. Брандт использовалась байесовскую модель с переключением Маркова (англ. Markov-switching Bayesian model) для прогнозирования интенсивности будущих конфликтов на основе предыдущих террористических инцидентов [13]. Также ряд отечественных авторов использовали байесовские модели и случайные леса для моделирования вероятности терроризма [3, 5].

Однако в работах первой категории рассматриваются только показатели микроуровня, связанные конкретными атаками, и игнорируется влияние «коренных факторов» терроризма, которые иначе связываются с макро-условиями или внешней средой [6]. Нападения происходят в более широком контексте терроризма и эти сложные условия охватывает политические, экономические, религиозные и другие факторы. Обширная группа работ сосредоточены на коренных причинах терроризма, начиная с М. Креншоу в качестве наиболее репрезентативной ранней работы [19]. В этой литературе используемые методологии включают качественный анализ, основанный на теоретических положениях, и количественные эмпирические исследования с использованием статистических инструментов. Основные выводы, касающиеся внешних факторов терроризма, включают: 1) бедность не может напрямую привести к терроризму [10]; 2) демократия снижает прямые издержки, связанные с совершением террористических нападений, но также увеличивает относительные издержки [22]; 3) урбанизация является питательной средой для терроризма [19]; 4) страны с растущим населением, по-видимому, меньше страдают от терроризма [21]; 5) терроризм плотно связан с другими видами политического насилия, конфликтов и войн [14]. В целом, можно достичь консенсуса в отношении того, что происхождение и распространение терроризма обусловлены широкими и далеко идущими политическими, экономическими, этническими и другими проблемами [2]. Однако эти факторы недостаточны для объяснения конкретных случаев нападений [4]. В рамках усилий по прогнозированию во временных рядах необходимо учитывать как факторы инцидентов в качестве внутренних причин террористических атак, так и внешние условия.

Исходя из этого, исследования второй категории по прогнозированию атак учитывают факторы макроуровня при составлении прогнозов. С. Перри рассматривает 30 экономических показателей, которые измеряют такие факторы, как безработица, доходы и прогнозирует смертность от терроризма с использованием нейронных сетей обратного распространения (BP) [33]. Также Н. В. Вайдман и М. Д. Уорд используют четыре показателя внешних условий, содержащих численность населения, этнический состав и ландшафт для прогнозирования конфликтов на уровне муниципалитетов на основе пространственно-временной логистической модели [37]. В работе М. Хао используется случайная оценка плотности лесов и ядер для прогнозирования потенциального риска террористических нападений на полуострове Индокитай [24]. Главным образом в этой работе с помощью 15 показателей внешних условий, содержащих три социальных показателя (хрупкость государства, плотность населения, распространение наркотрафика) и одиннадцать географических показателей, таких как средняя температура и топография. В отличие от такого подхода, который рассматривает только показатели первопричин, Ф. Динг рассматривает как характеристики инцидентов, так и показатели макроуровня [20]. Здесь используется нейронная сеть обратного распространения (BPNN), SVM и случайный лес (RF) для прогнозирования риска террористических атак в различных странах в основном анализируя три индикатора инцидентов (таких как широта и долгота) и 10 макро-причин, содержащих пять географических показателей (например, среднее количество осадков), а также четыре демографических показателя. Во второй категории исследований по прогнозированию террористических атак оценивался статус факторов внешней среды.

Тем не менее, существующие исследования в области оценки риска в основном направлены на повышение точности прогнозирования на основе предварительно выбранных показателей, представляющих различные факторы, связанные с террористическими актами, и реже возвращаются к обоснованности выбора показателей [7]. Отчасти это связано с тем, что «черный ящик» моделей машинного обучения с многочисленными параметрами и сложными выводами затрудняет четкий анализ причинно-следственных связей между целевыми зависимыми и независимыми переменными [34]. Таким образом, внутренний механизм модели обучения недостаточно ясен и взаимосвязь между показателями не может быть понята интуитивно. При этом после изменения входных показателей первоначальные выводы перестают быть надежными [15].

Методология

Общая структура предлагаемого подхода состоит из четырех этапов. Прогнозирование риска террористических атак в разных странах за конкретный год производится с использованием скользящего окна с несколькими входами и выходами. Риск террористических атак как прогнозируемая цель состоит из четырех основных подкомпонентов: 1) Произойдет ли в следующем году более одного крупного террористического акта? 2) Каков максимальный уровень имущественного ущерба, причиненного террористическими актами в следующем году? 3) Каков максимальный уровень человеческих жертв в результате террористических нападений в предстоящем году? 4) Каков средний показатель успеха террористических атак в следующем году? Поскольку нецелесообразно считать каждое террористическое нападение одинаково важным и уделять им равное внимание, если не проводятся различия между серьезностью атак [18]. В целом же это исследование больше касается риска нападений с тяжелыми последствиями.

Что касается входных данных (независимых переменных) для прогнозирования, то учитываются как внешние так и внутренние факторы. Внешние факторы играют роль невидимой руки и представляют различные аспекты состояния социальной аномии, непосредственно приводящие к распространению терроризма и косвенно к террористическим нападениям [11]. Внутренние факторы являются как триггерами, так и последствиями террористических атак, подпитывая террористический феномен посредством самовоспроизводящейся петли обратной связи [27]. В общей сложности в качестве предикторов были выбраны 28 показателей, из которых 17 – индикаторы макроуровня, а остальные 11 связанны с внутренними характеристиками нападений.

Исходные данные, используемые в этом исследовании, собраны из трех хорошо известных баз данных, таких как «Глобальная база данных о терроризме» (GTD), «Международное руководство по страновым рискам» (ICRG) и база данных «Всемирного банка» [35, 36, 38]. GTD является одной из крупнейших баз данных о террористических атаках с открытым доступом, в которой с 1970 года регистрируются цель, тип атаки, местоположение и другие показатели террористических атак. ICRG регистрирует показатели каждой страны за каждый год в трех подкатегориях рисков: политических, финансовых и экономических. База данных «Всемирного банка» содержит надежные статистические социально-экономические данные на страновом уровне.

Выбор показателей и предварительная обработка данных

Террористические нападения вытекают из абстрактного контекста терроризма, в котором различные факторы способствуют процессу радикализации, а показатели представляют собой количественную интерпретацию факторов. Как показано на рис. 1, процесс перехода от радикализма до террористических атак состоит из нескольких этапов [12]. Во-первых, терроризм распространяется из-за глубоко укоренившихся структурных причин. Во-вторых, некоторые граждане становятся террористами под влиянием внешних обстоятельств и субъективных индивидуальных причинных факторов. Наконец, из-за конкретных триггеров или воспроизводящейся обратной связи с предыдущими актами террористы совершают все новые и новые нападения [8].

Рис. 1. Процесс перехода к терроризму под воздействием внешних факторов.

Источник: составлено автором.

Структурные, ускоряющие и мотивационные факторы рассматриваются как три подкатегории причин терроризма, основанные на исследовании Т. Бьорго [12]. Структурные причины – это факторы, влияющие на жизнь людей на макроуровне, которые люди могут осознавать или не осознавать. Ускоряющие факторы делают терроризм «привлекательным» и стимулируют людей становиться более склонными к политическому насилию или вступлению в террористические организации. Мотивационные факторы – это личный опыт людей, побуждающий их применять террористическую тактику, в том числе вступать в радикальные организации или готовиться к террористическим атакам. Факторы в этих трех подкатегориях в первую очередь способствуют распространению терроризма и вербовке боевиков. Причем мотивационные причины также потенциально могут привести к атакам, но только на подготовительном этапе. Провоцирующие и факторы обратной связи рассматриваются как два компонента причин на уровне конкретных инцидентов. Провоцирующие факторы являются прямыми предшественниками конкретных атак. Например, конкретные конфликты, спорные события и т.д. Факторы обратной связи в основном представляют собой весь предыдущий цикл террористических нападений. После совершения террористического акта в последующем процессе участвуют множество аудиторий, включая союзников, врагов, членов террористической организации, невинных гражданских лиц. Последствия, намерения и детали нападений могут быть раскрыты СМИ, что может привести к эффекту эскалации, еще больше повышая риск следующей атаки.

В таблице 1 приведены конкретные показатели, которые количественно измеряют вышеупомянутые факторы. Структурные факторы часто могут быть измерены экономическими, политическими, культурными и другими показателями в качестве долгосрочного двигателя атак, такими как: стабильность правительства, социально-экономические условия, рост ВВП и безработица. Между тем, эти показатели также могут быть использованы в качестве среднесрочных мотивационных и ускоряющих факторов. Например, когда конкретный человек все еще имеет работу, безработица может быть лишь показателем абстрактной структурной причины, которая непосредственно им не ощущается. В свою очередь, когда этот человек безработный, реальность разочарования, может служить показателем ускорения или мотивационной причины. Поскольку показатели обычно могут функционировать на разных уровнях, в этом исследовании было отобрано 17 показателей из ICRG и «Всемирного банка» для представления этих факторов. Индикаторы «Критерии 1-3» из GTD могут представлять собой провоцирующие причины. «Критерий 1» показывает, является ли целью атаки достижение политической, экономической, религиозной или социальной цели, а не получение прибыли или чисто личного интереса. «Критерий 2» указывает, является ли целью нападения принуждение, запугивание или передача других сообщений более широкой аудитории, чем непосредственные жертвы. «Критерий 3» оценивает, была ли атака нацелена на жертв, не являющихся комбатантами. Таким образом, GTD уже предоставляет подробные индикаторы, позволяя выразить намерения, цели, движущие силы различных террористических атак. Аналогичным образом, в GTD имеются подробные показатели последствий террористических нападений и успеха или неудач каждого акта. Все индикаторы, использованные в этом исследовании, подробно описаны в таблице 1.

Таблица 1. Описательная статистика независимых (входных) переменных.

Источник

Индикаторы

Среднее

Дисперсия

Минимум

Максимум

GTD

Тип местности атаки

0,656

0,136

-0,465

1,005

GTD

Критерий 1

0,693

0,134

-0,386

1,134

GTD

Критерий 2

0,714

0,123

-0,359

1,159

GTD

Критерий 3

0,66

0,134

-0,465

1,092

GTD

Успешность атаки в предыдущем году

0,557

0,169

-0,514

1,021

GTD

Тип атаки

2,760

1,905

0,624

9

GTD

Тип цели

7,308

22,408

1

22

GTD

Тип оружия

6,046

2,783

1

13

GTD

Материальный ущерб в предыдущем году

0,971

1,997

0

4

GTD

Число жертв атак в предыдущем году

1,137

2,385

0

4

GTD

Общий ущерб в предыдущем году

0,257

0,196

0

1

World Bank

Рост ВВП

3,381

34,894

-64,047

123,137

World Bank

Военные расходы

2,455

10,557

-0,771

117,386

World Bank

Рост численности населения

1,549

2,098

-5,814

16,332

World Bank

Численность населения (log)

7,003

0,541

4,843

9,139

World Bank

Безработица

7,418

16,806

0,052

37,6

World Bank

Рост городского населения

2,333

4,069

-7,115

16,583

ICRG

Стабильность правительства

7,463

4,204

0,676

12

ICRG

Социально-экономические условия

5,542

4,892

0

11

ICRG

Инвестиционный профиль

7,255

6,004

0

12

ICRG

Внутренний конфликт

8,689

5,855

0

12

ICRG

Внешний конфликт

9,562

4,133

0

12

ICRG

Участие армии в политике

3,677

3,038

0

6

ICRG

Религиозная напряженность

4,524

1,733

0

6

ICRG

Законность и порядок

3,607

2,052

0

6

ICRG

Этническая напряженность

3,894

1,897

0

6

ICRG

Демократическая подотчетность

3,772

2,614

0

6

ICRG

Качество бюрократии

2,102

1,322

0

4

Источник: составлено автором.

В этом исследовании используются многомерные данные из 136 стран за период с 1992 по 2020 год. Человеческие жертвы и материальный ущерб являются основными показателями риска террористических атак. Относительно «числа жертв», в этом исследовании человеческие потери классифицируются на четыре уровня в соответствии с тем, что: «0» – отсутствие раненных или убитых, «1» – от 1 до 3 раненых или погибших, «2» – от 4 до 10 травм или смертей, «3» – от 11 до 30 травм или смертей, «4» – более 31 травм или смертей.

В отношении прямых экономических потерь в исследовании используются критерии GTD для классификации тяжести ущерба террористических атак по шкале от 1 до 4, где: «0» – отсутствие материальных потерь, «1» – катастрофический (> 1 млрд. долл.), «2» – крупный (от 1 млн. до 1 млрд. долл.), «3» – незначительный (< 1 млрд. долл.), «4» – потери неизвестны.

В дополнение к использованию отдельных показателей для измерения социальных и экономических потерь, в статье предлагается интегральный показатель («Общий ущерб»), основанный подходе, объединяющего эти два критерия в один [16]. Значение данного показателя равно 1, если в течение следующего года в данной стране произошло более одного террористического нападения, которое причинило как крупный или больший материальный ущерб и привело к не менее одиннадцати жертвам. За исключением вышеуказанных трех показателей, измеряющих потери, показатель успешности самого акта также является важным показателем террористического риска. В этом исследовании в качестве четвертого предиктора используется средний показатель успешности террористических атак в течение одного года в конкретной стране.

Большинство индикаторов имеют пропущенные значения, а некоторые из них даже имеют более 20% пропущенных данных. Таким образом, в этом исследовании для заполнения недостающих данных и построения взаимосвязи между недостающими значениями и наблюдениями использован метод высокоточного тензорного завершения низкого ранга (HALRTC) предложенный [28]. HALRTC может эффективно решить проблему отсутствия данных в многомерных объектах [17]. В частности, в этом исследовании для трехмерного массива с отсутствующими значениями , означает, что есть 136 выбранных стран; свидетельствует, что наблюдения отбирались за период в 29 лет с 1992-2020 гг.; , обозначает 28 входных переменных. После завершения обработки данных все показатели нормализуются до интервала [-1, 1], чтобы уменьшить ошибку, которая может быть вызвана различиями в измерении. Преимущество этого подхода к уменьшению масштаба заключается в том, что он не изменяет структуру распределения самих данных.

Прогнозирование на основе методов машинного обучения

Для решения задачи прогнозирования риска террористических атак модель случайного леса строит ансамбль необрезанных деревьев и делает прогноз на основе среднего выходного значения дерева [1]. Каждое дерево строится путем начальной загрузки данных, что означает случайный выбор фиксированного набора переменных-кандидатов из всего набора при каждом разбиении.

Для оценки влияния случайного леса реализовано несколько моделей машинного обучения для сравнения с обычным RF. Сначала используется модель SVR, регрессионная форма модели SVM с хорошей способностью к обобщению и подгонке. Во-вторых, построена широко используемая в области прогнозирования временных рядов модель линейной регрессии (LR). Реализованы две модели нейронных сетей: модель нейронной сети с полной связью (FNN) и модель нейронной сети с долговременной памятью (LSTM). Первая представляет собой традиционную нейронную сеть обратного распространения с плотными слоями. В то время как вторая дополнительно добавляет чувствительные к временным рядам единицы LSTM.

Из-за множества параметров машинного обучения эмпирическая настройка может привести к непригодной модели. Поэтому в данном исследовании используется метод поиска по сетке с k-кратной (k = 8) перекрестной проверкой для оптимизации параметров. В частности, в модели RF установлены следующие параметры: max_features = auto, n_estimators = 2455, criterion = mse, min_samples_split = 30, min_samples_leaf = 5. Параметры модели SVR имеют значение: kernel = linear, epsilon = 0,2. Модель LR имеет значение: fit_intercept = True, normalize = False. Модель FNN имеет два плотных скрытых слоя со 128 и 64 ячейками соответственно. Модель LSTM имеет два слоя LSTM со 128 и 64 ячейками и плотный слой в качестве выходного. Обе модели FNN и LSTM используют relu в качестве функции активации и добавляют слой с dropout = 0,2 перед выходным слоем, чтобы предотвратить переобучение. Оптимизатором является Rmsprop, скорость обучения установлена на 0,001, размер пакета равен 500, а функция потерь – mse. Метод поиска по сетке и все модели реализованы с использованием библиотеки Python scikit-learn [32].

Для дальнейшего предотвращения переобучения весь набор данных случайным образом перетасован перед разделением обучающей и тестовой выборки. В случае прогнозирования сопоставления ввода-вывода для текущего года и текущей страны данные по всем странам и годам случайным образом не упорядочены. Это позволяет получить в наборе данных более неупорядоченное распределение и избежать ситуации, когда хорошо подготовленная модель, использующая информацию из определенных стран, не может эффективно предсказать риск террористических атак по тестовым наблюдениям других стран. После перетасовки предварительно обработанный набор данных делится на обучающий набор, содержащий 80% наблюдений, и тестовый набор, содержащий оставшиеся 20% наблюдений. Чтобы лучше оценить надежность модели и ее способность к обобщению, процесс перетасовки и разделения всего набора повторяется десять раз. Каждая вновь созданная обучающая выборка будет использоваться для обучения модели RF и четырех других моделей. Затем обученные модели будут использоваться для прогнозирования неизвестных наблюдений. Для окончательной оценки надежности каждая модель будет построена десять раз.

Для оценки качества и точности модели используются три измерения. MAE и MSE являются измерениями погрешности. Меньшее значение MAE или MSE указывает на то, что результаты прогнозирования модели ближе к истинным значениям. R2 – это коэффициент детерминации, измеряющий объяснительный эффект модели. В целом, большие значения R2 указывают на то, что модель лучше способна объяснить тенденцию целевых показателей.

Точность прогнозирования пяти моделей показана в таблице 2. Для сравнения моделей регистрируются среднее и стандартное отклонение для MAE, MSE и R2, полученные в десяти процессах обучения-тестирования. Для каждого из четырех выходных показателей прогнозирования риска террористических атак в таблице 2 в отдельных полях представлены показатели прогнозирования и общий случай в последнем поле. Результаты показывают, что RF превосходит другие модели с точки зрения всех показателей точности, за исключением немного худшего прогноза по «Материальному ущербу». Показатель MAE обеспечивает краткую оценку ошибки прогнозирования, в то время как MSE позволяет дополнительно оценить степень вариации данных и относительно более чувствителен к выбросам. RF значительно превосходит другие модели в обоих измерениях погрешности (в 12 из 15 сравнений). При этом его общая суммарная погрешность соответственно на 3% и 1,9% ниже, чем у неоптимальной модели. В дополнение к оценке ошибок необходимо учитывать качество модели по классическому измерению коэффициента детерминации (R2). В этом плане RF также демонстрирует значительно лучший результат (более чем на 2%) по сравнению с другими моделями. Более того, у RF общее значение R2 = 0,501, также является приемлемым результатом.

Таблица 2. Сравнение результатов прогнозирования моделей машинного обучения.

Зависимая переменная

Показатель

SVR

LR

RF

FNN

LSTM

Успешность атаки

MAE

0,237(0,005)

0,232(0,009)

0,218(0,008)

0,227(0,008)

0,226(0,008)

MSE

0,101(0,004)

0,0103(0,009)

0,087(0,008)

0,089(0,008)

0,092(0,009)

R2

0,549(0,024)

0,558(0,037)

0,616(0,032)

0,602(0,03)

0,6(0,033)

Материальный ущерб

MAE

0,392(0,015)

0,434(0,011)

0,41(0,011)

0,415(0,013)

0,414(0,009)

MSE

0,364(0,023)

0,323(0,016)

0,312(0,015)

0,31(0,015)

0,309(0,015)

R2

0,289(0,053)

0,362(0,025)

0,383(0,024)

0,387(0,024)

0,39(0,024)

Число жертв атак

MAE

0,375(0,007)

0,397(0,01)

0,364(0,013)

0,38(0,02)

0,378(0,014)

MSE

0,318(0,013)

0,289(0,02)

0,266(0,022)

0,279(0,021)

0,276(0,019)

R2

0,469(0,029)

0,511(0,031)

0,55(0,033)

0,528(0,03)

0,533(0,025)

Общий ущерб

MAE

0,477(0,013)

0,483(0,008)

0,427(0,01)

0,455(0,017)

0,448(0,016)

MSE

0,595(0,026)

0,455(0,012)

0,42(0,017)

0,441(0,015)

0,431(0,012)

R2

0,218(0,029)

0,406(0,023)

0,451(0,023)

0,423(0,023)

0,437(0,018)

Общий прогноз

MAE

0,37(0,008)

0,385(0,007)

0,355(0,008)

0,369(0,012)

0,366(0,009)

MSE

0,344(0,013)

0,291(0,012)

0,271(0,013)

0,28(0,011)

0,276(0,01)

R2

0,382(0,028)

0,459(0,023)

0,501(0,023)

0,486(0,018)

0,487(0,017)

Источник: составлено автором.

Результаты показывают, что случайный лес наилучшим образом подходит для решения задачи прогнозирования риска террористических атак. Поэтому при следующем рекурсивном устранении признаков для выделения важнейших показателей применяется только модель случайного леса.

Выбор оптимальной модели случайного леса

Чтобы определить, какие показатели имеют решающее значение для риска террористических атак, используется рекурсивное устранение признаков на основе случайного леса. С помощью модели случайного леса для присвоения весов показателям основная идея RFE (англ. Recursive Feature Elimination) заключается в рекурсивном отборе наименьшего набора показателей [23]. Во-первых, модель случайного леса обучается на начальном наборе данных и важность каждого показателя определяется полученным свойством важности признака. Затем наименее важные показатели отсекаются от текущего набора и процесс повторяется уже с отсеченным набором данных до тех пор, пока наконец не будет достигнуто заданное количество показателей. В этом процессе по мере уменьшения числа входных индикаторов теряется достоверная информация, что приводит к постепенному снижению точности прогнозирования модели. В точке хеджирования производительности модели находится наименьшее подмножество показателей гарантируя, что конечные независимые переменные являются относительно наиболее важными [29].

Общая процедура RF-RFE в основном оказывает фильтрующее воздействие на исходную выборку. Необработанные данные содержат 28 входных индикаторов с четырьмя зависимыми переменными. Их необходимо настроить так, чтобы для каждого запуска сохранялось n индикаторов. Тогда уменьшение числа показателей выполняется с помощью алгоритма RF-RFE. Остаточный набор данных становится n входными данными и четырьмя выходными переменными, которые иногда могут быть немного больше n, поскольку несколько показателей могут считаться одинаково важными. Впоследствии модель случайного леса будет делать прогнозы с использованием остаточного набора и записывать соответствующие характеристики прогнозирования. По мере постепенного уменьшения n производительность прогнозирования случайного леса будет постепенно ухудшаться. В то время как n уменьшается за пределами точки хеджирования, ухудшение эффективности прогнозирования будет быстро ускоряться. Входные независимые показатели, связанные с точкой хеджирования, считаются ключевыми.

Ядром RFE, использованного в этом исследовании, является RF. Расчет важности функций внутри RF-ядер основан на оценке ошибок переменных и «out-of-bag» (OOB). Данные OOB – это данные, которые исключаются из каждого обучения дерева и могут быть использованы для оценки производительности случайного леса. Между тем, поскольку существует четыре целевых показателя, традиционные методы RFE в основном представляют один результат, а важность функции может быть измерена только одним результатом в традиционном расчете. Поэтому, четыре модуля RF соединены на основе: RF-RFE0 для первого целевого зависимого показателя «Общий ущерб», RF-RFE1 для второй зависимой переменной «Успешность атаки», RF-RFE2 для третьего целевого показателя «Материальный ущерб» и RF-RFE3 для «Числа жертв атаки». Аналогичным образом, чтобы избежать случайных ошибок и переобучения, весь набор данных случайным образом перетасовывается и процесс RF-RFE запускается с десятью повторениями.

В частности, если задано сохранение n входных индикаторов, каждый отдельный RF-RFE; (i = 0, 1, 2, 3) модуль вернет список логических значений длиной 28, соответствующий исходным 28 независимым переменным. Если индикатор получает логическое значение 1 на конкретном выходе, это означает, что для целевого показателя i этот входной индикатор важен и его необходимо сохранить, и наоборот. Другими словами, один RF-RFE вернет список, тогда как сумма его логических значений равна n. Затем четыре модуля RF-RFE запускаются параллельно и повторяются десять раз, чтобы получить в общей сложности 40 списков логических значений. На этом этапе 40 этих логических значений каждого индикатора накапливаются, чтобы получить число numj(j = 1, 2... 28) раз сохранений каждой функции. То есть количество раз, когда логическому значению присваивается 1. Наконец, выбирается n самых больших переменных из numj и соответствующие функции сохраняются. С помощью такого метода взвешенного усреднения обеспечивается стабильность результатов процесса RF-RFE, а оценка всех четырех целевых показателей сохраняется в соответствии с важностью независимых переменных.

В RF-RFE процессе идентификации важнейших переменных количество входных индикаторов постепенно сокращается с 28 до 1, позволяя наблюдать за тем, как модель прогнозирования RF работает с различными входными измерениями. Для обеспечения достоверности результатов процесс разделения набора данных для обучающего теста повторяется десять раз для каждого подмножества входных показателей. В качестве показателей эффективности прогнозирования приняты MAE, MSE и R2. Среднее значение показателей эффективности приведено в таблице 3. Результаты показывают, что с устранением входных переменных в процессе RF-RFE эффективность прогнозирования постепенно ухудшается. Ухудшение производительности быстро ускоряется, когда количество показателей становится меньше восьми. Таким образом, сценарий с восемью входными индикаторами рассматривается в качестве точки хеджирования RF-RFE.

Таблица 3. Эффективность прогнозирования с постепенным снижением числа входных независимых переменных.

n

MAE

MSE

R2

n

MAE

MSE

R2

28

0,355

0,271

0,501

14

0,363

0,283

0,485

27

0,361

0,281

0,491

13

0,364

0,283

0,470

26

0,359

0,279

0,495

12

0,368

0,290

0,467

25

0,362

0,281

0,489

11

0,368

0,288

0,476

24

0,365

0,283

0,486

10

0,368

0,284

0,480

23

0,362

0,278

0,492

9

0,368

0,288

0,470

22

0,358

0,274

0,498

8

0,383

0,295

0,427

21

0,365

0,284

0,485

7

0,388

0,303

0,420

20

0,362

0,275

0,491

6

0,399

0,315

0,401

19

0,361

0,280

0,483

5

0,400

0,317

0,390

18

0,361

0,278

0,488

4

0,398

0,318

0,390

17

0,362

0,280

0,494

3

0,403

0,323

0,362

16

0,363

0,283

0,489

2

0,417

0,343

0,330

15

0,359

0,275

0,495

1

0,506

0,434

0,172

Источник: составлено автором.

Для оценки важнейших показателей риска террористических атак в этом исследовании дополнительно исследуется, какие показатели нужно сохранить в качестве основных переменных, особенно в точке хеджирования процесса RF-RFE. Рис. 2 иллюстрирует, какие показатели сохраняются, а какие отбрасываются по мере их постепенного сокращения с 28 до 1. На рис. 2 каждая строка пикселей представляет новое подмножество входных индикаторов после обработки RF-RFE. Индикаторы с логическим значением 1 сохраняются, в то время как индикаторы с логическим значением 0 отбрасываются. Например, когда значение n равно 27, первая удаленная переменная – «Общий ущерб», тогда как другие входные индикаторы сохраняются. Наблюдения, приведенные на рис. 2 тройственны. Во-первых, по мере уменьшения n меняется оценка RF-RFE важности показателей означая, что подмножество показателей также меняется. Например, «Число жертв атак» удаляется RF-RFE, когда n составляет около 22, но снова становится решающим, когда n уменьшается до точки хеджирования, равной восьми. Это обеспечивает более динамичное понимание оценки показателей, чем обычный статический расчет важности признаков. Во-вторых, можно определить, что важнейшими показателями, которые наиболее часто сохраняются во время процесса уменьшения количества переменных и всегда считаются достойными сохранения RF-RFE при n = 8, являются: число жертв атак в предыдущем году, рост ВВП, военные расходы, рост населения, численность населения, безработица, рост городского населения, внутренний конфликт и т.д. Эти показатели можно считать наиболее важными для понимания риска террористических нападений.

Рис. 2. Индикаторы, сохраняющие логические значения с 28 начальными переменными.

Источник: составлено автором.

Сделанный вывод дополнительно подтверждается на рис. 3. В отличие от рис. 2 и на нем отображено, сколько раз каждый индикатор считался важным и в каждом подмножестве, соответствующем уменьшающемуся n с максимальным значением 40. Означая, что индикатор входных данных оценивается как важный для всех четырех целевых индикаторов в десяти повторных запусках RF-RFE. При этом минимальное значение 0 означает, что он совершенно не важен.

Рис. 3. Время сохранения индикаторов при 28 начальных переменных.

Источник: составлено автором.

Заключение

В этой работе основное внимание уделяется выявлению важнейших показателей, влияющих на риск террористических нападений с точки зрения прогнозирования. Всесторонне рассмотрены факторы уровня первопричин и уровня инцидентов террористических актов. Внутренние факторы играют роль невидимой руки и представляют различные аспекты условий социального беспорядка. Факторы, связанные с террористическими нападениями, являются как последствиями, так и триггерами террористических нападений. Для количественной оценки этих абстрактных факторов в качестве исходного набора входных предикторов предлагаемой модели прогнозирования RF отобрано в общей сложности 28 показателей. Исходя из этого, предлагается метод RF-RFE для определения важнейших показателей путем рекурсивного сокращения числа переменных. Результаты исследования показывают, что минимальный набор входных показателей до того, как эффективность прогнозирования значительно ухудшится, включает: число жертв атак в предыдущем году, рост ВВП, военные расходы, темпы роста населения, численность населения, безработица, рост городского населения, внутренние конфликты. Выявленные факторы следует считать важными и необходимыми для понимания риска террористических нападений. Выявленные важнейшие показатели указывают на то, что террористический риск обусловлен как первопричинами терроризма, так и предыдущими инцидентами политического насилия.

Известно, что усилия по снижению риска террористических атак могут предприниматься в двух направлениях. Относительно первого аспекта, необходимо постоянно устранять первопричины терроризма путем повышения стабильности и легитимности правительства, уменьшения внутригосударственных конфликтов и противоречий, увеличения свободы предпринимательства, увеличения динамики экономического роста и сокращения безработицы. Что касается второго аспекта, то необходимы меры по предотвращению нарастания терроризма путем сведения к минимуму положительного воздействия предыдущих терактов на возможные будущие атаки. Ключевые действия включают в себя снижение вероятности успеха террористических атак, сокращение числа человеческих жертв и материально-экономических потерь, которые они вызывают. Помимо этого, необходимо сведение к минимуму распространения негативной информации, такой как заявления о намерениях террористических организаций. Основное ограничение этой статьи заключается в том, что из-за сложности сбора данных и относительной чувствительности выборки было рассмотрено только 28 показателей. В будущих исследованиях следует проанализировать дополнительные факторы развития терроризма и сосредоточится на первоочередном влиянии политических рисков, например таких как стабильность правительства.

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья посвящена построению прогностических моделей риска террористических актов с использованием элементов искусственного интеллекта, анализа данных и машинного обучения.
Актуальность рецензируемой работы обусловлена необходимостью предотвращения террористических атак, потребностью в прогнозировании возможных инцидентов на основе анализа больших массивов данных для выстраивания адекватной системы обеспечения антитеррористической безопасности.
Методология исследования базируется на обобщении примеров успешного применения искусственного интеллекта в контртеррористической деятельности, построении прогностических моделей на основе анализа хорошо известных баз данных: «Глобальная база данных о терроризме» (GTD), «Международное руководство по страновым рискам» (ICRG) и базы данных «Всемирного банка» с применением алгоритмов машинного обучения.
К элементам научной новизны представленного исследования, по мнению рецензента, можно отнести систематизацию факторов уровня первопричин и уровня инцидентов террористических актов, а также обоснование на основе алгоритмов машинного обучения минимального набора входных показателей (число жертв атак в предыдущем периоде, рост ВВП, военные расходы, темпы роста населения, численность населения, безработица, рост городского населения, внутренние конфликты) для понимания и прогнозирования риска террористических нападений.
В структуре статьи выделены следующие разделы: Введение, Методология, Выбор показателей и предварительная обработка данных, Прогнозирование на основе методов машинного обучения, Выбор оптимальной модели случайного леса, Заключение, а также Библиография.
Во введении статьи справедливо отмечается, что прогнозирование риска террористических актов полезно для разработки превентивных мер, а также для обеспечения более целенаправленного долгосрочного формирования политики. При описании методологии изложены четыре этапа предлагаемого подхода, указаны источники данных для проведения анализа, а также а также названо количество анализируемых показателей – 28, из которых 17 – индикаторы макроуровня, а остальные 11 связанны с внутренними характеристиками нападений. В статье в виде схемы представлен процесс перехода к терроризму под воздействием внешних факторов, приведена описательная статистика независимых (входных) переменных. Несколько моделей машинного обучения сопоставляются по результатам прогнозирования успешности атаки, материального ущерба, числа жертв атак, величины общего ущерба и общего прогноза на основе значений показателей среднего и стандартного отклонений, а также коэффициента детерминации. Далее рассмотрена эффективность прогнозирования с постепенным снижением числа входных независимых переменных и обосновано какие показатели нужно сохранить в качестве основных переменных.
Библиография представлена 38 источниками, на в тексте статьи имеются адресные ссылки, что свидетельствует о наличии апелляции к оппонентам. Текст иллюстрирован наглядными схемами и аналитическими таблицами.
Рецензируемая статья не лишена недочетов в оформлении.
Во-первых, в тексте используются аббревиатуры (MAE и MSE), расшифровка которых приводится не сразу после их первого упоминания, а в следующем абзаце – это может затруднить восприятие для читателей, не знакомых с англоязычной терминологией математической статистики и современными инструментальными средствами анализа данных и моделирования.
Во-вторых, требуется корректировка отображения обозначения коэффициента детерминации, который визуально не выглядит как «R-квадрат», а воспринимается скорее, как R с индексом 2.
Тема рецензируемого материала весьма актуальна, соответствует тематике журнала «Национальная безопасность», статья отражает результаты проведенного анализа обширных данных с применением современных методов моделирования, может вызвать интерес со стороны потенциальных читателей, интересующихся как вопросами антитеррористической безопасности, так и проблемами применения машинного обучения для решения прикладных проблем. Материал рекомендуется к опубликованию.
Ссылка на эту статью

Просто выделите и скопируйте ссылку на эту статью в буфер обмена. Вы можете также попробовать найти похожие статьи


Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.