Лингвистический анализ данных в военной сфере: опыт применения и перспективы

Информационное обеспечение представляет важнейший фактор политики безопасности: информационные воздействия предшествуют военной операции или идут параллельно с ней, имеют психологическую (дезинформация, пропаганда) и техническую составляющие (кибератаки) и влияют на основные управляющие системы противника.

В результате уже появилась военная стратегия «нелинейного ведения войны». С началом эры искусственного интеллекта многие эксперты заговорили даже о революции в военном деле.

По мере того как растет процент людей, использующих смартфоны и социальные сети, увеличивается и информационная база. Порой эта общедоступная информация стала использоваться в целях обеспечения безопасности и ведения разведки. Получая новый инструмент ведения войны (такой как информация), экспертному сообществу необходимо понять, каков потенциал применения лингвистического анализа больших объемов данных, учитывая стремительный рост объемов, числа источников и скорости устаревания данных.

На сегодняшний день можно выделить основные направления, в которых в последнее время развиваются военные исследования и разработки, включающие:

Управление данными и контентом (речевые, текстовые, видео-, графические данные), их очистка и хранение, использование;
Обработка естественного языка (распознавание, преобразование);
Семантический мультиязычный поиск;
Видео- и речевые технологии сбора и распознавания информации.

Основа этих разработок была заложена еще в 1990-х годах в США в исследованиях Агентства перспективных оборонных исследовательских проектов (DARPA), выполненных совместно со Стэндфордским университетом, Университетом Джона Хопкинса, Университетом Южной Калифорнии и Колумбийским университетом.

Большие языковые данные

Еще в 1998 году агентство DARPA запустило проект TIDES, который был направлен на автоматическое обнаружение, извлечение и перевод многоязычной информации. Затем, в конце 2006 года, был запущен проект GALE, целью которого стала разработка ПО для сбора, анализа и интерпретации большого количества многоязычного текста и голосовой информации. Затем последовали проект MADCAT для анализа и перевода изображений, проект RATS для распознавания речи и транскрипции текста, а также системы TRANSTAC для устного общения и перевода. Исследования в тот период были сосредоточены в основном на языках с относительно малым объемом данных, накопленных для анализа, таких как арабский, пушту и китайский, для создания системы машинного перевода в интересах военной разведки.

В 2012 году правительство США заинтересовалось использованием больших языковых данных для обучения искусственного интеллекта: DARPA и исследовательская лаборатория ВВС США запустили проект DEFT для определения семантики текста, изучения взаимосвязей, обнаружения текстовых аномалий. Затем в 2014 году в рамках проекта LORELEI была разработана система, позволяющая военнослужащим в короткие сроки получать важную информацию о заданных темах и событиях, отслеживать отношения к тем или иным событиям и настроения и т.д.

А в 2017 году агентство DARPA запустило проект AIDA для анализа и обработки информации из различных источников, подразумевающий исследования многоисточниковой, потенциально противоречивой и вводящей в заблуждение информации для интерпретации событий и тенденций.

Проекты DARPA в области работы с информацией и их цели представлены в табл. 1.

Таблица 1. Основные проекты агентства DARPA в области работы с большими языковыми данными

Проект	Цель
TIDES	обнаружение, извлечение и перевод многоязычной информации
GALE, RATS	распознавание речи, анализ и перевод голосовой информации
MADCAT	анализ и перевод изображений
DEFT	изучение взаимосвязей, обнаружение текстовых аномалий
LORELEI	семантический анализ по темам, событиям, эмоциям
AIDA	интерпретация реальных событий, текущих ситуаций и тенденций
BABEL	применение восточных языков для мультиязычного поиска по ключевым словам

В целом, проведенные исследования можно разделить на два этапа. Первый: сбор информации, ее распознавание, преобразование и перевод (причем фокус был сделан на восточные языки). Целью исследований на втором этапе стало получение оперативной информации для помощи в принятии решений – постепенный переход к инженерии знаний для минимизации принятия неверных решений. Исследования в основном были сосредоточены на русском, японском, корейском, вьетнамском, группе индо-иранских и малайском языках.

Соцсети: потенциал для разведки

Развитие технологий обработки мультиязычной информации привело к тому, что в последнее время стал широко использоваться метод анализа на основе открытых источников (OSINT – Open Source INTelligence). Методы сбора информации, ранее доступные только военным, теперь возможно применять через поисковые системы с открытым доступом. Анализ помогает получить представление о проблемах, часто сложных и многоуровневых, за счет сбора данных из открытых источников, таких как социальные сети, СМИ, чат-боты, Интернет вещей и проч. Среди разработок для проведения OSINT-анализа особый интерес предоставляют собственные программные решения Veracint OS и LM WISDOM американских компаний Leidos и Lockheed Martin Corporation. Leidos (ранее – Science Applications International Corporation) – американская компания, работающая в области обороны, авиации, информационных технологий и биомедицинских исследований; Lockheed Martin Corporation – американская военно-промышленная корпорация в сфере авиастроения, авиакосмической техники, судостроения.

Разработанные программные решения представляют собой автоматизированные платформы для анализа угроз, объединяющие социальные сети с полным набором данных PAI (текст, изображения, видео).

Принцип действия обеих платформ следующий: сначала данные автоматически поступают в систему из открытых источников (в работе также могут быть использованы и внутренние данные компании). Полученные и собранные данные автоматически обрабатываются с помощью различных алгоритмов. Осуществляется анализ настроенческих паттернов – семантический анализ, фиксируются настроения, применяются индикаторы увеличения или уменьшения для выявления реакции общества на нестабильность, а также недовольства ситуацией в конкретном регионе или по определенной тематике. Аналитик может быстро отследить тенденции и аномалии, увидеть индикаторы нестабильности и угроз для компании, отдельных лиц или событий.

В регионах, представляющих наибольший интерес для разработчиков (исходя из реальных языковых запросов специалистов-аналитиков), распространены преимущественно следующие языки и диалекты:

Арабский классический, североафриканский диалект, йеменский диалект, русский, испанский, французский;
Фарси, пушту, урду, китайский, португальский, немецкий, индонезийский/малазийский, турецкий, суахили.

Еще один пример использования лингвистического анализа – это ситуационный анализ среды мегаполиса, так как мегаполисы в значительной степени многоязычны. Сложность проведения военных операций в мегаполисах вызвана проблемами в понимании структуры их районов. Необходимо учитывать множество факторов, включая географическое положение и распространение, численность и плотность населения, культурное и социально-экономическое разнообразие, качество инфраструктуры. Например, в Мумбаи печатные СМИ издаются на хинди, маратхи, английском и других местных языках. Радио и телевизионные станции также вещают на нескольких языках.

Исследование потоков информации может указывать на то, насколько интегрированным или разобщенным оказывается мегаполис. В частности, очень полезными будут ответы на вопросы:

по каким каналам происходит обмен информацией между властью и населением?
как устроен информационный поток в социальных сетях и в СМИ? (Например, сеть Twitter стала мощным социолингвистическим инструментом для анализа динамики и потока городской инфо среды.)
насколько доступны коммуникационные технологии (сотовые телефоны, компьютеры, сеть Интернет)?
как языковые сообщества предпочитают получать информацию и делиться ею?

Обработка полученных ответов приведет к практическим последствиям: будет организовано обучение штата военнослужащих по вопросам географии и культуры, пройдет подготовка кадров переводчиков в армии, планирование действий по борьбе с повстанцами и сбор разведывательной информации об инфраструктуре и т.д.

Проблема анализа неструктурированных данных

Работа с неструктурированной информацией – это базовая задача на сегодня для всех: тех, кто только начинает развивать технологии, и тех, кто уже значительно продвинулся в этом направлении. Объемы данных растут, а интерпретация и понимание их остаются проблематичными.

Мы получаем информацию, которую генерируют различные устройства, такие как видеокамеры, датчики движения, акустические датчики, спутники и системы глобального позиционирования (GPS), а также люди (в письменной и устной форме). В результате мы имеем большие объемы неструктурированных данных, которые не хранятся в структурированном виде, как база данных, и разнородны по формату (это могут быть текстовые документы, электронная почта, мультимедиа, видеофайлы, электронные таблицы, текстовые сообщения, цифровые изображения и графика, GPS-записи мобильных телефонов и контент социальных сетей).

Для понимания и оценки данных требуется их интерпретация (обычно для этого создается алгоритм). Однако для того чтобы создать алгоритм, данные необходимо первично интерпретировать соответствующим образом. Известно, что могут существовать различные варианты представления одной и той же информации – например, при описании взрыва бомбы могут использоваться разные слова и фразы: «взорвалось устройство», «произошел взрыв», «неизвестные подорвали объект» и т.д. Алгоритм автоматической обработки требует, чтобы система могла распознавать эти варианты так же, как и мы сами.

Еще одну проблему составляет достоверность данных. Задача лингвистического анализа в этом случае состоит в том, чтобы алгоритм обработки смог проверить достоверность данных по ключевым параметрам:

Источник: насколько надежен этот источник информации? Насколько мы доверяем этому источнику? Есть ли сведения, что этот источник сообщает информацию, полученную из другого источника (слухи)?
Содержание: насколько достоверно содержание? Нужно ли подтверждать его другими источниками? Соответствует ли это другим данным?
Корреляция: как различные части информации связаны между собой? Например, насколько мы уверены в том, что сообщения о «нескольких больших машинах» и о «пяти танках» относятся к одним и тем же объектам?
Неопределенность данных: насколько однозначно информация указывает на конкретную угрозу? (Например, покупка кем-либо 50 кг химического удобрения может указывать на его возможное использование как в военных, так и в гражданских целях, поскольку это вещество может быть двойного назначения.)

Таким образом, для выполнения стандартных алгоритмов анализа текста требуется предварительная обработка полученной информации – нужны очищенные данные. В последнее время этим аспектом (очисткой данных) активно занимаются мировые лингвистические компании в коллаборации с предприятиями оборонного и нефтегазового сектора, предоставляя очищенные базы данных для последующего анализа.

Некоторые компании в России сегодня также работают над этой проблемой. Наша компания, например, запустила отдельный проект EGOTECH, направленный на работу с большими массивами данных и создание под цели и задачи заказчика лингвистических корпусов для последующего анализа. В результате заказчик получает очищенные, размеченные, обогащенные дата-сеты для анализа данных. Кроме того, платформа EGOTECH предоставляет решения для последующей обработки данных: повышения их качества, оптимизации сроков и стоимости письменного перевода и локализации контента.

Однако перспективы дальнейшего развития подобных проектов в России лежат отнюдь не в технологической плоскости, но в создании стратегии работы с данными для предприятий ОПК, в понимании, какие задачи они могут решать, каким вызовам противостоять.

ООО «ЭГО Транслейтинг СБ»
Мучной пер, д. 2, Санкт-Петербург
тел. +7 (812) 200-43-00
military@egotranslating.ru

Автор - В.Г. Бегма, заместитель генерального директора по маркетингу ООО «ЭГО Транслейтинг СБ»