Информационное обеспечение представляет важнейший фактор политики безопасности: информационные воздействия предшествуют военной операции или идут параллельно с ней, имеют психологическую (дезинформация, пропаганда) и техническую составляющие (кибератаки) и влияют на основные управляющие системы противника.
В результате уже появилась военная стратегия «нелинейного ведения войны». С началом эры искусственного интеллекта многие эксперты заговорили даже о революции в военном деле.
По мере того как растет процент людей, использующих смартфоны и социальные сети, увеличивается и информационная база. Порой эта общедоступная информация стала использоваться в целях обеспечения безопасности и ведения разведки. Получая новый инструмент ведения войны (такой как информация), экспертному сообществу необходимо понять, каков потенциал применения лингвистического анализа больших объемов данных, учитывая стремительный рост объемов, числа источников и скорости устаревания данных.
На сегодняшний день можно выделить основные направления, в которых в последнее время развиваются военные исследования и разработки, включающие:
- Управление данными и контентом (речевые, текстовые, видео-, графические данные), их очистка и хранение, использование;
- Обработка естественного языка (распознавание, преобразование);
- Семантический мультиязычный поиск;
- Видео- и речевые технологии сбора и распознавания информации.
Основа этих разработок была заложена еще в 1990-х годах в США в исследованиях Агентства перспективных оборонных исследовательских проектов (DARPA), выполненных совместно со Стэндфордским университетом, Университетом Джона Хопкинса, Университетом Южной Калифорнии и Колумбийским университетом.
Большие языковые данные
Еще в 1998 году агентство DARPA запустило проект TIDES, который был направлен на автоматическое обнаружение, извлечение и перевод многоязычной информации. Затем, в конце 2006 года, был запущен проект GALE, целью которого стала разработка ПО для сбора, анализа и интерпретации большого количества многоязычного текста и голосовой информации. Затем последовали проект MADCAT для анализа и перевода изображений, проект RATS для распознавания речи и транскрипции текста, а также системы TRANSTAC для устного общения и перевода. Исследования в тот период были сосредоточены в основном на языках с относительно малым объемом данных, накопленных для анализа, таких как арабский, пушту и китайский, для создания системы машинного перевода в интересах военной разведки.
В 2012 году правительство США заинтересовалось использованием больших языковых данных для обучения искусственного интеллекта: DARPA и исследовательская лаборатория ВВС США запустили проект DEFT для определения семантики текста, изучения взаимосвязей, обнаружения текстовых аномалий. Затем в 2014 году в рамках проекта LORELEI была разработана система, позволяющая военнослужащим в короткие сроки получать важную информацию о заданных темах и событиях, отслеживать отношения к тем или иным событиям и настроения и т.д.
А в 2017 году агентство DARPA запустило проект AIDA для анализа и обработки информации из различных источников, подразумевающий исследования многоисточниковой, потенциально противоречивой и вводящей в заблуждение информации для интерпретации событий и тенденций.
Проекты DARPA в области работы с информацией и их цели представлены в табл. 1.
Таблица 1. Основные проекты агентства DARPA в области работы с большими языковыми данными
|
Проект |
Цель |
|
TIDES |
обнаружение, извлечение и перевод многоязычной информации |
|
GALE, RATS |
распознавание речи, анализ и перевод голосовой информации |
|
MADCAT |
анализ и перевод изображений |
|
DEFT |
изучение взаимосвязей, обнаружение текстовых аномалий |
|
LORELEI |
семантический анализ по темам, событиям, эмоциям |
|
AIDA |
интерпретация реальных событий, текущих ситуаций и тенденций |
|
BABEL |
применение восточных языков для мультиязычного поиска по ключевым словам |
В целом, проведенные исследования можно разделить на два этапа. Первый: сбор информации, ее распознавание, преобразование и перевод (причем фокус был сделан на восточные языки). Целью исследований на втором этапе стало получение оперативной информации для помощи в принятии решений – постепенный переход к инженерии знаний для минимизации принятия неверных решений. Исследования в основном были сосредоточены на русском, японском, корейском, вьетнамском, группе индо-иранских и малайском языках.
Соцсети: потенциал для разведки
Развитие технологий обработки мультиязычной информации привело к тому, что в последнее время стал широко использоваться метод анализа на основе открытых источников (OSINT – Open Source INTelligence). Методы сбора информации, ранее доступные только военным, теперь возможно применять через поисковые системы с открытым доступом. Анализ помогает получить представление о проблемах, часто сложных и многоуровневых, за счет сбора данных из открытых источников, таких как социальные сети, СМИ, чат-боты, Интернет вещей и проч. Среди разработок для проведения OSINT-анализа особый интерес предоставляют собственные программные решения Veracint OS и LM WISDOM американских компаний Leidos и Lockheed Martin Corporation. Leidos (ранее – Science Applications International Corporation) – американская компания, работающая в области обороны, авиации, информационных технологий и биомедицинских исследований; Lockheed Martin Corporation – американская военно-промышленная корпорация в сфере авиастроения, авиакосмической техники, судостроения.
Разработанные программные решения представляют собой автоматизированные платформы для анализа угроз, объединяющие социальные сети с полным набором данных PAI (текст, изображения, видео).
Принцип действия обеих платформ следующий: сначала данные автоматически поступают в систему из открытых источников (в работе также могут быть использованы и внутренние данные компании). Полученные и собранные данные автоматически обрабатываются с помощью различных алгоритмов. Осуществляется анализ настроенческих паттернов – семантический анализ, фиксируются настроения, применяются индикаторы увеличения или уменьшения для выявления реакции общества на нестабильность, а также недовольства ситуацией в конкретном регионе или по определенной тематике. Аналитик может быстро отследить тенденции и аномалии, увидеть индикаторы нестабильности и угроз для компании, отдельных лиц или событий.
В регионах, представляющих наибольший интерес для разработчиков (исходя из реальных языковых запросов специалистов-аналитиков), распространены преимущественно следующие языки и диалекты:
- Арабский классический, североафриканский диалект, йеменский диалект, русский, испанский, французский;
- Фарси, пушту, урду, китайский, португальский, немецкий, индонезийский/малазийский, турецкий, суахили.
Еще один пример использования лингвистического анализа – это ситуационный анализ среды мегаполиса, так как мегаполисы в значительной степени многоязычны. Сложность проведения военных операций в мегаполисах вызвана проблемами в понимании структуры их районов. Необходимо учитывать множество факторов, включая географическое положение и распространение, численность и плотность населения, культурное и социально-экономическое разнообразие, качество инфраструктуры. Например, в Мумбаи печатные СМИ издаются на хинди, маратхи, английском и других местных языках. Радио и телевизионные станции также вещают на нескольких языках.
Исследование потоков информации может указывать на то, насколько интегрированным или разобщенным оказывается мегаполис. В частности, очень полезными будут ответы на вопросы:
- по каким каналам происходит обмен информацией между властью и населением?
- как устроен информационный поток в социальных сетях и в СМИ? (Например, сеть Twitter стала мощным социолингвистическим инструментом для анализа динамики и потока городской инфо среды.)
- насколько доступны коммуникационные технологии (сотовые телефоны, компьютеры, сеть Интернет)?
- как языковые сообщества предпочитают получать информацию и делиться ею?
Обработка полученных ответов приведет к практическим последствиям: будет организовано обучение штата военнослужащих по вопросам географии и культуры, пройдет подготовка кадров переводчиков в армии, планирование действий по борьбе с повстанцами и сбор разведывательной информации об инфраструктуре и т.д.
Проблема анализа неструктурированных данных
Работа с неструктурированной информацией – это базовая задача на сегодня для всех: тех, кто только начинает развивать технологии, и тех, кто уже значительно продвинулся в этом направлении. Объемы данных растут, а интерпретация и понимание их остаются проблематичными.
Мы получаем информацию, которую генерируют различные устройства, такие как видеокамеры, датчики движения, акустические датчики, спутники и системы глобального позиционирования (GPS), а также люди (в письменной и устной форме). В результате мы имеем большие объемы неструктурированных данных, которые не хранятся в структурированном виде, как база данных, и разнородны по формату (это могут быть текстовые документы, электронная почта, мультимедиа, видеофайлы, электронные таблицы, текстовые сообщения, цифровые изображения и графика, GPS-записи мобильных телефонов и контент социальных сетей).
Для понимания и оценки данных требуется их интерпретация (обычно для этого создается алгоритм). Однако для того чтобы создать алгоритм, данные необходимо первично интерпретировать соответствующим образом. Известно, что могут существовать различные варианты представления одной и той же информации – например, при описании взрыва бомбы могут использоваться разные слова и фразы: «взорвалось устройство», «произошел взрыв», «неизвестные подорвали объект» и т.д. Алгоритм автоматической обработки требует, чтобы система могла распознавать эти варианты так же, как и мы сами.
Еще одну проблему составляет достоверность данных. Задача лингвистического анализа в этом случае состоит в том, чтобы алгоритм обработки смог проверить достоверность данных по ключевым параметрам:
- Источник: насколько надежен этот источник информации? Насколько мы доверяем этому источнику? Есть ли сведения, что этот источник сообщает информацию, полученную из другого источника (слухи)?
- Содержание: насколько достоверно содержание? Нужно ли подтверждать его другими источниками? Соответствует ли это другим данным?
- Корреляция: как различные части информации связаны между собой? Например, насколько мы уверены в том, что сообщения о «нескольких больших машинах» и о «пяти танках» относятся к одним и тем же объектам?
- Неопределенность данных: насколько однозначно информация указывает на конкретную угрозу? (Например, покупка кем-либо 50 кг химического удобрения может указывать на его возможное использование как в военных, так и в гражданских целях, поскольку это вещество может быть двойного назначения.)
Таким образом, для выполнения стандартных алгоритмов анализа текста требуется предварительная обработка полученной информации – нужны очищенные данные. В последнее время этим аспектом (очисткой данных) активно занимаются мировые лингвистические компании в коллаборации с предприятиями оборонного и нефтегазового сектора, предоставляя очищенные базы данных для последующего анализа.
Некоторые компании в России сегодня также работают над этой проблемой. Наша компания, например, запустила отдельный проект EGOTECH, направленный на работу с большими массивами данных и создание под цели и задачи заказчика лингвистических корпусов для последующего анализа. В результате заказчик получает очищенные, размеченные, обогащенные дата-сеты для анализа данных. Кроме того, платформа EGOTECH предоставляет решения для последующей обработки данных: повышения их качества, оптимизации сроков и стоимости письменного перевода и локализации контента.
Однако перспективы дальнейшего развития подобных проектов в России лежат отнюдь не в технологической плоскости, но в создании стратегии работы с данными для предприятий ОПК, в понимании, какие задачи они могут решать, каким вызовам противостоять.
ООО «ЭГО Транслейтинг СБ»
Мучной пер, д. 2, Санкт-Петербург
тел. +7 (812) 200-43-00
military@egotranslating.ru
Автор - В.Г. Бегма, заместитель генерального директора по маркетингу ООО «ЭГО Транслейтинг СБ»
©«Новый оборонный заказ. Стратегии»
№ 6 (65), 2020 г., Санкт-Петербург





