Большие данные следят за тобой

Автор Максат Камысов

Бангкок, Гонконг, Токио, Тайбэй, Пхукет, Сеул и Сингапур – эти города объединяет то, что в конце декабря 2019 года канадская компания BlueDot назвала их потенциальными точками распространения нового необычного заболевания, которое впоследствии получило название COVID-19.

И действительно, первый зарегистрированный случай заболевания вне Китая пришелся на столицу Таиланда – Бангкок. Опасный характер нового коронавируса и географию его распространения смогли предсказать в компании за месяц до того, как ВОЗ признала эпидемию международной чрезвычайной ситуацией. Короткий ответ на вопрос «как?» – с помощью больших данных.

Большие данные – это термин, который применяется для описания структурированных или неструктурированных массивов данных большого объема, которые зачастую, ввиду сложности ручной обработки, обрабатываются с использованием специальных автоматизированных инструментов. Они используются для статистики, анализа, прогнозов, на основе которых впоследствии принимаются решения.

Однако «большими» данные делают не только количественные показатели – до сих пор нет общепринятого критерия, который однозначно определял бы отметку объема, переходя которую, данные становились бы «большими». Тем не менее, на сегодняшний день большие данные определяются следующими основными параметрами:

Объем (Volume) – количественная составляющая больших данных. Объем данных может варьироваться от гигабайт до зеттабайтов (миллионы терабайтов). Большие данные обычно поступают из различных источников, таких как социальные сети, различные датчики, транзакции, медицинские записи и пр.;
Скорость накопления (Velocity) – скорость, с которой данные генерируются, обрабатываются и анализируются. При современном уровне технологий данные поступают в режиме реального времени, что делает критически важной их оперативную обработку. Например, данные о социальных сетях, финансовых транзакциях или показаниях датчиков нуждаются в немедленном анализе, поскольку могут требовать незамедлительного принятия решений.
Разнообразие (Variety) – данные приходят в различных форматах и типах: структурированные (базы данных), полуструктурированные (файлы, содержащие массивы данных) и неструктурированные (текст, изображения, видео). Это разнообразие данных создает дополнительные сложности при их ручной обработке и анализе.
Правдивость (истинность) (Veracity) – надежность, достоверность и точность данных и методов их сбора.
Ценность (Value) – потенциал данных для извлечения информации, полезной для принятия практических решений и стратегии.
Вариативность (Variability) – изменчивость данных в зависимости от воздействия внешних факторов.

Итак, все эти параметры обеспечивают возможности по сбору и анализу данных, что позволяет выявлять неочевидные закономерности, принимать более обоснованные решения и оптимизировать процессы.

Такая аналитика может отвечать на различные вопросы, чем и обуславливается ее классификация – эксперты выделяют четыре ключевых метода анализа больших данных:

Описательная аналитика – отвечает на вопрос «что произошло?», использует исторические данные для анализа и выявления тенденций, паттернов и закономерностей.
Диагностическая аналитика – отвечает на вопрос «почему это произошло?», также использует исторические данные, но, в отличие от описательной аналитики, сосредоточена на выявлении причин событий.
Прогностическая аналитика – отвечает на вопрос «что может произойти?», применяет машинное обучение и алгоритмы для прогнозирования будущих событий на основе исторических данных.
Предписывающая аналитика – отвечает на вопрос «что следует делать?», использует данные, модели и алгоритмы для предоставления рекомендаций и оптимизации решений.

Изначально анализ больших данных применялся для исследовательских целей в научных кругах, однако позже на него обратил внимание бизнес. Причиной для этого послужило бурное развитие информационных технологий, которое всегда сопровождается ростом количества создаваемых данных, – ежегодно количество генерируемых данных в мире растет не менее чем на 22%. Так, общий объем данных, созданных людьми к 2010 году, составлял порядка 2 зеттабайт (2 млрд терабайт), в 2024 году, по прогнозам экспертов, он должен был составить 147 зеттабайт (рис. 1). И это необходимо принимать во внимание, чтобы сохранять конкурентоспособность.

Рис. 1. Количество данных, создаваемых в мире (2010–2024 гг.)

Однако из чего формируются такие колоссальные объемы и откуда вообще берутся большие данные? Источниками для больших данных служат практически все ресурсы и устройства, имеющие доступ к сети, среди них социальные сети, поисковые запросы, сервисы электронной почты, мессенджеры, цифровые файлы и документы, устройства интернета вещей (IoT), банковские системы, онлайн-магазины и сервисы, медицинские системы, промышленные информационные системы и др. Каждый из этих источников генерирует потоки данных, которые становятся частью экосистемы больших данных.

Сегодня большие данные используются в широком спектре отраслей: в ретейле их применяют для формирования персональных рекомендаций для клиентов; в промышленности внедрение больших данных позволяет повысить прозрачность промышленных процессов, более точно прогнозировать спрос на продукцию, что дает возможность оптимизировать рабочие процессы и обеспечивать более эффективное расходование ресурсов. Большим данным нашлось место и в области государственного управления – цифровизация предоставления госуслуг приводит к концентрации колоссальных объемов данных в руках государства, что позволяет правительствам анализировать множество аспектов жизни граждан, от занятости и экономического регулирования до обеспечения безопасности и здравоохранения. Остановимся на последнем подробнее.

Предупрежден – значит вооружен?

Вернемся в конец декабря 2019 года и более обстоятельно ответим на вопрос, как в BlueDot смогли предсказать распространение пандемии COVID-19. Система BlueDot использует для сбора и анализа данных алгоритм на основе машинного обучения: платформа анализирует новости и публикации в сети на разных языках и поисковые запросы, касающиеся заболеваний, в том числе животных и растений. По данным компании, система в реальном времени занимается мониторингом более чем 100 000 онлайн-СМИ и сайтов госорганов на 65 языках, а также получает данные о миллиардах авиаперелетов и перемещении сотен миллионов мобильных устройств.

«Мы ни в коем случае не утверждаем, что искусственный интеллект решает проблемы. Он всего лишь один из наших инструментов. Мы не используем искусственный интеллект вместо человеческого. В основном он нужен, чтобы найти иголку в стоге сена и показать ее команде, которая анализирует информацию»

Камран Хан, основатель компании BlueDot

30 декабря 2019 года система засекла сообщения о случаях необычной пневмонии, и в подавляющем большинстве публикаций упоминался китайский город Ухань. Помимо поисковых запросов, система также анализирует и авиасообщение между странами – на основе данных о рейсах из Уханя и в него в BlueDot сделали выводы о том, куда скорее всего распространится новый вирус. После этого компания направила полученную информацию в министерства здравоохранения некоторых стран, а также в авиакомпании – с целью повысить их готовность к нештатным ситуациям на борту после посадки.

Причем это не первый раз, когда канадская компания сообщила о приближающейся угрозе эпидемии. Этому предсказанию предшествовали и другие – показательным случаем стала вспышка лихорадки Зика в Бразилии в 2015 году. Система BlueDot зафиксировала сообщения о необычном заболевании, что позволило предварительно определить возбудитель и смоделировать распространение заболевания за пределы страны. На основании данных из публикаций в СМИ и социальных сетях, информации о пассажиропотоке, о популяциях насекомых, способных переносить вирус, а также по сведениям о климате, картах температур и информации о стоячих водах BlueDot удалось сделать выводы о направлении и масштабах дальнейшего распространения болезни.

Особенность ситуации заключалась, в том и числе, и в том, что Бразилия должна была принимать Олимпийские игры в 2016 году, а неблагоприятная эпидемиологическая обстановка могла этому серьезно помешать. В 2016 году к BlueDot обратилась Всемирная организация здравоохранения (ВОЗ) с вопросом, насколько велик риск заражения спортсменов и болельщиков в том случае, если Олимпийские игры все-таки будут проведены. Анализ больших данных показал, что вероятность возникновения эпидемии в городах проведения игр низка, что, возможно, повлияло на решение ВОЗ отказаться от введения ограничений.

Тем не менее, несмотря на успехи в определении потенциальных очагов заболеваний и их распространения, случай с COVID-19 стал особенным. Проблема заключается в ограничениях возможностей по обработке больших данных – пандемия стала «новым опытом» для BlueDot, с которым система не сталкивалась ранее, следовательно, не имела четких паттернов для прогнозирования. В связи с этим существенно сократилась точность прогнозов. Этому также способствовали и другие факторы, среди которых беспрецедентные масштабы распространения болезни и ее особенности: например, для статистики, собираемой BlueDot, «невидимыми» оставались люди, заболевшие, но переносящие заболевание бессимптомно, при этом заражая других. Кроме того, введение карантинных мер отсекло существенный источник данных – сведения о перелетах. Таким образом, система BlueDot оказалась эффективной только в самом начале зарождающейся пандемии.

Кем ты станешь, когда мутируешь?

Итак, пандемия COVID-19 показала, что мир не был готов к эпидемии подобного масштаба, однако и на этот раз человечество выстояло и вынесло некоторые уроки. Как известно, периоды кризиса, помимо рисков, несут в себе и возможности, и пандемия не стала исключением. Например, существенный толчок получили информационные технологии, биотехнологии, медицина, в том числе и система организации здравоохранения. А еще масштабная пандемия «породила» колоссальное количество данных, которые впоследствии были использованы для совершенствования прогностических моделей.

«Большие данные могут помочь нам прогнозировать и предотвращать пандемии, анализируя закономерности распространения болезней, поведение населения и другие факторы, которые могут способствовать возникновению вспышек»

Доктор Эрик Шмидт, бывший генеральный директор Google

Разработчики медицинских моделей учли недочеты, которые привели к относительно низкой эффективности, и стали искать альтернативные способы для прогнозирования. И на этом фоне среди прочих выделился совместный проект исследователей Гарвардской медицинской школы и Оксфордского университета – EVEscape. Эта система также работает с большими данными с помощью инструментария на основе искусственного интеллекта. Однако, в отличие от BlueDot, которая рассматривалась выше, EVEscape использует принципиально другой подход в выборе данных. Если BlueDot предполагала работу с новостной повесткой, данными о перемещениях и географическими данными, то EVEscape в большей степени полагается на медицинские и биологические данные.

По мнению авторов системы, готовность к новой потенциальной пандемии зависит от прогнозирования вирусных мутаций, которые способны уклоняться от иммунных реакций хозяина. Это сможет облегчить разработку вакцины и терапии. Разработанная система делает прогнозы распространения заболевания на основе двух компонентов – это подробная информация о структуре и биологии вируса, а также модель эволюционных последовательностей, предсказывающая изменения, которые могут произойти в его структуре. То есть система фактически предназначена для предсказания появления новых вариантов вируса, что должно облегчить работу по противодействию вирусу и помочь предотвратить его распространение.

Модель сосредоточена на естественном потенциале мутаций вируса. По словам разработчиков, особенность также состоит в том, что EVEscape использует исторические данные о мутациях того же вида вируса, а не зависит от информации о нем в реальном времени, что делает ее полезной как для ранних этапов вспышек вируса, так и для постоянной оценки новых вариантов. Изучая вирусы, EVEscape дополнительно включает в анализ биофизические и структурные биологические данные, к примеру, взаимодействие белков в качестве критериев для проверки смоделированных вариантов структуры вируса, с целью удостовериться в точности, стабильности и обоснованности спрогнозированного результата.

В рамках тестирования системы разработчики загрузили в нее данные, актуальные на январь 2020 года, с целью получить прогнозы мутаций коронавируса. Результат оказался впечатляющим – точность прогноза превысила 85%, что сопоставимо с результатами применяемых сейчас экспериментальных методов. Система отметила, какие мутации должны были стать наиболее распространенными и потенциально опасными. Существенным преимуществом стали темпы прогнозов – их удалось ускорить за счет отсутствия необходимости ожидания появления и обнаружения нового антигена, который распространился бы в популяции. EVEscape также предсказала, какие методы лечения на основе применения антител перестанут быть эффективными по мере мутации вируса.

Стоит отметить, что успешное испытание системы не гарантирует ее успеха при работе в реальных условиях. Тем не менее, разработчики занимаются прикладной деятельностью и уже сообщили о том, что в ходе работы смогли получить точные прогнозы по поводу изменений вируса гриппа и ВИЧ, а также работают над изучением мутаций вирусов Ласса и Нипах.

Важным фактором представляется то, что система делает более доступным прогнозирование мутаций патогенов, что в совокупности с актуальными данными и информацией об антителах сможет существенно смягчить последствия потенциальной пандемии и ускорить разработку как мер общественного здравоохранения и распределения медицинских ресурсов, так и лекарств.

Инъекция данных

Третий фронт борьбы с потенциальной эпидемией предполагает разработку лекарств и иммунизацию населения. Разработка нового лекарства – это не быстрый процесс, который, по средним оценкам, при использовании традиционных методов занимает около 10–15 лет и обходится в крупные суммы. В условиях пандемии такие сроки – непозволительная роскошь, однако «время» равно «безопасность препарата». И множественные побочные эффекты вакцин времен пандемии COVD-19 это доказали. Однако в какой-то степени сделать процесс разработки быстрее и безопаснее могут… большие данные.

«Большие данные – как сырая нефть. Они ценны, но в нерафинированном состоянии бесполезны»

Майкл Палмер, экс-вице-президент Ассоциации национальных рекламодателей США (ANA)

Разработка нового препарата предполагает работу с обширными массивами данных. По этой причине логичным развитием фармакологической отрасли на фоне бурного роста популярности ИИ стало применение машинного обучения и больших данных. Так, например, в 2024 году группа генетиков и специалистов по машинному обучению из университетов Стэнфорда и Принстона разработали модель UTR-LM для создания матричной РНК-вакцины против COVID-19.

Матричные РНК-вакцины работают по принципу использования синтетической матричной РНК для обучения иммунной системы организма – распознавать инфекцию и бороться с ней. Вакцина содержит синтетическую мРНК, она кодирует белок, характерный для вируса, против которого направлена вакцина. Синтезированный вирусный белок распознается иммунной системой как угроза, и начинается выработка антител. После иммунного ответа организм «запоминает» этот опыт, что позволяет иммунной системе быстро реагировать впоследствии, если организм столкнется с настоящим вирусом.

UTR-LM обучили на данных о существующих мРНК-вакцинах и на выборке, включающей несколько сотен тысяч 5'-нетранслируемых областей РНК (5′- UTR) – участка мРНК, своего рода «вводной части» мРНК, которая не кодирует белок, но играет важную роль в трансляции – процессе перевода мРНК в белок. Модель научилась варьировать мРНК для наиболее эффективного производства белка.

Результатом применения модели стала разработка библиотеки из 211 новых 5'-UTR, для которых прогнозируются высокие значения эффективности трансляции. При этом авторы исследования утверждают, что в ходе лабораторных испытаний некоторые из 5'-UTR показали впечатляющие результаты – производство ими белка оказалось на 32,5% выше по сравнению с обычными вакцинами, то есть они оказались существенно эффективнее при формировании иммунитета.

Подобные проекты существенно повышают эффективность и скорость разработки новых препаратов, что может сохранить большое число жизней в случае потенциальной эпидемии.

Мы готовы?

Накануне пандемии многие эксперты по биобезопасности говорили, что мир не готов к новой эпидемии и другим угрозам биологического происхождения. Увы, долго ждать не пришлось. Снова проверять готовность человечества к пандемии на практике не возникает никакого желания, однако стоит отметить, что при всех вводных теперь шансов на успешное противодействие ей стало больше. Системы на основе ИИ, использующие большие данные, могут значительно упростить задачи по обнаружению потенциально опасных инфекций, прогнозированию их развития и распространения, а также по созданию препаратов для борьбы с ними.

Пока что сложно однозначно сказать, как алгоритмы поведут себя в условиях реальной пандемии, однако в потенциале человечество получит мощный инструмент, который может значительно улучшить способность реагировать на глобальные угрозы здравоохранению. Таким образом, инвестиции в развитие аналитических инструментов и технологий способны стать ключевым шагом к созданию более устойчивой и готовой к вызовам будущего системы здравоохранения.

Еще по теме...

2025, №1 (90), IT-технологии, SCI., Аналитика

28.02.2025

Большие данные следят за тобой

Еще по теме...

Еще по теме...

Рубрики

Последние записи

В Москве завершился ХХI Всероссийский Форум-выставка «ГОСЗАКА

Новые даты Форума «АРКТИКА-РЕГИОНЫ»