Автор Максат Камысов
Бангкок, Гонконг, Токио, Тайбэй, Пхукет, Сеул и Сингапур – эти города объединяет то, что в конце декабря 2019 года канадская компания BlueDot назвала их потенциальными точками распространения нового необычного заболевания, которое впоследствии получило название COVID-19.
И действительно, первый зарегистрированный случай заболевания вне Китая пришелся на столицу Таиланда – Бангкок. Опасный характер нового коронавируса и географию его распространения смогли предсказать в компании за месяц до того, как ВОЗ признала эпидемию международной чрезвычайной ситуацией. Короткий ответ на вопрос «как?» – с помощью больших данных.
Большие данные – это термин, который применяется для описания структурированных или неструктурированных массивов данных большого объема, которые зачастую, ввиду сложности ручной обработки, обрабатываются с использованием специальных автоматизированных инструментов. Они используются для статистики, анализа, прогнозов, на основе которых впоследствии принимаются решения.
Однако «большими» данные делают не только количественные показатели – до сих пор нет общепринятого критерия, который однозначно определял бы отметку объема, переходя которую, данные становились бы «большими». Тем не менее, на сегодняшний день большие данные определяются следующими основными параметрами:
- Объем (Volume) – количественная составляющая больших данных. Объем данных может варьироваться от гигабайт до зеттабайтов (миллионы терабайтов). Большие данные обычно поступают из различных источников, таких как социальные сети, различные датчики, транзакции, медицинские записи и пр.;
- Скорость накопления (Velocity) – скорость, с которой данные генерируются, обрабатываются и анализируются. При современном уровне технологий данные поступают в режиме реального времени, что делает критически важной их оперативную обработку. Например, данные о социальных сетях, финансовых транзакциях или показаниях датчиков нуждаются в немедленном анализе, поскольку могут требовать незамедлительного принятия решений.
- Разнообразие (Variety) – данные приходят в различных форматах и типах: структурированные (базы данных), полуструктурированные (файлы, содержащие массивы данных) и неструктурированные (текст, изображения, видео). Это разнообразие данных создает дополнительные сложности при их ручной обработке и анализе.
- Правдивость (истинность) (Veracity) – надежность, достоверность и точность данных и методов их сбора.
- Ценность (Value) – потенциал данных для извлечения информации, полезной для принятия практических решений и стратегии.
- Вариативность (Variability) – изменчивость данных в зависимости от воздействия внешних факторов.
Итак, все эти параметры обеспечивают возможности по сбору и анализу данных, что позволяет выявлять неочевидные закономерности, принимать более обоснованные решения и оптимизировать процессы.
Такая аналитика может отвечать на различные вопросы, чем и обуславливается ее классификация – эксперты выделяют четыре ключевых метода анализа больших данных:
- Описательная аналитика – отвечает на вопрос «что произошло?», использует исторические данные для анализа и выявления тенденций, паттернов и закономерностей.
- Диагностическая аналитика – отвечает на вопрос «почему это произошло?», также использует исторические данные, но, в отличие от описательной аналитики, сосредоточена на выявлении причин событий.
- Прогностическая аналитика – отвечает на вопрос «что может произойти?», применяет машинное обучение и алгоритмы для прогнозирования будущих событий на основе исторических данных.
- Предписывающая аналитика – отвечает на вопрос «что следует делать?», использует данные, модели и алгоритмы для предоставления рекомендаций и оптимизации решений.
Изначально анализ больших данных применялся для исследовательских целей в научных кругах, однако позже на него обратил внимание бизнес. Причиной для этого послужило бурное развитие информационных технологий, которое всегда сопровождается ростом количества создаваемых данных, – ежегодно количество генерируемых данных в мире растет не менее чем на 22%. Так, общий объем данных, созданных людьми к 2010 году, составлял порядка 2 зеттабайт (2 млрд терабайт), в 2024 году, по прогнозам экспертов, он должен был составить 147 зеттабайт (рис. 1). И это необходимо принимать во внимание, чтобы сохранять конкурентоспособность.

Рис. 1. Количество данных, создаваемых в мире (2010–2024 гг.)
Однако из чего формируются такие колоссальные объемы и откуда вообще берутся большие данные? Источниками для больших данных служат практически все ресурсы и устройства, имеющие доступ к сети, среди них социальные сети, поисковые запросы, сервисы электронной почты, мессенджеры, цифровые файлы и документы, устройства интернета вещей (IoT), банковские системы, онлайн-магазины и сервисы, медицинские системы, промышленные информационные системы и др. Каждый из этих источников генерирует потоки данных, которые становятся частью экосистемы больших данных.
Вы можете дочитать этот и другие материалы сайта, оформив подписку.