Кризис памяти

Автор - Максат Камысов

В конце 2025 года новостную повестку заполонили сообщения о глобальном кризисе оперативной памяти: в заголовках все чаще начали появляться аббревиатуры DRAM и HBM, а в их недостатке и закономерном росте цен на устройства, использующие оперативную память – от мелкой бытовой техники до высокотехнологичной продукции, обвинили компании, разрабатывающие модели генеративного искусственного интеллекта (ИИ).

Бурное развитие отрасли привело к тому, что спрос на память к концу прошлого года начал расти значительно быстрее и превысил предложение, в связи с чем производственные мощности полупроводниковой индустрии не успели адаптироваться и даже будущие поставки памяти оказались забронированы ИИ-гигантами для обеспечения потребностей святая святых своих моделей – центров обработки данных.

Однако не для всех этот кризис, который продолжается и по сей день, стал сюрпризом: отраслевые аналитики предупреждали о грядущей нехватке памяти, поскольку стремительный прогресс в области ИИ и демократизация технологии – рост ее доступности и активное внедрение в повседневную жизнь – требуют значительного расширения инфраструктуры, которая в свою очередь напрямую зависит от объемов доступной памяти. Так в момент наибольшего технологического ускорения индустрия генеративного ИИ столкнулась с материальным ограничением – физической инфраструктурой хранения данных.

Сложился технологический дисбаланс, где по одну сторону оказались новые алгоритмы и архитектуры вычислений, существенно усиливающие ИИ, а по другую – гораздо более медленно меняющаяся материальная база цифровой инфраструктуры: заводы по производству памяти, энергосистемы, охлаждение дата-центров и глобальные цепочки поставок полупроводников.

Восьмибитная аналоговая память для работы с нейросетями

В определенном смысле случившееся приземлило ИИ-энтузиастов, указав им на то, что развитие любых цифровых амбиций в конечном итоге все равно полагается на кремний, электричество и пространство внутри серверных стоек. Как отмечалось выше, эксперты говорили об этом и ранее, но кризис памяти спровоцировал более глобальное обсуждение вокруг ИИ и сместил фокус с алгоритмов в сторону инфраструктуры: архитектуры памяти, распределения дата-центров по миру и глобальной борьбы за вычислительные ресурсы, без которых следующая волна технологического прогресса может оказаться гораздо медленнее, чем многие ожидают.

Разнообразие памяти

Современные вычислительные системы, особенно ориентированные на задачи искусственного интеллекта, опираются на сложную иерархию памяти, в которой определенные ее типы выполняют строго отведенные им функции – все зависит от ряда параметров, среди которых скорость, стоимость, энергопотребление, емкость и другие. В условиях роста моделей ИИ различия между этими типами памяти начинают напрямую определять архитектуру вычислений и ограничения инфраструктуры. По сути, эффективность работы любой ИИ-модели сегодня зависит не только от вычислительной мощности, но и от того, как организовано движение данных между уровнями памяти. Остановимся на основных видах памяти подробнее.

На верхнем уровне этой иерархии находится SRAM (Static Random Access Memory, статическая память с произвольным доступом) – это самый быстрый, но в то же время самый дорогой вид памяти. Она используется непосредственно внутри процессоров и графических ускорителей в виде кэша. Этот вид памяти характеризуется минимальными задержками доступа – порядка 1–5 наносекунд, а также крайне высокой пропускной способностью, которая может достигать десятков терабайт в секунду на уровне чипа.

К недостаткам SRAM относятся высокая стоимость и низкая плотность, что ограничивает ее объемы и возможности масштабирования. В области ИИ SRAM критически важна для хранения часто используемых данных и ускорения операций с матрицами и тензорами. В архитектурах GPU (Graphics Processing Unit, графический процессор), разрабатываемых, например, NVIDIA, именно эффективное использование кэш-памяти во многом определяет итоговую производительность.

GPU (Graphics Processing Unit) — это специализированный вычислительный процессор, который стал центральным элементом инфраструктуры искусственного интеллекта. Изначально GPU разрабатывались для обработки графики (рендеринг изображений, 3D-сцен), но их архитектура оказалась идеально подходящей для задач машинного обучения. В отличие от CPU (Central Processing Unit, центральный процессор), который оптимизирован для последовательных операций, GPU способен выполнять тысячи параллельных вычислений одновременно. Это делает его особенно эффективным для операций линейной алгебры – умножения матриц и работы с тензорами, которые лежат в основе нейронных сетей. GPU активно используются в обучении и выводе моделей, а также при обработке больших массивов данных.

Следующий уровень иерархии – это HBM (High Bandwidth Memory, высокопропускная память), которая также считается ключевым компонентом инфраструктуры ИИ. Этот вид памяти использует трехмерную компоновку и размещается максимально близко к вычислительным чипам, что позволяет достигать пропускной способности до 3–4 ТБ/с на один ускоритель, а в новых поколениях – до 5 ТБ/с и выше. Объем HBM на одном GPU обычно составляет от 80 до 192 ГБ. Именно HBM используется при обучении и выводе крупных моделей, когда необходимо быстро обрабатывать огромные массивы данных.

Например, ускорители NVIDIA H100 оснащаются десятками гигабайт HBM, а в крупных вычислительных кластерах суммарный объем такой памяти достигает десятков терабайт. При этом высокая стоимость и сложность производства делают HBM дефицитным ресурсом, который уже сегодня ограничивает масштабирование ИИ-систем.

В то же время базовый уровень памяти представлен DRAM (Dynamic random access memory, динамическая память с произвольным доступом), включая современные стандарты DDR4 и DDR5. Этот вид памяти обеспечивает задержки порядка 50–100 наносекунд и пропускную способность до 50–100 ГБ/с на модуль. В серверах объем DRAM может достигать от сотен гигабайт до нескольких терабайт.

Эта память используется для хранения активных данных, выполнения задач на CPU и обеспечения взаимодействия между компонентами системы. В инфраструктуре ИИ DRAM играет роль основной рабочей памяти вне GPU: например, сервер для обучения моделей может содержать от 512 ГБ до 2 ТБ DRAM. Ее преимущества – универсальность и сравнительно низкая стоимость, однако по пропускной способности она существенно уступает HBM, что ограничивает ее эффективность в наиболее ресурсоемких вычислениях.

Отдельную категорию представляет LPDDR (Low Power DRAM, энергоэффективная динамическая память с произвольным доступом), ориентированная на пониженное потребление энергии. Пропускная способность LPDDR5 составляет примерно 30–60 ГБ/с, что существенно ниже, чем у обыкновенной DRAM, однако при этом ее энергопотребление значительно ниже. Этот вид памяти изначально разрабатывался для мобильных устройств, однако в текущих условиях его все чаще используют в периферийных вычислениях и ИИ-системах. Например, современные смартфоны с поддержкой локального ИИ оснащаются 8–16 ГБ LPDDR5. Основной компромисс заключается в том, что снижение энергопотребления достигается за счет ограничений по производительности, что делает LPDDR менее подходящей для крупных дата-центров.

На нижнем уровне иерархии находится NAND-память (флэш-память), используемая в твердотельных накопителях. В отличие от оперативной памяти, она обладает значительно большей задержкой на уровне десятков или сотен микросекунд и пропускной способностью порядка 3–7 ГБ/с. Однако она обеспечивает высокую плотность хранения и низкую стоимость на единицу объема. В системах ИИ NAND используется для хранения обучающих выборок, которые могут достигать сотен терабайт, а также для кэширования и разгрузки оперативной памяти. Несмотря на ключевую роль в хранении данных, NAND не подходит для выполнения вычислений из-за высокой задержки.

Также стоит отметить, что между DRAM и NAND постепенно формируется промежуточный слой – так называемая Storage-class Memory и высокоскоростные SSD. Эти решения направлены на сокращение разрыва между оперативной и долговременной памятью и уже используются для ускорения использования моделей и обработки больших массивов данных. Они позволяют частично компенсировать дефицит DRAM, однако пока не способны полностью заменить ее.

В перспективе также рассматриваются новые типы памяти – MRAM, ReRAM и PCM, которые могут объединить преимущества различных уровней иерархии. Такие технологии обещают обеспечить скорость, близкую к DRAM, при сохранении данных без питания и более высокой плотности хранения. Например, экспериментальные решения MRAM демонстрируют задержки порядка 10 наносекунд. Однако высокая стоимость и технологическая сложность пока ограничивают их массовое внедрение.

На практике для работы ИИ-моделей необходимы все типы памяти. При обучении большой модели данные хранятся в NAND, загружаются в DRAM, затем передаются в HBM для обработки на GPU, а наиболее часто используемые элементы кэшируются в SRAM. Все это формирует архитектуру данных, которая позволяет эффективно распределять нагрузку посредством сложной системы зависимостей, однако, как и во всякой сложной системе, недостаток одного компонента может спровоцировать сбой работы всей системы.

Причины кризиса

Итак, для отраслевых экспертов кризис не стал неожиданностью, поскольку он представляет собой не «сбой системы», а скорее закономерное следствие ряда долгосрочных технологических, экономических и структурных тенденций – того, как развивались технологии ИИ, полупроводниковая индустрия и глобальная инфраструктура в последние 10–15 лет.

Вы можете дочитать этот и другие материалы сайта, оформив подписку.

Оформить подписку Я уже подписчик