Позитивные события здесь и сейчас

Google обещает ускорить ИИ (но память всё равно подорожает)

Содержание

    TurboQuant

    Весной 2026 года исследовательское подразделение Google представило алгоритм TurboQuant — решение, нацеленное на резкое снижение требований к оперативной памяти при работе систем искусственного интеллекта. Заявленные показатели выглядят впечатляюще: сокращение объёма KV-кэша как минимум в шесть раз и ускорение вычислений до восьми раз без заметной потери точности.

    Рынок отреагировал мгновенно. Акции крупнейших производителей памяти за считанные дни пошли вниз: инвесторы увидели в новой технологии потенциальную угрозу спросу на микросхемы. Особенно заметно просели бумаги компаний Micron и SanDisk. Samsung и SK Hynix также зафиксировали снижение капитализации. Однако уже вскоре стало ясно, что столь резкая реакция носит скорее эмоциональный характер. Фундаментальные факторы спроса на память в индустрии искусственного интеллекта остаются прежними, а сама технология пока не вышла за пределы лабораторных испытаний.

    Как работает TurboQuant

    Чтобы понять значение TurboQuant, необходимо разобраться в природе проблемы, которую он решает. Современные языковые модели обрабатывают текст последовательно, сохраняя промежуточные вычисления в специальной области памяти — KV-кэше. Именно он позволяет системе не пересчитывать весь контекст заново при генерации каждого следующего фрагмента текста. С увеличением длины диалога или документа объём этого кэша растёт линейно. В результате нагрузка смещается с вычислительных блоков на память и её пропускную способность. Графические ускорители начинают простаивать в ожидании данных, что увеличивает задержки и стоимость обработки запросов. На практике это означает, что ограничением для масштабирования ИИ всё чаще становится не мощность процессоров, а доступ к памяти. Именно эту проблему и пытается решить новая разработка Google.

    В основе TurboQuant лежит подход, при котором данные сжимаются с учётом их дальнейшего использования в механизме внимания. Алгоритм реализован в два этапа, каждый из которых выполняет свою функцию. Сначала применяется метод PolarQuant. Векторы данных предварительно подвергаются случайному преобразованию, после чего переводятся в полярную систему координат. Это позволяет сделать их структуру более предсказуемой и устранить необходимость хранения дополнительных параметров, которые обычно сопровождают процедуры сжатия. В результате удаётся сохранить ключевую информацию о данных при существенном уменьшении их объёма. На втором этапе подключается механизм коррекции ошибок, основанный на преобразовании Джонсона–Линденштраусса. Он кодирует остаточные погрешности всего одним битом на значение, при этом сохраняя расстояния между векторами. Это критически важно для корректной работы механизма внимания, который опирается на сравнение таких представлений.

    Комбинация этих методов позволяет добиться высокой степени сжатия без заметного ухудшения качества работы модели.

    А попроще?

    Представьте, что вы пишете длинный рассказ и каждый раз, когда добавляете новое предложение, вам нужно перечитать весь предыдущий текст, чтобы не запутаться. Языковые модели работают похоже, но у них есть специальная «записная книжка» — KV‑кэш. В неё записываются промежуточные результаты, благодаря чему модели не приходится заново «перечитывать» весь текст при генерации каждого следующего фрагмента. Однако с ростом длины диалога или документа эта «записная книжка» начинает стремительно увеличиваться в объёме. В результате возникает дисбаланс: вычислительные блоки компьютера готовы работать быстро, но вынуждены простаивать в ожидании, пока нужные данные подгрузятся из памяти. Из‑за этого растут задержки в обработке запросов, а вместе с ними — и стоимость вычислений. Получается парадоксальная ситуация: развитие ИИ сдерживает не недостаток вычислительной мощности, а ограничения по объёму и скорости работы памяти.

    TurboQuant помогает «сжать» упомянутую «записную книжку», чтобы она занимала меньше места. При этом модель не теряет в качестве ответов: она по‑прежнему понимает контекст и выдаёт осмысленные результаты.

    Результаты и ограничения

    Согласно опубликованным данным, TurboQuant способен снизить разрядность представления данных до трёх бит на значение без дополнительного обучения моделей. Это существенно ниже традиционных показателей, при которых подобные уровни сжатия обычно требуют дообучения. Тестирование на задачах с длинным контекстом, включая поиск отдельных фактов в больших массивах текста, показало минимальную деградацию качества. Одновременно уменьшение объёма данных приводит к ускорению работы за счёт снижения нагрузки на память.

    Тем не менее технология имеет важное ограничение: она применяется только на этапе инференса, то есть при использовании уже обученных моделей. Процесс обучения, который остаётся одним из самых ресурсоёмких этапов, по-прежнему требует значительных объёмов памяти и вычислительных мощностей.

    Несмотря на первоначальную реакцию инвесторов, представители индустрии памяти быстро обозначили более сдержанную позицию. В частности, руководство SK Hynix указало, что повышение эффективности использования памяти не снижает, а, напротив, стимулирует спрос. Этот эффект объясняется экономическим механизмом: удешевление вычислений делает технологии искусственного интеллекта доступнее, что приводит к росту числа пользователей и сценариев применения. В результате общий объём потребления ресурсов продолжает увеличиваться.

    Кроме того, оптимизация KV-кэша открывает возможность работы с более длинными контекстами. Это, в свою очередь, увеличивает объём данных, обрабатываемых системой, и снова приводит к росту нагрузки на инфраструктуру.

    Развитие искусственного интеллекта всё чаще определяется не только архитектурой моделей, но и эффективностью их реализации. Такие технологии способны снизить цену обработки одного запроса и увеличить пропускную способность систем. Это открывает путь к более широкому внедрению ИИ в коммерческие продукты и пользовательские сервисы. При этом говорить о радикальном снижении цен на оборудование преждевременно. Скорее, речь идёт о перераспределении ресурсов и дальнейшем росте рынка, чем о его сокращении.

    Если заявленные характеристики подтвердятся в промышленной эксплуатации, подобные методы могут стать стандартом для систем инференса в ближайшие годы. Однако их влияние на рынок оборудования будет гораздо сложнее, чем предполагала первая реакция инвесторов. Вместо снижения спроса индустрия, вероятно, столкнётся с новым витком роста, где эффективность станет не заменой ресурсов, а катализатором их ещё более активного использования.


    29 просмотров · 04.05.2026


    технологии ИИ, google, сжатие данных, искусственный интеллект, рынок памяти, KVкэш, оперативная память, инференс, ии, языковые модели, оптимизация, TurboQuant


    Чтобы оставить комментарий, авторизируйтесь через соцсети: