Без паники

Искусственный интеллект без программирования

Содержание

    Прорыв из Торонто

    Канадский стартап Taalas, базирующийся в Торонто, представил инновационное решение для рынка вычислительных мощностей для ИИ. Компания вышла с продуктом, который выглядит как вызов устоявшимся лидерам отрасли — Nvidia, Cerebras и другим. Речь идёт о чипе HC1 — специализированном решении, где модель искусственного интеллекта не загружается в виде программы, а буквально «впаяна» в архитектуру кремниевого чипа. В основе первого продукта лежит нейросеть Llama 3.1 8B. Такой подход позволяет достичь впечатляющих показателей производительности и энергоэффективности.

    Физика вместо программ

    Ключевое отличие HC1 от традиционных решений (GPU, CPU, универсальных ASIC) — отсутствие необходимости загружать модель в память при запуске. Нейронная сеть не существует как программный код или набор данных: её структура и веса физически воплощены в архитектуре чипа на этапе производства. Реализация этого подхода начинается с того, что параметры модели — веса связей между нейронами — фиксируются на уровне полупроводниковой структуры. Достигается это путём изменения конфигурации металлических слоёв в кристалле. Из более чем 100 слоёв микросхемы изменяются только два верхних металлических слоя. Именно в них встраивается специальная структура — mask ROM recall fabric, где и хранятся веса модели. В результате чип может выполнять вычисления только для той нейросети, которая была «впаяна» при производстве: запуск другой модели невозможен без создания нового чипа.

    МикросхемаHC1 построен на принципах объединения памяти и вычислений в одном кристалле. В традиционных GPU требуется подключение к высокоскоростной памяти HBM (High Bandwidth Memory) для хранения весов модели и промежуточных результатов вычислений. В случае с HC1 такая необходимость полностью отпадает — все нужные данные уже находятся внутри чипа. Это устраняет значительные задержки, которые в классических системах возникают из‑за перемещения данных между процессором и памятью.

    Высокая энергоэффективность чипа (потребление около 250Вт) позволяет обойтись воздушным охлаждением. В отличие от мощных GPU, здесь не нужны сложные системы жидкостного охлаждения. Объединение памяти и вычислений на одном кристалле не только ускоряет обработку данных, но и снижает энергозатраты — чип не тратит ресурсы на поддержание работы внешних компонентов.

    Производство чипа организовано на мощностях TSMC по 6‑нанометровому техпроцессу. Всё начинается с проектирования специальной фотомаски для двух верхних металлических слоёв, где будут размещены веса модели Llama 3.1 8B. Затем с помощью фотолитографии на кремниевую пластину наносится конфигурация, соответствующая архитектуре нейросети. На следующем этапе в верхние слои встраивается структура mask ROM recall fabric. Она содержит постоянные веса модели, которые не могут быть изменены после производства. После завершения этих операций проводится тщательное тестирование: проверяется корректность работы всей системы и соответствие вычислений ожидаемым результатам для Llama 3.1 8B.

    Важное преимущество такого подхода — скорость производства. Готовый чип выпускается за два месяца, тогда как изготовление обычных ИИ‑процессоров обычно занимает шесть месяцев. Сокращение сроков достигается за счёт минимизации изменений в структуре чипа: модифицируются лишь два слоя, а не вся архитектура целиком.

    Вычисления в реальном времени

    Когда чип получает запрос на генерацию текста — например, через демо‑чат chatjimmy.ai — запускается чётко отлаженный процесс. Сначала на вход подаётся текстовый запрос (промпт), который преобразуется в числовой формат, понятный модели. Затем сигналы проходят через слои транзисторов, конфигурация которых соответствует архитектуре Llama 3.1 8B. Каждый транзистор выполняет свою часть вычислений согласно «зашитым» весам, что позволяет обрабатывать данные максимально эффективно. Чип последовательно генерирует токены — части слов или целые слова — со скоростью до 17000 токенов в секунду. Такая высокая производительность обеспечивается несколькими факторами. Во‑первых, отсутствуют задержки на чтение из внешней памяти: все данные уже находятся в чипе. Во‑вторых, вычисления выполняются параллельно на множестве транзисторов. В‑третьих, архитектура оптимизирована под конкретную модель, что исключает лишние операции и упрощает маршрут обработки данных.

    Сгенерированный текст передаётся обратно в систему для отображения пользователю. Задержка между отправкой запроса и получением ответа становится практически незаметной — это особенно важно для задач, требующих мгновенной реакции, например, голосовых ассистентов или чат‑ботов поддержки.

    Ограничения

    Технология Hard Coded Inference (HCI) имеет ряд особенностей, влияющих на её применимость. Для размещения модели в кремнии веса могут быть сжаты до 3–6 бит — этот процесс называется агрессивной квантизацией. Такое сжатие снижает точность вычислений по сравнению с 16‑ или 32‑битными представлениями на GPU. На простых задачах разница в качестве ответов почти не заметна, но при решении сложных логических задач или обработке узкоспециализированных запросов результаты могут оказаться менее точными.

    МикросхемаОтсутствие гибкости — ещё один существенный компромисс. Чип нельзя перепрограммировать под другую модель: для обновления нейросети (например, перехода на Llama 4.0) потребуется производство нового чипа с нуля. Это делает решение менее подходящим для исследовательских задач, где важна возможность быстро тестировать разные архитектуры.

    Для работы с нейросетями масштаба DeepSeek‑R1 (671 млрд параметров) потребуется кластер из десятков чипов HC1. Синхронизация между ними может частично нивелировать преимущества по энергопотреблению и скорости — затраты на обмен данными между чипами возрастают, а общая эффективность системы снижается.

    При этом чип поддерживает ограниченную гибкость через LoRA‑адаптеры. Эти небольшие модули позволяют настраивать поведение модели без изменения основной архитектуры — например, адаптировать её под специфический стиль общения или отраслевую терминологию. Такой подход даёт возможность вносить локальные улучшения, не теряя преимуществ жёсткой интеграции модели в кремний.

    Сравнение с традиционными подходами

    В отличие от GPU, где модель загружается в память динамически и может меняться от задачи к задаче, HC1 предлагает принципиально иной подход. Здесь вся логика «заморожена» в кремнии: вычисления выполняются по заранее заданному маршруту, без необходимости считывать веса из внешней памяти или реконфигурировать вычислительные блоки. Это радикально упрощает процесс обработки данных и позволяет достичь рекордных показателей скорости — до 17000 токенов в секунду против 230–300 у топовых GPU в аналогичных условиях.

    Экономические показатели также говорят в пользу нового решения. Стоимость генерации 1 миллиона токенов на HC1 составляет всего 0,75 цента, тогда как на классических GPU этот показатель варьируется от 20 до 49 центов. Снижение энергопотребления в 10 раз и сокращение сроков производства до двух месяцев делают технологию привлекательной для задач массового инференса — там, где требуется обрабатывать миллионы однотипных запросов с минимальными задержками и затратами.

    Результаты первых тестов чипа HC1 выглядят феноменально. Устройство генерирует до 17000 токенов в секунду для одного пользователя. Для сравнения:

    • HC1 — около 17000 токенов/сек;
    • Cerebras — около 2000 токенов/сек;
    • SambaNova — около 900 токенов/сек;
    • Groq — примерно 600 токенов/сек;
    • NVIDIA Blackwell — порядка 350 токенов/сек.

    Команда Taalas

    Основатель Taalas — Любиша Байич, опытный специалист в области полупроводников. Ранее он возглавлял компанию Tenstorrent, а до этого занимал должность директора по проектированию интегральных схем в AMD. Вместе с ним стартап запустили Лейла Байич (экс‑AMD, экс‑ATI) и Драго Игнятович (экс‑AMD, экс‑Tenstorrent).

    Уход Байича из Tenstorrent произошёл после прихода туда легендарного чип‑дизайнера Джима Келлера на пост CEO. Спустя полгода Байич начал строить Taalas с принципиально новой концепцией — тотальной специализацией оборудования под конкретные алгоритмы.

    Где это пригодится?

    Главный недостаток подхода Taalas — отсутствие гибкости. Поскольку модель «зашита» в железо, на таком чипе невозможно запустить другой алгоритм. Однако в ряде сценариев это становится преимуществом:

    • Edge‑устройства. Датчики, камеры, терминалы, где важна автономность, низкое энергопотребление и работа офлайн.
    • Массовый инференс. Дешёвое и быстрое выполнение одной и той же модели для миллионов запросов — например, чат‑бот поддержки или модерация контента.
    • Специализированные решения. Медицина, промышленность, логистика — области, где модель стабильна, требования к задержкам жёсткие, а изменения вносятся редко.

    Компания уже привлекла более 200 миллионов долларов инвестиций, включая 169 миллионов от Quiet Capital, Fidelity и полупроводникового ветерана Пьера Ламонда. Пока потрачено лишь 30 миллионов — на зарплаты 24 сотрудникам и разработку.

    Ближайшие планы Taalas амбициозны. Весной ожидается выпуск следующего чипа на платформе HC1 — с рассуждающей моделью среднего размера. Уже к зиме на платформе второго поколения HC2 планируется запуск передовой LLM.

    Taalas не стремится заменить универсальные GPU — они по‑прежнему незаменимы для обучения моделей и экспериментов с новыми архитектурами. Но стартап показал, что есть огромный потенциал для оптимизации инференса — этапа, когда готовая модель уже используется для генерации ответов. Если подход Taalas удастся масштабировать на большие модели, это может радикально изменить экономику ИИ‑сервисов. Дешёвый и быстрый инференс откроет дорогу новым приложениям, которые сегодня просто невозможны из‑за высокой стоимости вычислений. В перспективе это может привести к появлению ИИ‑агентов, действующих в реальном времени без заметных задержек.


    Подготовлено по материалам с сайта: https://habr.com/ru/news/1001808/


    14 просмотров · 20.03.2026


    технологии, Чип, Llama, HC1, ии, нейросети, стартап, Taalas, вычисления, Полупроводники, искусственный интеллект, инференс


    Чтобы оставить комментарий, авторизируйтесь через соцсети: