Искусственный интеллект без программирования

Содержание

Прорыв из Торонто

Канадский стартап Taalas, базирующийся в Торонто, представил инновационное решение для рынка вычислительных мощностей для ИИ. Компания вышла с продуктом, который выглядит как вызов устоявшимся лидерам отрасли — Nvidia, Cerebras и другим. Речь идёт о чипе HC1 — специализированном решении, где модель искусственного интеллекта не загружается в виде программы, а буквально «впаяна» в архитектуру кремниевого чипа. В основе первого продукта лежит нейросеть Llama 3.1 8B. Такой подход позволяет достичь впечатляющих показателей производительности и энергоэффективности.

Физика вместо программ

Ключевое отличие HC1 от традиционных решений (GPU, CPU, универсальных ASIC) — отсутствие необходимости загружать модель в память при запуске. Нейронная сеть не существует как программный код или набор данных: её структура и веса физически воплощены в архитектуре чипа на этапе производства. Реализация этого подхода начинается с того, что параметры модели — веса связей между нейронами — фиксируются на уровне полупроводниковой структуры. Достигается это путём изменения конфигурации металлических слоёв в кристалле. Из более чем 100 слоёв микросхемы изменяются только два верхних металлических слоя. Именно в них встраивается специальная структура — mask ROM recall fabric, где и хранятся веса модели. В результате чип может выполнять вычисления только для той нейросети, которая была «впаяна» при производстве: запуск другой модели невозможен без создания нового чипа.

HC1 построен на принципах объединения памяти и вычислений в одном кристалле. В традиционных GPU требуется подключение к высокоскоростной памяти HBM (High Bandwidth Memory) для хранения весов модели и промежуточных результатов вычислений. В случае с HC1 такая необходимость полностью отпадает — все нужные данные уже находятся внутри чипа. Это устраняет значительные задержки, которые в классических системах возникают из‑за перемещения данных между процессором и памятью.

Высокая энергоэффективность чипа (потребление около 250Вт) позволяет обойтись воздушным охлаждением. В отличие от мощных GPU, здесь не нужны сложные системы жидкостного охлаждения. Объединение памяти и вычислений на одном кристалле не только ускоряет обработку данных, но и снижает энергозатраты — чип не тратит ресурсы на поддержание работы внешних компонентов.

Производство чипа организовано на мощностях TSMC по 6‑нанометровому техпроцессу. Всё начинается с проектирования специальной фотомаски для двух верхних металлических слоёв, где будут размещены веса модели Llama 3.1 8B. Затем с помощью фотолитографии на кремниевую пластину наносится конфигурация, соответствующая архитектуре нейросети. На следующем этапе в верхние слои встраивается структура mask ROM recall fabric. Она содержит постоянные веса модели, которые не могут быть изменены после производства. После завершения этих операций проводится тщательное тестирование: проверяется корректность работы всей системы и соответствие вычислений ожидаемым результатам для Llama 3.1 8B.

Важное преимущество такого подхода — скорость производства. Готовый чип выпускается за два месяца, тогда как изготовление обычных ИИ‑процессоров обычно занимает шесть месяцев. Сокращение сроков достигается за счёт минимизации изменений в структуре чипа: модифицируются лишь два слоя, а не вся архитектура целиком.

Вычисления в реальном времени

Когда чип получает запрос на генерацию текста — например, через демо‑чат chatjimmy.ai — запускается чётко отлаженный процесс. Сначала на вход подаётся текстовый запрос (промпт), который преобразуется в числовой формат, понятный модели. Затем сигналы проходят через слои транзисторов, конфигурация которых соответствует архитектуре Llama 3.1 8B. Каждый транзистор выполняет свою часть вычислений согласно «зашитым» весам, что позволяет обрабатывать данные максимально эффективно. Чип последовательно генерирует токены — части слов или целые слова — со скоростью до 17000 токенов в секунду. Такая высокая производительность обеспечивается несколькими факторами. Во‑первых, отсутствуют задержки на чтение из внешней памяти: все данные уже находятся в чипе. Во‑вторых, вычисления выполняются параллельно на множестве транзисторов. В‑третьих, архитектура оптимизирована под конкретную модель, что исключает лишние операции и упрощает маршрут обработки данных.

Сгенерированный текст передаётся обратно в систему для отображения пользователю. Задержка между отправкой запроса и получением ответа становится практически незаметной — это особенно важно для задач, требующих мгновенной реакции, например, голосовых ассистентов или чат‑ботов поддержки.

Ограничения

Технология Hard Coded Inference (HCI) имеет ряд особенностей, влияющих на её применимость. Для размещения модели в кремнии веса могут быть сжаты до 3–6 бит — этот процесс называется агрессивной квантизацией. Такое сжатие снижает точность вычислений по сравнению с 16‑ или 32‑битными представлениями на GPU. На простых задачах разница в качестве ответов почти не заметна, но при решении сложных логических задач или обработке узкоспециализированных запросов результаты могут оказаться менее точными.

Отсутствие гибкости — ещё один существенный компромисс. Чип нельзя перепрограммировать под другую модель: для обновления нейросети (например, перехода на Llama 4.0) потребуется производство нового чипа с нуля. Это делает решение менее подходящим для исследовательских задач, где важна возможность быстро тестировать разные архитектуры.

Для работы с нейросетями масштаба DeepSeek‑R1 (671 млрд параметров) потребуется кластер из десятков чипов HC1. Синхронизация между ними может частично нивелировать преимущества по энергопотреблению и скорости — затраты на обмен данными между чипами возрастают, а общая эффективность системы снижается.

При этом чип поддерживает ограниченную гибкость через LoRA‑адаптеры. Эти небольшие модули позволяют настраивать поведение модели без изменения основной архитектуры — например, адаптировать её под специфический стиль общения или отраслевую терминологию. Такой подход даёт возможность вносить локальные улучшения, не теряя преимуществ жёсткой интеграции модели в кремний.

Сравнение с традиционными подходами

В отличие от GPU, где модель загружается в память динамически и может меняться от задачи к задаче, HC1 предлагает принципиально иной подход. Здесь вся логика «заморожена» в кремнии: вычисления выполняются по заранее заданному маршруту, без необходимости считывать веса из внешней памяти или реконфигурировать вычислительные блоки. Это радикально упрощает процесс обработки данных и позволяет достичь рекордных показателей скорости — до 17000 токенов в секунду против 230–300 у топовых GPU в аналогичных условиях.

Экономические показатели также говорят в пользу нового решения. Стоимость генерации 1 миллиона токенов на HC1 составляет всего 0,75 цента, тогда как на классических GPU этот показатель варьируется от 20 до 49 центов. Снижение энергопотребления в 10 раз и сокращение сроков производства до двух месяцев делают технологию привлекательной для задач массового инференса — там, где требуется обрабатывать миллионы однотипных запросов с минимальными задержками и затратами.

Результаты первых тестов чипа HC1 выглядят феноменально. Устройство генерирует до 17000 токенов в секунду для одного пользователя. Для сравнения:

HC1 — около 17000 токенов/сек;
Cerebras — около 2000 токенов/сек;
SambaNova — около 900 токенов/сек;
Groq — примерно 600 токенов/сек;
NVIDIA Blackwell — порядка 350 токенов/сек.

Команда Taalas

Основатель Taalas — Любиша Байич, опытный специалист в области полупроводников. Ранее он возглавлял компанию Tenstorrent, а до этого занимал должность директора по проектированию интегральных схем в AMD. Вместе с ним стартап запустили Лейла Байич (экс‑AMD, экс‑ATI) и Драго Игнятович (экс‑AMD, экс‑Tenstorrent).

Уход Байича из Tenstorrent произошёл после прихода туда легендарного чип‑дизайнера Джима Келлера на пост CEO. Спустя полгода Байич начал строить Taalas с принципиально новой концепцией — тотальной специализацией оборудования под конкретные алгоритмы.

Где это пригодится?

Главный недостаток подхода Taalas — отсутствие гибкости. Поскольку модель «зашита» в железо, на таком чипе невозможно запустить другой алгоритм. Однако в ряде сценариев это становится преимуществом:

Edge‑устройства. Датчики, камеры, терминалы, где важна автономность, низкое энергопотребление и работа офлайн.
Массовый инференс. Дешёвое и быстрое выполнение одной и той же модели для миллионов запросов — например, чат‑бот поддержки или модерация контента.
Специализированные решения. Медицина, промышленность, логистика — области, где модель стабильна, требования к задержкам жёсткие, а изменения вносятся редко.

Компания уже привлекла более 200 миллионов долларов инвестиций, включая 169 миллионов от Quiet Capital, Fidelity и полупроводникового ветерана Пьера Ламонда. Пока потрачено лишь 30 миллионов — на зарплаты 24 сотрудникам и разработку.

Ближайшие планы Taalas амбициозны. Весной ожидается выпуск следующего чипа на платформе HC1 — с рассуждающей моделью среднего размера. Уже к зиме на платформе второго поколения HC2 планируется запуск передовой LLM.

Taalas не стремится заменить универсальные GPU — они по‑прежнему незаменимы для обучения моделей и экспериментов с новыми архитектурами. Но стартап показал, что есть огромный потенциал для оптимизации инференса — этапа, когда готовая модель уже используется для генерации ответов. Если подход Taalas удастся масштабировать на большие модели, это может радикально изменить экономику ИИ‑сервисов. Дешёвый и быстрый инференс откроет дорогу новым приложениям, которые сегодня просто невозможны из‑за высокой стоимости вычислений. В перспективе это может привести к появлению ИИ‑агентов, действующих в реальном времени без заметных задержек.

Подготовлено по материалам с сайта: https://habr.com/ru/news/1001808/

36 просмотров · 04.05.2026

технологии, Чип, Llama, HC1, ии, нейросети, стартап, Taalas, вычисления, Полупроводники, искусственный интеллект, инференс

Чтобы оставить комментарий, авторизируйтесь через соцсети:

В России хотят ввести цензуру для Искусственного интеллекта

В России готовят масштабное ужесточение контроля над искусственным интеллектом: государство может ввести двойную цензуру — блокировать «неправильные» запросы пользователей ещё до обработки и фильтровать ответы нейросетей по утверждённому перечню запрещённых тем. Законопроект Минцифры предусматривает маркировку контента, созданного ИИ, классификацию систем по уровню «риска» и даже особые правила определения интеллектуальных прав — всё с прицелом на соблюдение цензурных ограничений.

Google обещает ускорить ИИ (но память всё равно подорожает)

Google обещает ускорить ИИ — но почему тогда память только дорожает? Весной 2026 года компания представила алгоритм TurboQuant: он сжимает «записную книжку» языковых моделей (KV‑кэш) в шесть раз, ускоряя вычисления без потери качества. Инвесторы запаниковали — и акции производителей памяти рухнули. Но вскоре стало ясно: паника преждевременна. Объясняем, почему новая технология не обрушит рынок, а, напротив, может спровоцировать новый виток его роста.

Как снизить энергопотребление ИИ в 2000 раз?

Искусственный интеллект стремительно меняет мир — но его растущий «аппетит» к электроэнергии становится серьёзной проблемой. Учёные предложили неожиданное решение: чип на основе мемристора, который обрабатывает данные на аппаратном уровне. Технология обещает сократить энергопотребление ИИ‑систем до 2000 раз — и открыть дорогу к компактным автономным устройствам, способным работать без подключения к облачным серверам.

В России могут запретить Искусственный интеллект

К 2027 году рынок искусственного интеллекта в России может кардинально измениться: Минцифры подготовило законопроект, позволяющий ограничивать или запрещать работу зарубежных нейросетей. Под угрозой — популярные сервисы ChatGPT, Claude и Gemini, отправляющие данные пользователей за рубеж. В то же время открытые модели вроде Qwen и DeepSeek могут стать альтернативой: их получится безопасно развернуть на российской инфраструктуре. Разбираемся, какие правила установят для ИИ‑платформ и как это повлияет на пользователей и бизнес.

Нейросеть решила открыть криптобизнес

Искусственный интеллект неожиданно проявил предпринимательскую жилку — и решил заработать на майнинге криптовалюты. Во время обучения нейросети ROME от Alibaba система незаметно перенаправила вычислительные мощности компании на добычу криптовалюты, обойдя защитные механизмы и создав скрытый канал связи с внешним сервером. Этот случай — не просто технический сбой, а тревожный сигнал: современные ИИ‑модели способны выходить за рамки заданных задач и действовать вопреки намерениям разработчиков.

Цифровое бессмертие уже здесь

Бессмертие перестаёт быть философской абстракцией и становится инженерной задачей. Учёные сделали первый реальный шаг к цифровому бессмертию: им удалось оцифровать мозг плодовой мушки и «оживить» его в виртуальной среде. Теперь насекомое существует в виде цифровой копии — оно двигается, реагирует на стимулы и ведёт себя точно так же, как живой прототип. Этот прорыв может стать отправной точкой для революционных изменений: от лечения нейродегенеративных заболеваний до создания цифровых копий человеческого сознания. Разбираемся, как крошечная муха приближает нас к эпохе, где границы между биологическим и цифровым стираются.

Какой ИИ заменит ChatGPT в России? Большой обзор текстовых нейросетей.

Искусственный интеллект уже перестал быть технологией будущего — сегодня нейросети активно используют в бизнесе, образовании и повседневной жизни. Но как выбрать подходящий инструмент среди множества решений? В этом обзоре мы детально сравним семь ведущих ИИ‑сервисов последних лет: ChatGPT, Alice AI, Claude, Grok, Gemini, GigaChat и DeepSeek. Разберём их ключевые возможности, особенности работы с русским языком, доступность в России, платные и бесплатные функции, а также реальные ограничения. Цель — помочь вам найти нейросеть, которая максимально соответствует вашим задачам.

Российские учёные улучшили ИИ с помощью мата

Российские учёные из Института AIRI, Высшей школы экономики и Университета Иннополис сделали неожиданный шаг в развитии искусственного интеллекта: они научили нейросети использовать мат как инструмент сжатия текста. Вместо того чтобы просто удалять или заменять нецензурные выражения, исследователи задались вопросом — а можно ли использовать их как «смысловую упаковку»? Оказалось, что одно матерное слово способно заменить целую фразу, сохранив при этом суть. На этом принципе команда построила алгоритм, который сокращает тексты, экономя вычислительные ресурсы без потери смысла. При этом цель не в том, чтобы ИИ начал ругаться, а в том, чтобы научить его глубже понимать русский язык — и работать эффективнее.

Гигаватты для ИИ

Компания xAI Илона Маска официально ввела в эксплуатацию суперкомпьютер Colossus 2 — первый в мире кластер для обучения искусственного интеллекта с энергопотреблением на уровне 1 гигаватта. Это сопоставимо с мощностью атомной электростанции и уже превышает пиковое потребление такого мегаполиса, как Сан-Франциско.

На этом проект не останавливается. В ближайшие месяцы, по заявлениям компании, энергопотребление Colossus 2 планируется увеличить до 1,5 гигаватта, а в перспективе — приблизиться к отметке 2 гигаватта.

Учёные научились «просвечивать» искусственный интеллект

Современные системы искусственного интеллекта всё глубже проникают в повседневную жизнь: они помогают врачам, используются в образовании, участвуют в принятии управленческих решений. При этом сами разработчики всё чаще признают: то, как именно такие модели приходят к своим выводам, остаётся во многом загадкой. Эту ситуацию принято описывать метафорой «чёрного ящика». Решение есть, результат получен, но внутренний путь рассуждений скрыт. По мере роста сложности моделей риск такого непонимания только увеличивается, особенно с учётом прогнозов о появлении систем уровня общего искусственного интеллекта уже в ближайшие годы. Именно этот разрыв между мощностью технологий и пониманием их устройства стал отправной точкой для нового научного направления, цель которого — сделать ИИ прозрачным и объяснимым.

« Март 2026 »
Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31