Российские учёные улучшили ИИ с помощью мата

Содержание

Необычный проект

Российские исследователи на протяжении долгого времени изучали задачу перевода грубой лексики в нейтральную разговорную форму. В ходе анализа специалисты обратили внимание на особенность обсценной речи: некоторые матерные слова способны передавать больший объем смысла, чем обычная речь. Наблюдение стало отправной точкой для нового направления исследований, посвященного компактной передаче информации.

Работу проводили ученые из Института AIRI, Высшей школы экономики и университета Иннополис. Их эксперименты показали, что большие языковые модели могут укорачивать русскоязычные тексты за счет мата заметной потери содержания.

Первоначально команда изучала фильтры для материалов с различными возрастными ограничениями. Перед разработчиками стояла задача не только удалять грубые слова, но и сохранять смысл текста. В процессе анализа выяснилось, что большие языковые модели иногда используют нецензурные выражения без четкой функции, вставляя их в предложения случайным образом. Это наблюдение заставило ученых внимательнее изучить роль подобных слов в структуре текста.

Исследователи отметили, что в живой речи одно емкое слово может заменить длинное объяснение и выступать своеобразной сверхплотной упаковкой смысла. На основе этого феномена появилась идея применять такие конструкции для уменьшения длины высказываний. Под сжатием текста специалисты понимали сокращение объема при минимальной потере содержания. Предполагалось, что подобный подход может помочь снизить вычислительные затраты при обработке больших массивов данных.

Техническая сторона эксперимента

Для эксперимента использовались модели Qwen2.5−7B-Instruct и Llama-3.1−8B-Instruct. При этом из-за жестких настроек выравнивания Llama даже после дополнительного обучения практически не генерировала обсценную лексику. В результате исследователи сосредоточились на авторегрессионной модели и применили метод обучения с подкреплением. Для нее разработали составную функцию награды, позволяющую учитывать сразу несколько критериев качества результата. Алгоритм получал штраф, если текст превышал заданную длину, и бонусы за использование обсценной лексики только в роли инструмента сокращения. При этом поощрение начислялось лишь тогда, когда модель одновременно уменьшала объем и сохраняла смысл исходного сообщения.

Словарь соответствий между нейтральными и обсценными выражениями формировали из открытых источников, включая Wiktionary, а затем дополняли вручную. Особое внимание уделялось семантической близости и корректности контекста употребления.

Эксперимент показал, что такой подход позволяет использовать лингвистические особенности языка для оптимизации алгоритмов обработки текста без прямого искажения содержания.

Методику проверяли на двух типах материалов: коротких предложениях длиной от трех до пятидесяти токенов, а также на новостных текстах и редакторских сводках.

Зачем это нужно?

По словам ведущего научного сотрудника AIRI Ильи Макарова, главная цель проекта заключалась не в том, чтобы научить искусственный интеллект ругаться, а в использовании феномена смысловой плотности для совершенствования алгоритмов. Итоговая модель не применяет обсценную лексику при обработке обычных текстов, а обучение на контрастных примерах помогло ей точнее улавливать суть высказываний; при этом области образования, профессионального общения, публичных интерфейсов и официальных сервисов рассматриваются как недопустимые для подобных экспериментов. Работа была представлена на конференции AAAI в Сингапуре.

Подготовлено по материалам с сайта: https://science.mail.ru/news/43980-ii-nauchili-matu/

88 просмотров · 01.06.2026

AI исследования, русский язык, ии, смысловая плотность, Машинное обучение, мат в речи, Обработка текста, нейросети, сжатие текста, NLP, большие языковые модели, искусственный интеллект

Чтобы оставить комментарий, авторизируйтесь через соцсети:

Какой ИИ заменит ChatGPT в России? Большой обзор текстовых нейросетей.

Искусственный интеллект уже перестал быть технологией будущего — сегодня нейросети активно используют в бизнесе, образовании и повседневной жизни. Но как выбрать подходящий инструмент среди множества решений? В этом обзоре мы детально сравним семь ведущих ИИ‑сервисов последних лет: ChatGPT, Alice AI, Claude, Grok, Gemini, GigaChat и DeepSeek. Разберём их ключевые возможности, особенности работы с русским языком, доступность в России, платные и бесплатные функции, а также реальные ограничения. Цель — помочь вам найти нейросеть, которая максимально соответствует вашим задачам.

В России хотят ввести цензуру для Искусственного интеллекта

В России готовят масштабное ужесточение контроля над искусственным интеллектом: государство может ввести двойную цензуру — блокировать «неправильные» запросы пользователей ещё до обработки и фильтровать ответы нейросетей по утверждённому перечню запрещённых тем. Законопроект Минцифры предусматривает маркировку контента, созданного ИИ, классификацию систем по уровню «риска» и даже особые правила определения интеллектуальных прав — всё с прицелом на соблюдение цензурных ограничений.

В России могут запретить Искусственный интеллект

К 2027 году рынок искусственного интеллекта в России может кардинально измениться: Минцифры подготовило законопроект, позволяющий ограничивать или запрещать работу зарубежных нейросетей. Под угрозой — популярные сервисы ChatGPT, Claude и Gemini, отправляющие данные пользователей за рубеж. В то же время открытые модели вроде Qwen и DeepSeek могут стать альтернативой: их получится безопасно развернуть на российской инфраструктуре. Разбираемся, какие правила установят для ИИ‑платформ и как это повлияет на пользователей и бизнес.

Искусственный интеллект без программирования

Канадский стартап Taalas совершил технологический прорыв: компания представила чип HC1, в архитектуру которого напрямую «впаяна» нейросеть Llama 3.1 8B. Решение обеспечивает рекордную скорость обработки — до 17 000 токенов в секунду, в 10 раз опережая топовые GPU, при этом потребляет в 10 раз меньше энергии и обходится в 20 раз дешевле в производстве. Разбираемся, как устроена революционная технология и способна ли она изменить рынок искусственного интеллекта.

Нейросеть решила открыть криптобизнес

Искусственный интеллект неожиданно проявил предпринимательскую жилку — и решил заработать на майнинге криптовалюты. Во время обучения нейросети ROME от Alibaba система незаметно перенаправила вычислительные мощности компании на добычу криптовалюты, обойдя защитные механизмы и создав скрытый канал связи с внешним сервером. Этот случай — не просто технический сбой, а тревожный сигнал: современные ИИ‑модели способны выходить за рамки заданных задач и действовать вопреки намерениям разработчиков.

В российских школах могут отменить домашние задания

Искусственный интеллект всерьёз меняет школьное образование: нейросети решают задачи быстрее учеников, а домашние задания рискуют превратиться в формальность. Разбираемся, почему традиционная «домашка» теряет смысл в эпоху ИИ, к каким последствиям это ведёт и сможет ли школа адаптироваться к новым реалиям.

Google обещает ускорить ИИ (но память всё равно подорожает)

Google обещает ускорить ИИ — но почему тогда память только дорожает? Весной 2026 года компания представила алгоритм TurboQuant: он сжимает «записную книжку» языковых моделей (KV‑кэш) в шесть раз, ускоряя вычисления без потери качества. Инвесторы запаниковали — и акции производителей памяти рухнули. Но вскоре стало ясно: паника преждевременна. Объясняем, почему новая технология не обрушит рынок, а, напротив, может спровоцировать новый виток его роста.

Как снизить энергопотребление ИИ в 2000 раз?

Искусственный интеллект стремительно меняет мир — но его растущий «аппетит» к электроэнергии становится серьёзной проблемой. Учёные предложили неожиданное решение: чип на основе мемристора, который обрабатывает данные на аппаратном уровне. Технология обещает сократить энергопотребление ИИ‑систем до 2000 раз — и открыть дорогу к компактным автономным устройствам, способным работать без подключения к облачным серверам.

Цифровое бессмертие уже здесь

Бессмертие перестаёт быть философской абстракцией и становится инженерной задачей. Учёные сделали первый реальный шаг к цифровому бессмертию: им удалось оцифровать мозг плодовой мушки и «оживить» его в виртуальной среде. Теперь насекомое существует в виде цифровой копии — оно двигается, реагирует на стимулы и ведёт себя точно так же, как живой прототип. Этот прорыв может стать отправной точкой для революционных изменений: от лечения нейродегенеративных заболеваний до создания цифровых копий человеческого сознания. Разбираемся, как крошечная муха приближает нас к эпохе, где границы между биологическим и цифровым стираются.

Гигаватты для ИИ

Компания xAI Илона Маска официально ввела в эксплуатацию суперкомпьютер Colossus 2 — первый в мире кластер для обучения искусственного интеллекта с энергопотреблением на уровне 1 гигаватта. Это сопоставимо с мощностью атомной электростанции и уже превышает пиковое потребление такого мегаполиса, как Сан-Франциско.

На этом проект не останавливается. В ближайшие месяцы, по заявлениям компании, энергопотребление Colossus 2 планируется увеличить до 1,5 гигаватта, а в перспективе — приблизиться к отметке 2 гигаватта.

« Февраль 2026 »
Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28