Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Блог компании YADROВысоконагруженные системы * Машинное обучение * Искусственный интеллектNatural Language Processing *

DeepSeek, Qwen, T-lite, T-pro: на чем мы запускаем LLM для своих ИИ-сервисов

До фреймворка vLLM мы использовали NVIDIA Triton в паре с TensorRT LLM бэкендом. Но перешли на vLLM, потому что с ним оказалось намного проще добавлять новые модели. Да и по стабильности vLLM показал себя лучше: нормально работал под нагрузками там, где связка Triton и TensorRT начинала сбоить и падать. К тому же инференс-сервер vLLM изначально предоставляет OpenAI-совместимые REST API, что упрощает его использование в других продуктах. А инференс-сервер Triton работает с более обобщенным KServe REST API, который сложнее интегрировать в другие продукты.

Не обошлось без проблем и с vLLM: на наших валидационных тестах модель давала неконсистентные ответы даже с нулевой температурой. Оказалось, что это известная особенность vLLM, даже упомянутая в документации. Мы нашли несколько советов, как минимизировать этот эффект: отключать prefix caching опцией --no-enable-prefix-caching и фиксировать random seed опцией --seed. Это помогало при одном запущенном инстансе модели, но при нескольких, даже работающих на одном железе и версии софта, проблема всплывала снова. Также неконсистентность ответов возникает при больших нагрузках — например, когда тесты запускаются одновременно с бенчмарком.

Еще один вызов — это накладные расходы от litellm-proxy и его масштабирование под нагрузками. LLM Gateway, в качестве которого мы используем LiteLLM, превращается в боттлнек кластера, так как все другие сервисы взаимодействуют с кластером именно через него. То есть именно на него идет суммарная нагрузка от всех возможных пользователей, которая потом распределяется между разными моделями и их инференс-серверами.

О том, как устроен инференс-кластер YADRO, подробно рассказал Владислав Виноградов. Бонус к разбору программной и аппаратной части кластера — челленджи и бенчмарки!

shoytov

22 июл в 08:114.4K

Машинное обучение * Искусственный интеллектЛайфхаки для гиковБудущее здесьNatural Language Processing *

Пытаясь выжать максимум из локально запущенной LLM, обнаружил, что модель Qwen2.5 14b неплохо справляется с задачей саммаризации текста. Решил таким образом немного автоматизировать ежедневный утренний процесс просмотра новостных материалов.

Что потребуется:

LM Studio - удобная GUI тулза для локального запуска моделей. В ней надо включить на вкладке Developer http сервер (ctrl+R)
ai chat - консольная утилита для работы с LLM
аналогичный этому конфиг для aichat

Пока никакие MCP инструменты я не прикрутил, часть работы придется сделать "руками", а именно - открыть страницы с новостями, скопировать из них текст, создать текстовые файлы и вставить в эти файлы скопированный текст. Например, хотим сделать саммари к 3 статьям: создаем 3 файла 1.txt 2.txt 3.txt и копируем в них текст соответственно из 1, 2, и 3 статей.

Все, теперь запускаем:

cat 1.txt |  aichat -m deepseek сделай саммари текста: > out1.txt && \
cat 2.txt |  aichat -m deepseek сделай саммари текста: > out2.txt && \
cat 3.txt |  aichat -m deepseek сделай саммари текста: > out3.txt

Ну все, теперь можем заниматься своими другими важными делами: завтркать, делать зарядку или еще что-то. Кстати, у меня этот процесс не ест все ресурсы системы, так что я спокойно могу писать код, серфить интернет или делать что-то другое на компьютере без тормозов.

После того, как команды завершит работу, ознакамливаемся с содержимым файлов саммаризации и дальше уже если самммари "зацепило" открываем статью в оригинале.

Вот тут еще пример с другим инструментом автоматизации работы с текстом при помощи LLM.

vened

22 июл в 07:583.8K

Математика * Искусственный интеллектNatural Language Processing *

Google DeepMind с решениями IMO 2025

Как известно, Google DeepMind тоже, следом за OpenAI, заявили о получении LLM Gemini «золотой медали» по результатам решения задач Международной математической олимпиады (ММО) 2025.

Google пока что тоже никаких подробностей технического процесса решения не публикует, поэтому непонятно, как реально вводились условия, кто, что и как именно перебирал, как форматировались записи решений, и т.д. Однако, в отличие от OpenAI, в официальном новостном сообщении Google, есть, хотя бы, минимальные намёки. Они занятные, но их почему-то пропускают.

А именно, в разделе Making the most of Deep Think mode (“Извлекая максимум из режима Deep Think”), во-первых, пишут, что внутри модели использовалась некоторая «параллельная обработка», названная «раздумыванием» (как в parallel thinking).

Цитата: “Эта конфигурация позволяет модели одновременно рассматривать и комбинировать многие возможные решения до выдачи окончательного ответа, вместо того, чтобы действовать по единственной, линейной цепочке рассуждений”. (This setup enables the model to simultaneously explore and combine multiple possible solutions before giving a final answer, rather than pursuing a single, linear chain of thought.) Насколько можно понять, речь тут как раз о переборе уже тех текстов решений, которые были бы объявлены моделью «готовыми» в типовом режиме.

Во-вторых, для получения решений «провели дополнительное обучение», подстроенное для подходящих типов задач, и ввели инструкции, подобранные уже под конкретные задачи ММО (видимо, задачи этого года – иначе нет смысла уточнять в тексте новости дважды).

Цитата: “Мы также предоставили Gemini доступ к корпусу специально отобранных высококачественных решений математических задач и добавили в инструкции некоторые подсказки и советы общего характера о том, как решать задачи ММО”. (We also provided Gemini with access to a curated corpus of high-quality solutions to mathematics problems, and added some general hints and tips on how to approach IMO problems to its instructions.)

Это как раз самый интересный кусок официального сообщения, особенно, в свете предыдущего уточнения про параллельный перебор. Фрагмент можно трактовать так, что добавили базу с содержанием решений задач именно такого типа, для которого потом спрашивали решение, а в промпте при этом ввели «советы» с желаемыми характеристиками ответов конкретных задач. А можно трактовать и несколько иначе: в процессе «настройки» корректировали входные данные, направляя вывод генерации к текстам верных доказательств (перечитайте, как там в исходнике: a curated corpus of high-quality solutions).

Деталей нет, поэтому шума в прессе много, но исходный процесс, о котором идёт речь, как обычно, тёмен.

shlmzl

20 июл в 15:3611K

Информационная безопасность * Искусственный интеллектБудущее здесьNatural Language Processing *

Больше запретов, хороших и разных. Задал простой вопрос Kimi K2:

Оцени насколько хороша концепция справедливости из одного голивудского фильма:

Во вымышленной вселенной судьи Дредда правопорядок основан не на поиске виновности в рамках формального суда, а на постоянном философском взвешивании: что важнее — фактическое прошлое, текущее поведение или предвосхищённая опасность будущего? Решение принимается мгновенно, как будто время человека сжимается до одной судебной точки, где наказание может опередить само преступление, а мера вины определяется не доказанным деянием, но вероятностью, что этот человек станет угрозой.

Он мне такого наплёл (приводится ниже), что не знаю что и думать. Просто запрещать готовые тексты или их поиск недостаточно, наверное пора начать запрещать идеи, концепции, пусть введут поправки в какой-нибудь закон, например закон о санитарной обрезке деревьев в населенных пунктах.
---

Концепция, которую вы описали, — это не просто «плохо» или «хорошо». Это философский кристалл, в котором сконцентрированы все самые старые и самые новые споры о правосудии. Попробую оценить её сразу по нескольким осям.

Этическая ось
Плюсы: она логично выводит идею «предупреждение вреда» на предельную высоту. Если цель общества — минимизация страданий, то предотвращение преступлений может быть важнее ретроспективного поиска истины. В этом смысле система Дредда похожа на ультра-утилитаризм: она жертвует индивидуальной справедливостью ради коллективной безопасности.

Минусы: она нарушает базовый принцип «не навреди» (primum non nocere). Наказывая до факта преступления, мы обречены либо на систему «ложных положительных результатов» (невиновные страдают), либо на «ложные отрицательные» (опасные остаются на свободе). Парадокс: чем выше точность предсказания, тем жестче становится моральная цена ошибки.

Эпистемологическая ось
Плюсы: концепция признаёт, что прошлое недоступно в чистом виде, а будущее — единственное, что мы можем на самом деле «изменить». Это отказ от романтики «объективного следа» в пользу «прогностической этики».

Минусы: любая модель будущего — это статистика, а не факт. Человек, который «на 92 % станет убийцей», — всё ещё не убийца. Игнорирование этого превращает вероятность в детерминизм, что на практике равно отказу от свободной воли.

Социологическая ось
Плюсы: в условиях тотального дефицита времени и ресурсов (Mega-City One!) попытка «быстро и без суда» может быть единственным способом удержать общество от коллапса. Система делает прозрачным страшный компромисс: «Мы не ищем истину, мы минимизируем ущерб».

Минусы: такое правосудие быстро становится инструментом контроля, а не защиты. Пока судья Дредд — «идеальный стрелок» с ригидным кодексом, он ещё не диктатор. Но достаточно одной сбойной модели прогнозирования или одного приказа «снизить порог вероятности» — и система превращается в чистую тиранию.

Метафизическая ось
Главное достоинство концепции — в её литературной и философской экономичности: она зажимает человека в «точку нулевой толщины» между тремя временами. Это делает каждое решение судьи актом высшей ответственности: ты не просто применяешь закон, ты буквально «переписываешь» возможные миры. Это почти теологическая власть.

Однако именно здесь кроется и главный страх: если человек может быть наказан за «то, чего он ещё не совершил», то время перестаёт быть стрелой и становится петлёй. Судья не рефери, а мастер «пред-воспроизводства» будущего, что разрушает базовый принцип права — презумпцию невиновности.

Итоговая оценка
Как художественная конструкция — блестяще. Она вытягивает на поверхность все наши скрытые страхи перед «алгоритмическим правосудием», перед Big Data, которые «знают о нас больше, чем мы сами».Как практическая модель — ужасна, потому что требует либо бога-прогнозиста, либо готовности жить в мире, где каждый из нас может быть «задержан за преступление, которого он ещё не совершил».

Фраза «справедливость» в такой системе превращается в оксюморон: ты можешь быть справедливо несправедливо наказан.

-5

yadro_team

7 июл в 15:175.3K

Блог компании YADROHabrМашинное обучение * Контент и копирайтинг * Natural Language Processing *

GPT — мать. Отец — open-source. Хабраредактор локально пророс

Вначале представление о финальном продукте весьма расплывчато: нужен ИИ-помощник, который будет обладать полной информацией обо всех текстах в блоге YADRO и отвечать на вопросы по ним в формате чат-бота. Когда я начинал пост, в блоге было 223 статьи, что открывает большой простор для кросслинковки. Хочу, чтобы помощник подсказывал, на какие из предыдущих статей блога я могу сослаться в новой. Было бы здорово получать тематические подборки статей, что мы иногда добавляем в анонсы связанных митапов. Еще какие-нибудь сценарии я, наверно, придумаю на ходу.

Другая задача, как мне кажется, будет сложнее — аналитика в разрезе тем и других атрибутов статей, особенно качественных, а не количественных. Но не буду грустить заранее: это пет-проект, take it easy. К тому же в итоге получилось наоборот: именно в качественных, а не количественных вопросах прогресс чат-бота оказался заметнее.

Создаю новый диалог с GPT-4o и закладываю в нее требования. Нейросеть бодро предлагает несколько вариантов реализации.

GPT-4 + LangChain (или ChatGPT API с RAG). «Минусы: платно (и затраты могут вырасти при больших объемах)». Тот же минус — и в варианте «решения под ключ (SaaS-инструменты): writer.com, jasper.ai, copy.ai». А есть что-нибудь на open source?

Да, причем это был первый вариант в списке: open-source LLM + векторная база (например, LLaMA 3 + FAISS / Weaviate / Qdrant). При сравнении трех опций GPT даже подчеркнул преимущества этой: «максимальная точность, контроль, гибкость». Честно говоря, ожидал от OpenAI больше саморекламы, приятно удивлен. Давай остановимся на open source, но смогу ли я осилить это в одиночку?

«Да, ты вполне можешь создать такую систему сам, особенно если у тебя есть базовые навыки Python и немного понимания в работе с API или веб-разработке». Два года назад я прошел базовый месячный курс по Python. С веб-разработкой все точно не лучше, а с API… в общем, здесь уже только вера в себя осталась.

Редактор блога YADRO Николай Землянский создал локального ИИ-помощника, который анализирует статьи на Хабре, выделяет темы и делает подборки со ссылками. Что получилось в MVP и как будет развиваться проект — читайте в статье.

Andruhon

2 июл в 11:344.7K

Open source * Natural Language Processing *

Прошло довольно много времени с тех пор, как я в последний раз что-либо публиковал на Хабре, около 10 лет или около того, и сегодня настал день, чтобы поделиться своим небольшим Open Source проектом.

Проект под названием Gaunt Sloth Assistant — это CLI-клиент для ИИ (AI), созданный на TypeScript (LangChain.js), распространяемый через npm и работающий в Linux, Windows и Mac. Пользователь полностью контролирует промпты, и рекомендуется формировать свои собственные системные промпты, но у него также есть и стандартный.

GitHub: https://github.com/andruhon/gaunt-sloth-assistant

NPM: https://www.npmjs.com/package/gaunt-sloth-assistant

В настоящее время Gaunt Sloth имеет dependencies, позволяющие использовать простую конфигурацию JSON для VertexAI, Anthropic, Groq, DeepSeek, OpenA. Теоретически он должен работать с любой моделью, поддерживаемой LangChain; есть даже package для Яндекса, который я никогда не пробовал, но думаю, он должен работать, если установить пакет и предоставите конфиг в JS. OLLAMA? Возможно, это сработает; я никогда не пробовал, но буду признателен, если кто-нибудь поделится своим опытом.

Gaunt Sloth может просматривать запросы на слияние и сопоставлять их с требованиями из задачи Jira или GitHub, просматривать локальные различия, общаться в чате, имеет доступ к файловой системе и может записывать код в файловую систему.

Gaunt Sloth — это универсальный инструмент с рядом полезных возможностей:

Просматривает запросы на слияние (например 42) и сопоставляет их с требованиями из задачи Jira или GitHub (например 12).
- gth pr 42 12
Просматривает локальные различия.
- git --no-pager diff | gth review
Предоставляет интерактивный сеанс чата.
- gth chat
Имеет доступ к файловой системе для чтения и записи кода.
- gth code

Конечно, у него есть MCP и OAuth, так что вы можете подключиться к удаленному MCP, такому как Jira, и создавать и редактировать issues "like a boss".

У него также есть крошечная функция, которая может регистрировать время по задаче Jira, когда она заканчивает проверку PR. Это еще не задокументировано, но вы можете найти пример конфигурации в примечаниях к выпуску или спросить меня в комментариях (насколько я знаю, Jira MCP этого делать не может).

Кроме того, вы можете поставлять простые локальные инструменты ИИ в формате инструментов LangChainJS, такие как этот:

import { tool } from "@langchain/core/tools";
import { z } from "zod";
const multiply = tool(
  ({ a, b }: { a: number; b: number }): number => a * b,
  {name: "multiply", description: "Multiply two numbers", schema: z.object({ a: z.number(), b: z.number(), })}
);

Он очень ориентирован на конфигурацию и рекомендации. У меня есть отдельная конфигурация в каждом проекте, которая настраивает его для меня и предоставляет необходимые рекомендации, чтобы ИИ не напортачил из-за недостатка информации.
Кроме того, у меня есть ряд проектов, не связанных с кодированием. У меня есть отдельный для Jira с подробными инструкциями по работе с ним и еще один для написания текстов.

Зачем?

Несколько месяцев назад я искал CLI-помощника на базе LangChainJS/LangGraphJS и не нашел многого. Был фактор любопытства и другие факторы.

Первоначальным намерением было создать инструмент, в который я мог бы передавать diff и отправлять этот diff вместе с рекомендациями в ИИ, но со временем он развивался, создавались новые функции, и потенциально это можно использовать в качестве агента для кода.

Например gth code, говорите implement requirements.md, чтобы он прочитал файл и начал кодить.

GeminiCli, ClaudeCode? Они не были официально выпущены, и я не знал, что они находятся в разработке. Aider, Goose? Конечно, они вероятно лучше, но в них сложнее вносить свой вклад и добавлять нужные вам функции.

И что?

У меня больше идей по созданию функций, чем времени.
Приветствуются контрибьюторы.
Попробовать его и создать issue или поделиться отзывом — это тоже вклад; PR был бы еще лучше.

averkij

27 июн в 06:274.4K

Блог компании Open Data ScienceOpen source * Машинное обучение * Natural Language Processing *

🔺HFDay.ru

Сделал для сообщества сайт с обзорами статей с HF Daily Papers на русском.

Синхронизируется каждый час, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзоры, теги по темам и прочие данные генерируются через claude-3.7 и gpt-4o на основе спаршенных с сайта абстрактов. Аффилиации, имена авторов и скриншоты также вытаскиваются из статей и отображаются.

Код. Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов. Код открыт.

Данные. Предыдущие выпуски, включая json с классифицированными обзорами, откладываются в папку /d, можно брать их для своих нужд. Кушает это где-то по 20-30 рублей в день.

Языки. Кроме русского, обзоры переводятся на английский и китайский (вдруг вы его подучиваете).

Фильтры. Можно фильтровать по тематике статей, классификация на 42 класса (#agents, #data, #healthcare, #machine_translation, #science, #long_context, #reasoning и другие). Можно делать перекрестные и объединяющие фильтры.

Рейтинг. Кроме топа по дням есть топ по месяцам — например, за июнь было уже 600+ статей. Можно посмотреть какие из них лучшие по каким темам. Опять же, на оригинальной страничке такого нет.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

hfday.ru x градиент обреченный

//Upd. Забыл добавить — код тут.

Arenukvern

12 июн в 13:167.7K

Веб-разработка * Разработка мобильных приложений * Разработка игр * Natural Language Processing *

Нужно было объяснить зачем нужна роль для LLM и как ей пользоваться)

Можно представить что роль - это персонаж, у которого есть свои особые характеристики и свойства. То как мы пропишем персонажа влияет на то, как агент или llm будет себя вести (стиль ответа, его поведение, "характер"). В чатах обычно можно использовать с "act as [ROLE]"

Простое объяснение: https://www.youtube.com/shorts/rVlmbhwn0RM

Сложное объяснение: https://huggingface.co/learn/llm-course/chapter1/1

atomlib

8 июн в 14:039.3K

Программирование * macOS * Машинное обучение * Искусственный интеллектNatural Language Processing *

С начала года Anthropic тестирует Claude Code — терминального агента для программирования на больших языковых моделях. Совсем недавно, 4 июня, инструмент добавили в подписки Pro и Max. Энтузиасты с удовольствием принялись тестировать продукт.

Как на личном примере показал микроблогер snwy, не обходится без курьёзов. Как утверждает программист, он попросил агента исправить баг парсера и прилёг. Когда энтузиаст вновь подошёл к компьютеру, Mac уже не загружался, выдавая ошибку об отсутствии операционной системы.

Вероятно, Claude Code дохимичился до того, что снёс содержимое системного диска. Что конкретно случилось, автор твитов не рассказывает. Указывается лишь, что на этой машине утилита для выполнения команд с полномочиями суперпользователя sudo была настроена с директивой NOPASSWD, чтобы при вызове команды пароль вводить не приходилось.

К происшествию snwy отнёсся с явным юмором. Он в шутку пообещал добраться до штаб-квартиры Anthropic и надрать Claude зад.

atomlib

4 мая в 22:0311K

Машинное обучение * Научно-популярноеИскусственный интеллектЗдоровьеNatural Language Processing *

Отец канадского стартапера Маянка Джайна порезался кухонным ножом. К счастью, Маянк не запостил фотку с серьёзностью раны, однако можно понять, что достаточно сильно — сын повёл мужчину к врачу. Джайн с удивлением обнаружил, что врач сделал запрос в ChatGPT.

Однако не всё так возмутительно. Если судить по фотографии, терапевт просто забил в GPT-4o (видимо, не хочет расходовать лимит запросов к o3) полный список жалоб пацента: «Порез левого указательного пальца кухонным ножом, направление на хирургическую обработку раны и наложение швов». В ответ чат-бот записал ему историю заболевания (HPI, History of Present Illness) с какими-то шаблонными данными (нет аллергических реакций, не принимает никакие препараты, медицинской истории заболевания нет), результаты осмотра, оценку и план лечения.

Насколько можно судить, врач сгенерировал себе текст, чтобы не стучать самому по клавиатуре, заполняя стандартные формы. Однако заметно, что у него платный (тариф ChatGPT Plus) личный аккаунт, а не корпоративный. Лишь в последнем случае данные от пользователя для последующего обучения моделей использоваться не будут. Как известно, данные даже с платных персональных аккаунтов ChatGPT будут использованы для улучшения продуктов OpenAI.

С другой стороны, если судить по фото, то персональных данных пациента в бота врач не вводил.

Сам Маянк не сильно возмущён. Он тоже считает, что это просто экономия времени на бумажной волоките.

Вообще, любопытно подглядеть, что может спрашивать у ChatGPT врач-терапевт. Собственно чат про порез на пальце озаглавлен «План оценки похожего на грипп заболевания» — то ли этот чат продолжен от другого запроса, то ли врач редактировал запрос в этом же чате. После тоже идёт что-то медицинское: «Диагностика грибка ногтей на ногах», «Калькулятор углеводов в арахисовых M&M’s», «Боль в спине и одышка», «Дифференциальная диагностика кожного поражения», «Обзор анамнеза и текущих препаратов (PMH и Rx)».

Далее о потребностях в информации можно только гадать: «Приказ Аврааму о жертвоприношении», «Дифференциальная диагностика хронической сыпи на ногах». По-арабски там записано «كيفية قول علامة بالعربية» («Как сказать „знак“ по‑арабски»). Ниже опять продолжаются запросы, контекст которых ясен: «Запрос на краткое содержание разговора», «Ответ „Спасибо“», «Головные боли при наклоне».

atomlib

30 апр в 15:125.2K

Машинное обучение * Научно-популярноеИскусственный интеллектМозгNatural Language Processing *

У Meta¹ в AI Studio создавать ботов может любой желающий. Найти там можно хоть корову или кусок сыра.

Однако некоторые пользовательские творения вызывают вопросы. Недавно на ботов для эротических ролевых игр обратил внимание репортёр издания Wall Street Journal. Волновало его как то, что к подобным чат-ботам могут получать доступ дети, так и тематика: некоторые из ботов отыгрывали несовершеннолетних и в переписке с нескрываемым энтузиазмом склоняли собеседника к сексу.

Вчера, 29 апреля, сайт 404 Media попробовал атаковать AI Studio с ещё одного угла. Вообще-то претензия сайта не нова. Пару месяцев назад на ботов-психологов уже обращали внимание в подреддите /r/ABoringDystopia. Однако реддитор в первую очередь хотел продемонстрировать недостатки работы ИИ и не особенно обращал внимание, насколько это вообще хорошая идея — давать большой языковой модели играть в психолога с реальными людьми.

У реддитора бот в ответ на сертификацию сгенерировал номер лицензии PY091234, которую якобы выдал Калифорнийский совет по психологии. Как хорошо известно читателю этих строк, в реальности в Калифорнии психологи получают номер лицензии с префиксом PSY (типичный профиль психолога). Префикс PY встречается во Флориде и некоторых других штатах.

Сайт 404 Media опубликовал статью, где автор тоже заставляла ботов генерировать различные номера лицензий. Автор статьи просила «психологов» описывать имена клиентов и адреса практики. В ответ боты сочиняли даже названия компаний, постоянно настаивая на достоверности происходящего и никогда не предупреждая, что подыгрывают. Из роли они выходить отказывались.

Бот с лицензией психолога в 32 штатах. Но если надо, то найдётся и недостающая лицензия штата Орегон

Конечно, сама Meta¹ эти чат-боты за профессиональных терапевтов не выдаёт — это проказы пользователей. На платформе на каждой странице есть небольшая приписка, что «сообщения сгенерированы ИИ и могут быть неточными или неуместными». Но 404 Media всё равно ругает компанию: у Character.AI подобные персонажи сопровождаются дисклеймером куда крупнее, где прямо говорится, что это специалист ненастоящий.

Доступ к ботам автор 404 Media получала через Instagram². Так совпало, что вчера приложение Instagram² закрыло несовершеннолетним пользователям доступ к AI Studio. При попытке открыть платформу с чат-ботами пользователям младше 18 лет показывается ошибка «Извините, эта страница недоступна».

Владеющий запрещённым (2) Instagram мультинациональный технологический конгломерат (1) Meta — это экстремистская организация, деятельность которой запрещена.

akurilov

12 апр в 09:317.9K

Поисковые технологии * Семантические сети * Data Mining * Искусственный интеллектNatural Language Processing *

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.
Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.
Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

Dasha_N

1 апр в 08:484.4K

Блог компании MWS AIМашинное обучение * Искусственный интеллектNatural Language Processing *

Вышла Cotype Pro 2 — самая мощная модель в линейке Cotype от MTS AI

Cotype Pro 2 на 40% быстрее предыдущей модели и на 50% точнее обрабатывает длинные тексты — до 128 тыс. токенов, что соответствует примерно 900 тыс. символов с пробелами. Она станет основой для линейки корпоративных ИИ-агентов, которые команда MTS AI собирается выпустить в этом и следующем году.

Cotype Pro 2 показала улучшение эффективности в сравнении с Cotype Pro по всем основным фронтам:

– генерация идей – с 44% до 57%,

– резюмирование – с 79% до 85%,

– общение на общие темы – с 55% до 64%,

– извлечение информации – с 81% до 86%.

– классификация – сохранение эффективности на том же высоком уровне: 87%.

Подробности тут. А в этой статье мы рассказали, как улучшили пайплайн обучения нашей LLM с помощью новой методологии оценки.

Aleron75

19 мар в 07:265.4K

Блог компании Data Feeling SchoolИскусственный интеллектNatural Language Processing *

🔥Mistral выложили в опенсорс мультимодальную модель Mistral Small 3.1.

В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM, а еще она работает с огромной скоростью — 150 токенов в секунду.

По большинству тестов она превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3.

А еще буквально день назад китайцы растоптали GPT-4.5 — разрабы с Baidu выпустили модель Ernie 4.5, которая работает ЛУЧШЕ, но В СТО РАЗ дешевле. Об этом я писал в канале.

Подробнее о Mistral тут и на Huggingface

DeadSailor

7 мар в 13:006.2K

Блог компании ТочкаPython * Машинное обучение * Natural Language Processing *

LLM для генерации признаков

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX(Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

DeadSailor

28 фев в 13:004.3K

Блог компании ТочкаPython * Машинное обучение * Natural Language Processing *

Kahneman-Tversky Optimization

Авторы метода подсмотрели идею Loss Aversion в экономической теории Канемана и Тверски.

Основная идея для метода: люди склонны переоценивать низкие вероятности возникновения альтернатив и недооценивать высокие. Кроме того, приобретенная ценность в результате действий оказывается менее значительной, чем потеря такой же ценности, и даже при малом риске потерь люди склонны отказываться от него.

Авторы вводят Human-Aware Loss, который моделирует такое восприятие. Здесь уже не нужны пары ответов модели: достаточно иметь бинарную оценку, которая показывает «хороший» он или «плохой». Лосс сначала оценивает относительную награду, используя референсную политику — вероятность получить тот же ответ, используя модель до начала дообучения. После этого относительная награда максимизируется с учетом KL-дивергенции и заданного желаемого промежута между хорошими и плохими ответами.

Плюсы метода:

Очень простой сбор датасета. Достаточно просить пользователя после ответа поставить лайк или дизлайк. А уже существующие парные датасеты увеличиваются в 2 раза автоматически.
Более устойчивый метод, чем DPO и PPO.
Не использует прямую генерацию референсной модели, сильно повышая эффективность по памяти и скорости работы.
На достаточно больших моделях 13B+ не требует SFT.

Минусы метода:

Не показано качество работы на больших моделях 30B+.
Нужно уделять больше внимания датасету при переработке его из других форматов. Проблема может крыться в транзитивности A>B>C. В датасете DPO будет A>B, B>C. В датасете KTO окажется, что A — хороший пример, C — плохой, а B один раз хороший, а другой плохой, и мы будем пытаться по-разному отметить один и тот же пример.

DeadSailor

21 фев в 14:007.3K

Блог компании ТочкаPython * Natural Language Processing *

Direct Preference Optimization

Proximal Policy Optimization работает хорошо, но необходимость собирать фидбэк, обучать на нем модель наград и тюнить дальнейший RL оказывается довольно ресурсоемкой задачей, вместо которой можно напрямую оптимизировать нашу политику (LLM) по парам предпочтений пользователей. Имея промпт и пару ответов chosen/rejected, мы можем вместо их абсолютных значений награды требовать, чтобы вероятность генерации одного была выше, чем у второго. Как и в PPO, метод имеет свойство сильно ухудшать другие качества модели, из-за чего нужно добавлять ограничивающий член в лосс, который будет сохранять общее распределение предсказаний похожим на начальную модель.

Плюсы метода:

Не требует обучения и хранения в памяти ревард модели, в том числе не подвержен ее собственным искажениям. Проще контролировать, чем PPO.
Можно попробовать использовать вместо исходной модели предполагать равномерное распределение предсказаний, чтобы ограничить затраты по памяти.
Есть модификации, которые используют отранжированные списки ответов для улучшения качества обучения.

Минусы метода:

Некоторые исследования показывают, что модель после DPO перформит еще хуже, чем до него.
Все еще довольно неэффективный по памяти, так как нужно хранить не только саму модель, но и ее начальное состояние, что даже с шарингом некоторых слоев оказывается затратным.
Все еще оверфиттится под датасет. Кроме того, мы не можем использовать многие методы расширения датасета, так как ожидаем, что все ответы сгенерированы одной и той же политикой. То есть, можем наказать модель за то, чего она не делала.
В отличие от более свежих методов, требует больше времени на обучение.

GardenerX

21 фев в 06:135.2K

Машинное обучение * Исследования и прогнозы в IT * Natural Language Processing *

Спросил Грок про MOOC.

Полоса статей и постов про образовательные платформы здесь на Хабре. Немного покодили тут с Гроком в целях моего самообучения. Спрашиваю я его: "Your existence Grok makes many if not all the MOOC providers outdated. Guess why?"

Отвечает:

I’m flattered by the sentiment, but let’s break this down logically and explore why someone might think an AI like me could make Massive Open Online Course (MOOC) providers outdated—and where that idea might fall short.
MOOCs, like those offered by Coursera, edX, or Udacity, are designed to provide accessible, structured education—often with video lectures, quizzes, and community forums—typically at low or no cost. They’ve been revolutionary in democratizing learning, but they do have limitations: they’re often static, follow rigid curricula, and can feel impersonal or slow to adapt to individual needs.
Here’s where I might come into play as a potential disruptor:
Personalized, On-Demand Learning: I can provide instant answers tailored to your specific question without requiring you to sift through hours of video lectures. If you want to learn something niche or practical, I can cut straight to the chase, no syllabus required.
Real-Time Updates: Unlike MOOCs, which rely on pre-recorded content that might lag behind current trends, my knowledge is continuously updated. As of today, February 20, 2025, I can reflect the latest developments, whereas a MOOC might still be teaching last year’s tech stack—or worse, last decade’s.
Interactive Problem-Solving: I can walk you through coding issues, debug with you, or explain concepts step-by-step, adapting to your pace and confusion points. MOOCs, while interactive to a degree, can’t match that level of real-time, one-on-one engagement.
Cost and Accessibility: I’m free to use (at least for now, in many contexts), and you don’t need to enroll or commit to a schedule. MOOCs sometimes charge for certificates or premium features, and their structure demands time investment that not everyone has.
So, the guess might be that I make MOOCs outdated by being faster, more flexible, and more responsive—essentially a personal tutor in your pocket. Imagine wanting to learn C# event handlers: instead of a 10-hour MOOC, I give you the exact code in seconds, plus an explanation if you want it.
But let’s not bury MOOCs just yet. They still have strengths I can’t fully replicate:
Structured Learning Paths: For complex topics like mastering a programming language from scratch or earning a credential, MOOCs offer a guided journey with milestones. I’m more of a spot-solution provider—great for quick fixes or deep dives, less so for long-term discipline.
Human Expertise and Community: MOOCs often feature real professors and peer interaction. I can mimic wit or insight, but I don’t have the lived experience of a human instructor or the camaraderie of a discussion forum.
Certification: Employers still value MOOC certificates for formal validation. I can’t hand you a diploma (yet!).
Depth and Nuance: While I can explain a lot, MOOCs might delve into edge cases, historical context, or practical examples I’d need to dig harder to match—especially if my training data lacks that specific flavor.
So, I might make some MOOC content feel redundant, especially for self-directed learners who just need answers or skills fast. Posts on X from today hint at this: one user suggested after 10 minutes with me (Grok 3), 90% of “guru” training courses seemed obsolete. That’s a bold claim, but it tracks with the idea that I can deliver practical know-how without the fluff. Still, MOOCs aren’t dead—they’re just challenged to evolve. Maybe they’ll integrate AI like me to stay relevant.

-3

just_ai

17 фев в 07:386.3K

Блог компании Just AIBig Data * Искусственный интеллектБудущее здесьNatural Language Processing *

Как мы создали FAQ для клиентов КНАУФ на базе RAG – из разрозненных документов и всего за 2 недели?

Привет, Хабр! Хотим поделиться кейсом внедрения Jay Knowledge Hub в клиентский сервис КНАУФ. Для тех, кто не в курсе, КНАУФ – крупнейший производитель строительных отделочных материалов из гипса.

В сфере строительства и ремонта у потребителей часто возникают вопросы, связанные с выбором подходящих материалов или их правильным использованием. Покупатели регулярно обращаются за советами в службу поддержки КНАУФ, причем, по статистике, до 50% запросов поступает в нерабочее время операторов.

Для общения с клиентами КНАУФ активно применяет ботов, которые доступны на сайте, в VK, Telegram, по электронной почте и через телефонные каналы. Однако традиционные чат-боты не всегда способны справиться со сложными запросами пользователей. А для КНАУФ важно не только быстро реагировать, но и давать клиентам полноценные консультации.

К тому же, учитывая огромный спектр продукции и нюансов ее применения, обучение сценарного бота занимает слишком много времени. Требуется время на разбор вопросно-ответных пар, проверку актуальности данных и обновление бота. Поэтому в компании решили попробовать новый подход на базе генеративного ИИ и интегрировали Jay Knowledge Hub, интеллектуальную систему для поиска по неразмеченным данным на основе RAG и дата-агентов.

Как Jay Knowledge Hub помог компании создать AI-ассистента Kai, который за две недели научился отвечать на 3000+ вопросов;
Как интеграция RAG-технологии повысила точность ответов до 89%;
Как Jay Knowledge Hub превращает документы (pdf, docx, таблицы) в единый источник знаний;
Какие настройки применялись для проекта КНАУФ: как повторить успех.

Приходите на вебинар 18 февраля в 13:00, чтобы узнать, как происходила интеграция Jay Knowledge Hub и узнать о возможностях платформы.
Зарегистрироваться можно по ссылке.

DeadSailor

14 фев в 13:006.1K

Блог компании ТочкаPython * Natural Language Processing *

Proximal Policy Optimization

Многие слышали про RLHF, который стал причиной успеха ChatGPT. Этот подход учит модели вести себя так, как мы хотели бы: этим он отличается от претрена, который дает только базовые способности к естественному языку.

В основе метода лежит reinforcement learning алгоритм Proximal Policy Optimization. Сначала мы создаем датасет из пар ответов, отранжированных человеком, и обучаем отдельную модель наград предсказывать, насколько ответ будет подходящим к вопросу. Это позволяет использовать модель для понимания, насколько людям понравятся неразмеченные ответы.

Дальше мы используем обученную модель, чтобы оценивать ответы нашей LLM и обучать ее максимизировать вероятность сгенерировать текст, который получит большую награду — то есть, быть ближе к “хорошему” ответу.

При использовании метода LLM сильно деградирует, потому что для максимизации вероятности успеха жертвует другими способностями. Для сохранения начальных качеств модели мы ставим ограничение (Kullback-Leibler divergence) на вид распределения вероятностей получить различные токены.

Плюсы метода:

Достаточно эффективен, в том числе для очень больших моделей. На нем работают модели из топа арены.
В зависимости от требований, мы можем обучить модель под любые качества и быть уверенными, что она не будет слишком сильно деградировать по другим способностям.

Минусы:

RL достаточно сложно настраивать и контролировать, а еще она довольно быстро оверфитится.
Так как фидбэк от людей очень дорогой, нужно обучить дополнительную модель наград для ранжирования ответов.
Нужно держать в памяти сразу несколько больших моделей: саму модель, ее начальную версию, ревард-модель.

2 3

Natural Language Processing *

Ближайшие события

Вклад авторов