Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

Aleron75 13 мая в 01:24

Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

Простой

9 мин

14K

Блог компании Data Feeling SchoolМашинное обучение * Natural Language Processing *

Обзор

Казалось бы, совсем недавно мир только начал знакомиться с тем, что такое большие языковые модели (LLM). Вскоре после этого появились их многочисленные вариации — на любой вкус и цвет, от узкоспециализированных до универсальных моделей. Затем началась волна интеграций: LLM начали встраивать в различные сервисы, приложения и API, упрощая и автоматизируя рутинные процессы.

Следующим стало появление LLM-агентов — интеллектуальных систем, способных самостоятельно принимать решения и выполнять сложные задачи, взаимодействуя с внешними сервисами. Вместе с ростом их популярности возникла новая проблема — отсутствие единого стандарта взаимодействия между агентами и их окружением.

И вот, компания Anthropic представила решение этой задачи — новый протокол Model Context Protocol (MCP), который стандартизирует взаимодействие агентов с различными сервисами и между собой.

Давайте разберёмся, что такое MCP, и с чем его едят!

+14

janvarev 10 мая в 19:18

Проводим слепой тест переводов прямо на Хабре

Простой

6 мин

3.6K

Искусственный интеллектNatural Language Processing *

Хорошие переводчики переводят хорошо. А как насчет нейросетей?

Пользователь @antptr86 сделал в комментариях классную вещь - для чистоты эксперимента он выложил несколько вариантов перевода одного абзаца из "Дюны", и предложил их оценить вслепую, без знания источников.

Мне показалось это крайне занимательным, и поэтому я решил сделать из этого небольшую статью и голосование для хабраюзеров в конце.

Итак, на выбор 11 переводов абзаца из Дюны. Пожалуйста, прочитайте их, и ответьте на опрос внизу, выбрав "Лучший вариант" и "Варианты, которые в целом можно нормально читать". Чуть позже в комментариях будет выложена информация о том, откуда они были взяты.

+27

111

ervin-x 5 мая в 22:50

Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Средний

13 мин

Big Data * Искусственный интеллектМашинное обучение * Natural Language Processing *

Обзор

Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :-)

vsradkevich 5 мая в 00:46

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Средний

15 мин

4.8K

Big Data * Сжатие данных * Natural Language Processing * Машинное обучение * Искусственный интеллект

Аналитика

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.

Будущее трансформеров

atomlib 3 мая в 14:37

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Простой

16 мин

5.1K

Искусственный интеллектНаучно-популярноеNatural Language Processing * Машинное обучение * Статистика в IT

Дайджест

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

+21

vsradkevich 3 мая в 10:42

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Средний

20 мин

4.1K

Big Data * Сжатие данных * Natural Language Processing * Машинное обучение * Искусственный интеллект

Аналитика

Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токенов информации в одном эмбеддинге. Это принципиально иной подход, нежели классическое сжатие данных, и он сулит интересные применения.

Mem-вектор (от “memory vector”) – это специально обученный вектор, который хранит содержание целого текста. Идея в том, что если модель умеет предсказывать текст, то можно подобрать такой вектор на входе, при котором замороженная (неизменяемая) LLM сама декодирует исходный текст. Иначе говоря, mem-вектор играет роль «семени», из которого предобученная модель порождает заложенное в нём сообщение. В этой статье разберём, как это работает, почему вообще возможно “запихнуть” роман в один вектор и какие ограничения при этом появляются. Также сравним mem-подход с классическими алгоритмами сжатия (Huffman, арифметическое кодирование, zlib и др.), обсудим последние научные работы на эту тему и возможные применения: от Retrieval-Augmented Generation (RAG) до передачи новых знаний замороженным моделям. Центральная мысль: mem-векторы – это не просто компрессия текста, а способ напрямую скормить модели смысл и знания, минуя последовательное чтение токенов.

Разбираемся далее

atomlib 1 мая в 15:48

Leaderboard Illusion: что не так с Chatbot Arena

Простой

16 мин

1.7K

Искусственный интеллектМашинное обучение * Natural Language Processing * Статистика в ITНаучно-популярное

Дайджест

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

+18

atomlib 30 апр в 08:03

Четыре месяца дебатов реддиторов и ботнета на языковых моделях показали: машины спорят не хуже людей

Простой

15 мин

2.1K

Искусственный интеллектНаучно-популярноеМашинное обучение * Социальные сетиNatural Language Processing *

Дайджест

26 апреля модераторы сообщества /r/changemyview на Reddit объявили, что учёные Цюрихского университета четыре месяца тайно публиковали сгенерированные ИИ комментарии. Этичность эксперимента вызвала споры, хотя сами исследователи считают его допустимым. Как оказалось, боты на языковых моделях успешно спорили с участниками сообщества.

+21

AlexErf13 28 апр в 13:41

Как сделать RAG для своей компании

Средний

5 мин

12K

Python * Искусственный интеллектNatural Language Processing *

Туториал

По следам:

Как я сделал RAG для своей компании

Как я сделал RAG для своей компании (часть 2). И как начал делать AI Агента

AI агенты — клоны сотрудников (часть 3)

В этой статье я постараюсь суммировать свой опыт, подвести итоги и предоставить полное решение со ссылками на Git.

atomlib 28 апр в 09:48

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Простой

20 мин

5.7K

Машинное обучение * Статистика в ITНаучно-популярноеNatural Language Processing * Искусственный интеллект

Дайджест

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

+32

vladbataev 28 апр в 09:01

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

12 мин

30K

Блог компании ЯндексИскусственный интеллектМашинное обучение * ЗвукNatural Language Processing *

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.

Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

+76

GeorgyKurakin 27 апр в 22:22

ChatGPT теперь говорит на праиндоевропейском (и перевёл на праиндоевропейский моё стихотворение)

Средний

11 мин

5.2K

Изучение языковNatural Language Processing * Искусственный интеллект

Кейс

Пользователь Reddit с ником Low-Needleworker-139 неделю назад объявил в сабреддите r/IndoEuropean, что создал на базе ChatGPT свою пользовательскую языковую модель, которую обучил на имеющемся корпусе реконструкций праиндоевропейского языка. Этот пользовательский чатбот получил название Déiwos-Lókwos GPT.

Модель, согласно заявлениям пользователя, отражает как фонетику и грамматику (включая ларингалы и аблаут) так и характерный поэтический регистр, реконструируемый для праиндоевропейского.

Одной из ключевых особенностей модели является её способность дообучаться на ходу: например, она придумает и сохранит неологизм, если у неё нет подходящего праиндоевропейского слова (например, "поезд"). Обо всех подобных усовершенствованиях она сообщает системными сообщениями с заголовком UPGRADE.

Автор предложил всем желающим тестировать модель, что я и сделал. Помимо праиндоевропейского, модель говорит на английском (другие языки не проверял, общался с ботом на английском). С первых сообщений нейросеть говорит, что она особенно хороша в поэзии и намекает, что надо дать ей перевести стишок... ну что ж, здесь у нас явно есть общие темы для разговора!

Akumsk 25 апр в 11:00

RAG-технология в действии: как создать интеллектуальную систему поиска по нормативным документам

Средний

12 мин

14K

Python * Natural Language Processing * PDFИскусственный интеллектИнженерные системы *

Роадмэп

Из песочницы

В этой статье рассмотрим пример практической реализации RAG (Retrieval-Augmented Generation) на Python для ответов на вопросы пользователей с опорой на нормативную базу технических стандартов. В моём случае это строительные документы: СНиПы, СП, ГОСТы и другие. Готовое решение можно протестировать в строительном Telegram-боте: https://t.me/Pdflyx_bot - данний бот генерирует ответ на основании базы знаний, приводит цитаты и указывает страницы документов, откуда была взята информация.

Данный подход может использоваться и для других сфер: анализа проектной документации, корпоративных регламентов и любых текстовых баз знаний.

+20

bartov-e 24 апр в 22:39

Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

Простой

5 мин

5.8K

Natural Language Processing * Искусственный интеллектИзучение языков

Обзор

Перевод

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь) Во этой, третьей части авторы совсем кратенько разбирают технологии оптимизации извлеченных данных.

abletobetable 24 апр в 11:15

Обзор техник RAG: Retrieval Augmented Generation

Простой

11 мин

9.9K

Natural Language Processing *

Из песочницы

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.

Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.

Все полезные ссылки и материалы, на которые я опирался будут в конце.

+12

bartov-e 21 апр в 20:23

Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Простой

13 мин

6.9K

Natural Language Processing * Искусственный интеллектИзучение языков

Обзор

Перевод

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (первую часть см. здесь) Во второй части авторы разбирают технологии оптимизации поиска и извлечения данных. Поскольку материал я готовил в первую очередь для начинающих ИТ-переводчиков, сложные и специальные термины я сопровождал английским переводом и краткими пояснениями в комментариях (появляются на серых полях по клику). Картинок не было.

peterplv 21 апр в 12:17

Сколько стоит «Спасибо» для Сэма Альтмана

Простой

3 мин

3.7K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Недавно в X (Твиттер) один пользователь задался вопросом - сколько денег OpenAI потеряла из-за того, что люди говорят своим LLM спасибо и пожалуйста (не дословно). Сэм Альтман ответил на это: "tens of millions of dollars well spent--you never know", что можно перевести как: "десятки миллионов долларов были потрачены не зря, никогда не знаешь [на чем выиграешь].

Сложно судить, как здесь происходит на самом деле. В первую голову пришло, что такие простые завершающие сообщения можно обрабатывать отдельно. Делают ли это OpenAI, Antropic и тд не известно.

Я решил провести небольшой поверхностный тест на реальных диалогах. В качестве подопытных выбирал рассуждающие модели, как наиболее ресурсозатратные.

Читать дальше →

Yukajii 19 апр в 11:22

Руководство Google по промпт-инжинирингу. Заключительная часть: лучшие практики и рекомендации

Простой

12 мин

15K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Туториал

Перевод

В завершающей части руководства от Google мы фокусируемся на лучших практиках и тонкостях мастерства промпт-инжиниринга. Изучаем все аспекты работы с БЯМ: от контроля температуры и Top-K/Top-P параметров до применения таких техник как промптинг с отступлением, цепочки рассуждений и ReAct. Разбираем преимущества использования структурированных форматов и переменных в промптах. Завершается статья практическими советами по документированию, тестированию и оптимизации промптов. Это не просто руководство — это комплексная система знаний, позволяющая максимально эффективно использовать возможности больших языковых моделей.

AlexeySushkov 19 апр в 11:20

Накорми языковую модель документами

Простой

13 мин

17K

Машинное обучение * Искусственный интеллектIT-инфраструктура * Natural Language Processing *

Обзор

Одна из актуальных задач для компаний в сфере ИИ - это поиск и генерация ответов по внутренней документации. На первый взгляд кажется, что решение простое: скормить документы большой языковой модели (LLM) и получать ответы. На практике же технические решения оказываются далеко не такими эффективными и качественными, как хотелось бы. Сейчас для работы с локальными документами доступны два основных подхода - RAG (Retrieval-Augmented Generation) и дообучение модели (fine-tuning). Оба подхода имеют свои преимущества и ограничения. В статье рассмотрим их как с теоретической, так и с практической точки зрения.

+13

aufklarer 18 апр в 08:44

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Средний

8 мин

556

Искусственный интеллектРаспределённые системы * Scala * Big Data * Natural Language Processing *

Обзор

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей.

1 2 ...

7 8

10 11 ...

55 56

Natural Language Processing *

Model Context Protocol (MCP): как подружить нейросети со всеми API за пару кликов

Проводим слепой тест переводов прямо на Хабре

Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Leaderboard Illusion: что не так с Chatbot Arena

Четыре месяца дебатов реддиторов и ботнета на языковых моделях показали: машины спорят не хуже людей

Как сделать RAG для своей компании

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

ChatGPT теперь говорит на праиндоевропейском (и перевёл на праиндоевропейский моё стихотворение)

RAG-технология в действии: как создать интеллектуальную систему поиска по нормативным документам

Ближайшие события

Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

Обзор техник RAG: Retrieval Augmented Generation

Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Сколько стоит «Спасибо» для Сэма Альтмана

Руководство Google по промпт-инжинирингу. Заключительная часть: лучшие практики и рекомендации

Накорми языковую модель документами

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Вклад авторов