Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

bartov-e 24 апр в 22:39

Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

Простой

5 мин

3.7K

Natural Language Processing * Искусственный интеллектИзучение языков

Обзор

Перевод

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь) Во этой, третьей части авторы совсем кратенько разбирают технологии оптимизации извлеченных данных.

abletobetable 24 апр в 11:15

Обзор техник RAG: Retrieval Augmented Generation

Средний

11 мин

6.8K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Обзор

Из песочницы

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.

Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.

Все полезные ссылки и материалы, на которые я опирался будут в конце.

+12

bartov-e 21 апр в 20:23

Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Простой

13 мин

4.5K

Natural Language Processing * Искусственный интеллектИзучение языков

Обзор

Перевод

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (первую часть см. здесь) Во второй части авторы разбирают технологии оптимизации поиска и извлечения данных. Поскольку материал я готовил в первую очередь для начинающих ИТ-переводчиков, сложные и специальные термины я сопровождал английским переводом и краткими пояснениями в комментариях (появляются на серых полях по клику). Картинок не было.

peterplv 21 апр в 12:17

Сколько стоит «Спасибо» для Сэма Альтмана

Простой

3 мин

2.4K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Недавно в X (Твиттер) один пользователь задался вопросом - сколько денег OpenAI потеряла из-за того, что люди говорят своим LLM спасибо и пожалуйста (не дословно). Сэм Альтман ответил на это: "tens of millions of dollars well spent--you never know", что можно перевести как: "десятки миллионов долларов были потрачены не зря, никогда не знаешь [на чем выиграешь].

Сложно судить, как здесь происходит на самом деле. В первую голову пришло, что такие простые завершающие сообщения можно обрабатывать отдельно. Делают ли это OpenAI, Antropic и тд не известно.

Я решил провести небольшой поверхностный тест на реальных диалогах. В качестве подопытных выбирал рассуждающие модели, как наиболее ресурсозатратные.

Читать дальше →

Yukajii 19 апр в 11:22

Руководство Google по промпт-инжинирингу. Заключительная часть: лучшие практики и рекомендации

Простой

12 мин

9.3K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Туториал

Перевод

В завершающей части руководства от Google мы фокусируемся на лучших практиках и тонкостях мастерства промпт-инжиниринга. Изучаем все аспекты работы с БЯМ: от контроля температуры и Top-K/Top-P параметров до применения таких техник как промптинг с отступлением, цепочки рассуждений и ReAct. Разбираем преимущества использования структурированных форматов и переменных в промптах. Завершается статья практическими советами по документированию, тестированию и оптимизации промптов. Это не просто руководство — это комплексная система знаний, позволяющая максимально эффективно использовать возможности больших языковых моделей.

AlexeySushkov 19 апр в 11:20

Накорми языковую модель документами

Простой

13 мин

12K

Natural Language Processing * IT-инфраструктура * Искусственный интеллектМашинное обучение *

Обзор

Одна из актуальных задач для компаний в сфере ИИ - это поиск и генерация ответов по внутренней документации. На первый взгляд кажется, что решение простое: скормить документы большой языковой модели (LLM) и получать ответы. На практике же технические решения оказываются далеко не такими эффективными и качественными, как хотелось бы. Сейчас для работы с локальными документами доступны два основных подхода - RAG (Retrieval-Augmented Generation) и дообучение модели (fine-tuning). Оба подхода имеют свои преимущества и ограничения. В статье рассмотрим их как с теоретической, так и с практической точки зрения.

+13

aufklarer 18 апр в 08:44

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Средний

8 мин

402

Искусственный интеллектРаспределённые системы * Scala * Big Data * Natural Language Processing *

Обзор

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.), а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей.

Yukajii 17 апр в 20:17

Руководство Google по промпт-инжинирингу. Часть 2: продвинутый промптинг и работа с кодом

Средний

25 мин

12K

Искусственный интеллектNatural Language Processing * Машинное обучение *

Туториал

Перевод

Представляю вашему вниманию перевод второй части статьи "Prompt Engineering" (Промпт-инжиниринг) авторства Lee Boonstra - Software Engineer Tech Lead, Office of the CTO в Google. Эта публикация продолжает цикл переводов, посвященных методам эффективного взаимодействия с большими языковыми моделями.

В первой части мы познакомились с основами промпт-инжиниринга, базовыми настройками БЯМ и ключевыми техниками промптинга. Вторая часть посвящена более продвинутым и специализированным методам, которые существенно расширяют возможности работы с языковыми моделями и позволяют решать более сложные задачи.

Оригинальная публикация фокусируется в основном на моделях Gemini и сервисе Vertex AI от Google, однако описанные техники и рекомендации универсальны и применимы практически ко всем современным большим языковым моделям (GPT, Claude, Llama и др.).

+19

Yukajii 16 апр в 13:15

Руководство Google по промпт-инжинирингу. Часть 1: основы и базовые техники

Простой

18 мин

37K

Искусственный интеллектNatural Language Processing * Машинное обучение *

Туториал

Из песочницы

Перевод

Представляю вашему вниманию перевод статьи "Prompt Engineering" (Промпт-инжиниринг) авторства Lee Boonstra - Software Engineer Tech Lead, Office of the CTO в Google.

Это первая часть из цикла трех статей, где мы разберем основы промпт-инжиниринга и базовые техники взаимодействия с большими языковыми моделями. Вы узнаете, как настраивать параметры моделей, использовать различные типы промптов и получать предсказуемые, релевантные результаты. Несмотря на фокус оригинала на Gemini/Vertex AI, описанные принципы применимы ко всем современным моделям ИИ.

+55

JDTapp 15 апр в 19:08

Как мы собираем SWE-bench на других языках

Средний

7 мин

1.2K

Блог компании DoubletappМашинное обучение * Natural Language Processing * GitHub * Open source *

Кейс

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.

Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.

В статье расскажем:

• Что такое SWE-Bench
• Какие сложности возникают при сборе данных и тестировании
• Наш опыт: какие языки поддерживает SWE-bench
• Ручная перепроверка, или SWE-bench Verified
• Сравниваем SWE-bench с другими бенчмарками для разработки ПО
• Ценообразование SWE-bench: как формируется стоимость одного датапойнта

Amarik 15 апр в 09:16

Спецификация формата RTTM: полное техническое описание

Простой

8 мин

499

IT-стандарты * Программирование * Машинное обучение * Natural Language Processing * Big Data *

Из песочницы

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.
Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие.

Узнать больше про RTTM!

km1337 15 апр в 07:00

Вайб-кодинг: практика, о которой почему-то не говорят

10 мин

36K

Блог компании h3llo.cloudNatural Language Processing * Машинное обучение * Управление проектами *

В феврале мир разработки перевернулся с выходом Sonnet 3.7. Потому что вдруг внезапно оказалось, что джуны уже не очень-то и нужны. И нейросетка нормально заменяет мидлов тоже.

Я откидываюсь в кресле, беру наушники и смотрю, как работает LLM. Можно сразу несколько, работающих над разными частями проекта:

Пример проекта с прикручиванием аналитики к инфраструктуре:

Сначала в GPT 4.5 провёл продуктовые исследования и сформулировал требования.
Попросил превратить это в архитектурный план.
Отревьюил, поправил тупые ошибки.
Затем этот план (как метапромпт) скормил Sonnet в VS Code через плагин Cline. Попросил сначала создать общую структуру, шаблонные имплементации, документацию, спецификации API (protobuf для gRPC, REST API).
Архитектурно сразу заложил микросервисы. Sonnet для каждого сервиса подобрал и обосновал оптимальную базу данных (где-то Postgres, где-то ClickHouse и т.д.).
Сгенерировал SDK для взаимодействия, примеры использования. Сразу заложил observability: централизованные логи, метрики Prometheus, трейсинг Jaeger/Tempo, дашборды для Grafana.
Потом итерационно генерировал код: сначала тесты (End-to-end, BDD), потом имплементацию под эти тесты.
Написал манифесты для Kubernetes и Docker Compose для локального запуска.
Сгенерировал даже скрипты для тестов REST API через curl и gRPC через gRPCurl.

И всё.

А теперь практика — что делать с тем, что современные нейросети учились преимущественно на говнокоде и как быть с джунами.

Читать дальше →

+63

200

alexprozoroff 15 апр в 06:15

Помощник читателя: визуализируем сюжет

Простой

7 мин

1.8K

Машинное обучение * Искусственный интеллектPython * Natural Language Processing *

Кейс

Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:

- граф связей между героями
- хронологию событий
- карту мест действия

+20

PatientZero 14 апр в 09:01

Llama 4 плоха во всём

Простой

17 мин

8.9K

Машинное обучение * Искусственный интеллектНаучно-популярноеNatural Language Processing *

Мнение

Перевод

Выпущенные 5 апреля Llama Scout (17 миллиардов активных параметров, 16 экспертов, 109 миллиардов параметров суммарно) и Llama Maverick (17 миллиардов активных параметров, 128 экспертов, 400 миллиардов параметров суммарно) выглядят крайне разочаровывающе. Они разочаровывают настолько, что пользователи даже предполагают причиной неправильную конфигурацию; они задаются вопросами и спорят о том, насколько сильно манипулировали бенчмарками.

Это был самая негативная реакция на выпуск модели, совершенно противоположная реакции на Gemini 2.5 Pro. Я уже видел столь же глубоко разочаровывающие и запутывающие релизы, но они не были американскими и выпускались лабораториями, бенчмарки и заявления которых, как мы уже поняли, не стоит брать в расчёт при оценке возможностей моделей.

После этого релиза я помещаю Meta* в эту категорию ИИ-лабораторий, заявлениям которых не следует доверять, которые не соответствуют нормам отрасли и которые точно не находятся на переднем рубеже исследований. Пока не доказано обратное, я исключу её из категории, в которой находятся OpenAI, Anthropic, Google, xAI и DeepSeek.

+13

noobaitranslator 13 апр в 18:02

Google инструкция по промпт инжинирингу или как правильно писать запросы (краткий перевод)

Простой

8 мин

24K

Natural Language Processing *

Из песочницы

Перевод

Гугл выпустили простую и понятную инструкцию, как настраивать модель, как создавать промпты, что влияет на результат, и небольшие лайфхаки. Оригинал.

Дальше будет небольшая выжимка и перевод с помощью ChatGPT.

Промпт-инжиниринг — это навык создания эффективных входных данных (запросов), чтобы направлять эти мощные модели ИИ к генерации конкретных, точных и полезных результатов, которые вам нужны.

Что такое Промпт-инжиниринг?

Большая Языковая Модель(БЯМ) работает, предсказывая наиболее вероятную последовательность слов (или «токенов»), следующую за вашим вводом. Когда вы пишете запрос, вы, по сути, задаете начальную точку и направление для этого процесса предсказания. Промпт-инжиниринг включает в себя:

+24

1endstick 12 апр в 11:23

ai-2027.com на русском: концовка по сценарию Замедления

Простой

34 мин

2.3K

Искусственный интеллектNatural Language Processing * Будущее здесьНаучно-популярноеИсследования и прогнозы в IT *

Перевод

Это алтернативная концовка моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, ссылается на кучу данных, имеет две концовки (!) и сейчас все о нём говорят.

Эта концовка проиграла на голосовании в конце второй части

В предыдущих сериях

...три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью...

...он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...быть идеально честным все время — это не то,

enjoykaz 11 апр в 12:24

Академия OpenAI для разработчиков: Разбор 10 лекций про API, RAG, Fine-tuning

Простой

8 мин

Искусственный интеллектNatural Language Processing * Проектирование API *

Туториал

OpenAI запустила свою Академию — десятки видеолекций. Полезно, но далеко не все. Если вы разработчик или аналитик, которому нужны технические детали и практические руководства по API, моделям и их оптимизации, смотреть всё подряд — не вариант.

Я изучил доступные материалы и сделал выжимку из только технических материалов. Этот гайд проведет по 10 ключевым лекциям вышедшим на сегодня, которые помогут разобраться в Function Calling, RAG, Fine-tuning, Evals и других важных темах. Мы не будем здесь касаться лекций для новичков, материалов про Sora или использования ИИ в образовании — только хардкор, только для тех, кто строит и анализирует LLM.

+18

huraligne 10 апр в 15:37

RAG: борьба с низким качеством ответов в условиях экономии памяти на GPU

9 мин

3.6K

Блог компании Первая грузовая компания (ПГК)Natural Language Processing * Искусственный интеллектМашинное обучение *

Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы начинаем серию статей, в которой я расскажу о том, как мы с командой разрабатывали ИИ-помощника, а также приведу практические кейсы по улучшению точности ответов с минимальными затратами памяти графических процессоров.

Как вы уже могли догадаться, наш ИИ-помощник разработан на основе RAG (Retrieval-Augmented Generation) системы. Хотя принцип работы RAG многим уже знаком и не вызывает того самого «вау», я всё же кратко напомню, как эта система работает, почему она так популярна и почему её ответам можно доверять.

В этой статье я расскажу, как мы разрабатывали RAG-систему для юридического отдела нашей компании, с какими вызовами столкнулись и как их преодолевали. Вы узнаете, почему стандартные подходы не всегда работают, и как, погрузившись в специфику данных, мы смогли значительно улучшить качество ответов, сохранив при этом экономию ресурсов GPU.

1endstick 10 апр в 09:10

ai-2027.com на русском: ч2

Простой

27 мин

4.1K

Искусственный интеллектNatural Language Processing * Будущее здесьНаучная фантастикаИсследования и прогнозы в IT *

Перевод

Это вторая часть моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, опирается на кучу данных, имеет две концовки (!) и сейчас все о нём говорят.

В предыдущей серии:

...модель была «согласована» (aligned), так что она откажется выполнять вредоносные запросы...

...исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации...

...Ранним утром агент мониторинга трафика Agent-1 обнаруживает аномал

1endstick 9 апр в 09:09

ai-2027.com на русском

Простой

32 мин

19K

Искусственный интеллектНаучная фантастикаNatural Language Processing * Будущее здесьИсследования и прогнозы в IT *

Перевод

Эта статья на прошлой неделе взорвала твиттер и русскоязычный ИИ-телеграм. Большинство серьезных ии-блогеров написали по ней обзоры. Почему? Да просто это никакая не статья, а полноценный sci-fi рассказ про ближайшее будущее, только с кучей референсов на реальные данные.

Написан топовыми чуваками в ИИ, один из которых работал в OpenAI и уже писал похожие предсказания в 2021 году, которые сбылись с поразительной точностью.

А еще тут 2 концовки (!)

Читать

+13

1 2 ...

10 11

13 14 ...

57 58

Natural Language Processing *

Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

Обзор техник RAG: Retrieval Augmented Generation

Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Сколько стоит «Спасибо» для Сэма Альтмана

Руководство Google по промпт-инжинирингу. Заключительная часть: лучшие практики и рекомендации

Накорми языковую модель документами

Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Руководство Google по промпт-инжинирингу. Часть 2: продвинутый промптинг и работа с кодом

Руководство Google по промпт-инжинирингу. Часть 1: основы и базовые техники

Как мы собираем SWE-bench на других языках

Спецификация формата RTTM: полное техническое описание

Вайб-кодинг: практика, о которой почему-то не говорят

Помощник читателя: визуализируем сюжет

Ближайшие события

Llama 4 плоха во всём

Google инструкция по промпт инжинирингу или как правильно писать запросы (краткий перевод)

ai-2027.com на русском: концовка по сценарию Замедления

Академия OpenAI для разработчиков: Разбор 10 лекций про API, RAG, Fine-tuning

RAG: борьба с низким качеством ответов в условиях экономии памяти на GPU

ai-2027.com на русском: ч2

ai-2027.com на русском

Вклад авторов