Все потоки
Поиск
Написать публикацию
Обновить
127.53

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы строим умный «файрвол» для LLM

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.7K

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт‑атакам. Мы его назвали AVI — Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале MDPI. Applied Sciences. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть. 

Заинтересовавшиеся – велком под кат.

Читать далее

Как научить нейросеть работать руками: создание полноценного ИИ-агента с MCP и LangGraph за час

Время на прочтение24 мин
Количество просмотров18K

Надоели чат‑боты, которые только болтают? Создаём настоящего ИИ‑помощника: читает файлы, ищет в сети, запоминает всё. LangGraph + MCP — пошаговый гайд для Python‑разработчиков. Меньше теории, больше работающего кода.

— Два готовых агента: классификатор вакансий + файловый помощник
— Поддержка Ollama, OpenAI, DeepSeek — выбирайте любую модель
— Асинхронная архитектура с обработкой ошибок
— Полная интеграция в Python‑проекты без no‑code конструкторов
— Код готов к продакшену: логирование, retry‑механизмы, конфигурация

От настройки окружения до рабочего агента за час.

Читать далее

AFlow: как создавать мультиагентные системы без программиста

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров2.2K

Привет, Хабр!

Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.

В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберёмся, как это работает и почему это важно.

Читать далее

Language Dove: разбираем китайскую и не только грамоту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.3K

Я довольно давно живу в Армении и изучаю армянский язык для получения гражданства («вы должны уметь читать любой документ» — сказали мне в миграционном центре).

Армянский язык очень сложен, и у меня возникла идея написать приложение для иммерсивного (dove — нырнул, погрузился) чтения на иностранном языке с пословным контекстуальным переводом, которое способно работать с любыми языками, даже с самыми редкими и сложными.

Читать далее

Некоторые мысли о преподавании (и) ИИ

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров876

Эта статья — набор мыслей о влиянии искусственного интеллекта на ландшафт современного образования в смысле рисков и возможностей, которые он несёт. Мысли несколько сумбурные, но, как мне кажется, своевременные.

Процитирую свой же текст, опубликованный в телеграм‑канале:

«В последнее время образовательное сообщество охватила паника, связанная с бессильностью по отношению к использованию AI для списывания. С проблемой столкнулись не только школы и сравнительно простые курсы университетского уровня, но и такие мастодонты как шад (https://habr.com/ru/articles/881 858/). Высказаться о новом ландшафте образовательной реальности успели и Сальман Хан, и Эрик Шмидт, и Билл Гейтс.

Проблема не обошла стороной ни гуманитарные науки, ни западные университеты. Один из первых скандалов, связанных со списыванием, произошел в 2022 году, когда Даррен Хик, профессор философии университета Фурмана (США) с удивлением обнаружил курсовую работу, полностью написанную ChatGPT. В 2022 году это ещё было в новинку. Фурман распознал статическую нетипичность работы, а также методом пристального детективного анализа обнаружил колоссальное количество фактических ошибок в работе, ни одна из которых изначально не бросалась в глаза.

С тех пор всё стало хуже. LLM решают почти любые мыслимые задачи любой технической области, зачастую не оставляя явных артифактов своей работы. Звучали разные идеи по преодолению этого кризиса: от использования специальных ребусоподобных форматов заданий (капча и задача — 2 в 1) и попыток формулировать задания с учётом уязвимостей LLM до тотального возвращения к аналоговым форматам сдачи экзаменов.

Читать далее

Cache-Augmented Generation против RAG: как ускорить инференс без потери качества

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3K

Привет, чемпионы! Сегодня расскажу про очень интересную вещь, которая в определенных ситуаций, может быть выгоднее, чем RAG, а также свой опыт в проведении R&D данной технологии и с помощью какой надстройки можно усилить RAG, чтоб прийти к середине между CAG и RAG.

В настоящее время существует множество техник для улучшения качества ответов LLM при работе с частными или корпоративными данными. В этой статье я постараюсь кратко и понятно объяснить:

• что такое CAG

• в каких случаях он действительно применим

• с какими подводными камнями столкнулись мы, а можете и вы при его использовании,

• и какую надстройку можно внедрить в RAG, чтобы приблизиться к эффективности CAG, не теряя гибкости ретривера.

Читать далее

Используем искусственный интеллект для проектирования информационных систем: от составления ТЗ до прорисовки архитектуры

Уровень сложностиПростой
Время на прочтение26 мин
Количество просмотров4.5K

Всем привет! Сегодня поговорим о GenAI и о том, какую неоценимую помощь он может оказать при проектировании и разработке информационных систем. Мы обсудим, как GenAI может использоваться для этой задачи, с какими трудностями столкнётся и какой результат можно получить.

Рассмотрим процесс проектирования на конкретном примере выполнив серию промптов,а так же проверим как GenAi умеет рисовать диаграммы в форматах UML и Mermaid.

Читать далее

Свой ChatGPT на документах: делаем RAG с нуля

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров19K

Всем привет! Наверняка у вас были ситуации, когда нужно быстро найти что-то в длинном документе-договоре, инструкции или отчёте. Сегодня я покажу, как сделать своего помощника, который будет отвечать на такие вопросы автоматически. Соберем RAG с нуля: загрузим документы, "нарежем" их на куски, проиндексируем в векторной базе данных Qdrant и подключим LLaMA.

Если вы увидели незнакомые слова — не пугайтесь, далее я расскажу об этом подробно.

Читать далее

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров24K

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.

В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей.

Читать далее

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров10K

В этой статье мы говорим об автопромптинге - что это такое, зачем он нужен и как он помогает уже сегодня промпт-инженерам.

Читать далее

Используем API Speech2Text для распознавания записей разговоров

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.8K

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную.

Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

Читать далее

Готовимся к собесу: positional encodings в 2025 году

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров4.3K

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Читать далее

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров787

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Ближайшие события

Георгий Герганов, автор llama.cpp и звукового кейлогера

Время на прочтение6 мин
Количество просмотров17K

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов, мало известен широкой публике.

Читать далее

Часть 4: Mamba — State Space Models vs трансформеры

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

Mamba — революция в обработке длинных последовательностей! Mamba — State Space Models vs трансформеры, что лучше?!

Читать далее

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров1.3K

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее

Как мы построили свой инструмент для работы с LLM

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.2K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.

В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.

Итак, что же такое Data Studio ?

Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.

С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.

Общий процесс создания языковой модели для перевода выглядит так:

1) Предобработка данных: этап подготовки данных перед обучением модели.

2) Фильтрация с использованием структурных и семантических фильтров.

3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.

4) Тегирование для классификации данных.

5) Загрузка общего набора данных в Data Studio для проверки.

6) Создание данных для валидации и тестирования модели.

7) Обучение модели.

Читать далее

От традиционных LLM-агентов к Agentic AI: будущее автоматизации бизнеса + реализация вашего ассистента по темам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.9K

В последние месяцы термин Agentic AI всё чаще мелькает в статьях, репозиториях и продуктовых обновлениях крупных компаний. Но что он на самом деле означает? В чем вообще отличие от обычного LLM агента, на которого я накручу все, что мне нужно? И соответственно, как это может помочь бизнесу?

Сегодня расскажу про все это, а также расскажу какие существуют реальные примеры интеграции в бизнес и сделаем мини примерчик на базе langgraph, который поможет вам понять примитивы концепции в которой у нас будет небольшой оркестратор в виде Qwen3:4b и его маленькие подопечные в виде Qwen3:1.7b. И сравним решения, если мы будем использовать стандартный пайплайн из LLM-агентов.

Читать далее

ИИ-помощник редактора на Хабре: семь раз вайб-код — один раз поймешь

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров2.4K

Привет! На связи Николай из редакции блога YADRO. Наша команда регулярно поставляет на площадку статьи по инженерным и смежным темам. Мы смотрим на статистику, радуемся или огорчаемся, проверяем гипотезы и верим, что в ответ график роста посмотрит на нас под новым, бо́льшим углом.

Со временем число текстов в блоге YADRO неуклонно растет. А моя оперативная память редактора остается неизменной: пара-тройка последних месяцев плюс несколько ярких вспышек пораньше. Зато растет FOMO — тревога, что я мог бы найти новые возможности для развития блога, будь мой фокус шире. Поможет ли здесь искусственный интеллект? «Отличный кейс!» — ответила ChatGPT, и я начал первую версию проекта.

Читать далее

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров21K

От бизнес‑проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов

Представьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF-инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

Как ИИ может помочь сотруднику?