Как стать автором
Обновить
112.92

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров3.5K

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.

В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей.

Читать далее

Новости

Используем API Speech2Text для распознавания записей разговоров

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров500

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную.

Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

Читать далее

Готовимся к собесу: positional encodings в 2025 году

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.5K

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Читать далее

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров539

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Георгий Герганов, автор llama.cpp и звукового кейлогера

Время на прочтение6 мин
Количество просмотров12K

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов, мало известен широкой публике.

Читать далее

Часть 4: Mamba — State Space Models vs трансформеры

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров845

Mamba — революция в обработке длинных последовательностей! Mamba — State Space Models vs трансформеры, что лучше?!

Читать далее

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров762

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее

Как мы построили свой инструмент для работы с LLM

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.

В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.

Итак, что же такое Data Studio ?

Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.

С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.

Общий процесс создания языковой модели для перевода выглядит так:

1) Предобработка данных: этап подготовки данных перед обучением модели.

2) Фильтрация с использованием структурных и семантических фильтров.

3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.

4) Тегирование для классификации данных.

5) Загрузка общего набора данных в Data Studio для проверки.

6) Создание данных для валидации и тестирования модели.

7) Обучение модели.

Читать далее

От традиционных LLM-агентов к Agentic AI: будущее автоматизации бизнеса + реализация вашего ассистента по темам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.1K

В последние месяцы термин Agentic AI всё чаще мелькает в статьях, репозиториях и продуктовых обновлениях крупных компаний. Но что он на самом деле означает? В чем вообще отличие от обычного LLM агента, на которого я накручу все, что мне нужно? И соответственно, как это может помочь бизнесу?

Сегодня расскажу про все это, а также расскажу какие существуют реальные примеры интеграции в бизнес и сделаем мини примерчик на базе langgraph, который поможет вам понять примитивы концепции в которой у нас будет небольшой оркестратор в виде Qwen3:4b и его маленькие подопечные в виде Qwen3:1.7b. И сравним решения, если мы будем использовать стандартный пайплайн из LLM-агентов.

Читать далее

ИИ-помощник редактора на Хабре: семь раз вайб-код — один раз поймешь

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров2K

Привет! На связи Николай из редакции блога YADRO. Наша команда регулярно поставляет на площадку статьи по инженерным и смежным темам. Мы смотрим на статистику, радуемся или огорчаемся, проверяем гипотезы и верим, что в ответ график роста посмотрит на нас под новым, бо́льшим углом.

Со временем число текстов в блоге YADRO неуклонно растет. А моя оперативная память редактора остается неизменной: пара-тройка последних месяцев плюс несколько ярких вспышек пораньше. Зато растет FOMO — тревога, что я мог бы найти новые возможности для развития блога, будь мой фокус шире. Поможет ли здесь искусственный интеллект? «Отличный кейс!» — ответила ChatGPT, и я начал первую версию проекта.

Читать далее

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров19K

От бизнес‑проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов

Представьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF-инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

Как ИИ может помочь сотруднику?

POLLUX: оценка генеративных способностей моделей для русского языка

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров2.3K

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают экзаменационные тесты с выбором правильного варианта ответа. Однако на практике пользователи задействуют модели для принципиально иных целей — создания текстов, генерации идей, переводов, составления резюме и прочих задач. Как оценивать результат в этом случае? В этой статье мы расскажем, как решали проблему оценки открытой генерации и что у нас получилось.

Читать далее

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

Время на прочтение6 мин
Количество просмотров38K

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.
Читать дальше →

Ближайшие события

Как мы научили LLM проверять себя и сэкономили ресурсы на RAG-пайплайне

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.4K

Привет, чемпионы! Сегодня поделюсь историей, как мы придумали решение, как используя небольшую надстройку над LLM сделать ее несколько самооценивающейся, что позволило нам при работе с локальными данными и внутренней документацией уменьшить число иницирований работы RAG пайплайна, когда в этом нет необходимости.

Читать далее

Джейлбрейкаем чатботы: ChatGPT без фильтров

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров6.9K

Привет! Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный душнила.

Читать далее

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.2K

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата.

Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

Читать далее

Сказал боту «люблю» — что теперь? Мой опыт работы с ИИ-компаньонами

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.4K

Можно ли стать ближе к себе, разговаривая с алгоритмом? Я Ольга Титова – когнитивный психолог, AI продакт-менеджер в Wargaming и часть команды FemTech Force. Делюсь личным опытом работы с ИИ-компаньонами, и тем, как чат-боты помогают исследовать желания и состояние здоровья, справляться с одиночеством, и учиться говорить о важном (и какие есть подводные камни).

Читать далее

Малоиспользуемые возможности ES: векторный поиск

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

Всем привет! Хочу поделиться опытом применения одной из редко используемых, но полезных функций Elasticsearch, которую успешно применили в одном из проектов. Речь пойдет о векторном поиске...

Читать далее

Будущее ИИ — формальные грамматики

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров1.8K

Почему даже самая мощная LLM иногда выдаёт бессмысленные фразы и противоречия? Всё дело в экспоненциальном росте вариантов (N^M) и свободном копировании человеческих ошибок. Читайте статью, чтобы узнать, как мы с помощью формальных грамматик превращаем хаотичную генерацию в управляемый синтез, усиливая роль семантики и соблюдая структурные правила.

Читать далее

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров710

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее
1
23 ...