Обновить
123.14

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub

Время на прочтение5 мин
Охват и читатели5.4K

Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%.

Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.

Читать далее

Как и зачем мы замеряли знания культурного кода у YandexGPT

Время на прочтение7 мин
Охват и читатели3.9K

Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей — она обязана понимать культурные отсылки самого разного уровня.

В статье про бенчмарки для LLM уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и думаю пришло время рассказать о нём подробнее — как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT и каким мемам её учили.

Читать далее

Если шутка не смешная: как расшифровать культурный код фильма при помощи LLM

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели867

Если шутка не смешная: расшифровываем культурные коды фильма при помощи LLM
Вы учите иностранный язык, возможно уже хорошо его знаете и смотрите фильмы в оригинале, но часть шуток и культурных нюансов по‑прежнему ускользает от вас? Как понять без контекста, да даже и в контексте, что такое «bake sale» или кто такие «Momsters», если это не часть вашей родной культуры? Я нашла для себя способ, как при помощи LLM относительно быстро и недорого расшифровывать скрытые культурные коды фильма — делюсь своим первым опытом.

Читать далее

Сортировка книг по тематикам скриптами Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.2K

На момент написания этой заметки около половины из 16 тысяч книг в моей библиотеке — ИТшные, другая половина — медицинские. Две трети этих книг на английском, одна треть — на русском.

Примерно раз в месяц я с телеграм-каналов докачиваю еще 1–2 тысячи книг, из которых реально новых — не более 100–200, остальное у меня уже есть. Кроме того, попадаются сканированные книги с околонулевой пользой, если их не распознавать.

Всё это добро мне нужно регулярно дедуплицировать, раскладывать по тематическим папочкам, выкладывать в облако для коллег и при этом не тратить на это много времени. Готовых программ для таких задач я не нашел, поэтому, как мог, справлялся сам — писал скрипты на Python.

Читать далее

BABILong — бенчмарк для оценки LLM на больших контекстах

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели1.3K

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

Читать далее

Бенчмарк SLAVA: шаг к мировоззренческому суверенитету

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели2K

Бенчмарк SLAVA: шаг к мировоззренческому суверенитету.

SLAVA Space on Hugging Face - Наш актульный лидерборд на HF
SLAVA Benchmark - В этом репозитории находится код и документация для фрейморвка
SLAVA Dataset on Hugging Face - Открытый набор данных включает 2.8 тысяч вопросов

Читать далее

Kandinsky 4.0 — новая модель генерации видео

Уровень сложностиСложный
Время на прочтение28 мин
Охват и читатели20K

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. 

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

Читать далее

Промптинг: действительно полезное руководство

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели20K

Промпт-инженеринг - это не просто наука, это настоящее искусство, требующее практики и постоянного совершенствования. Вооружившись знаниями из этого руководства и регулярно применяя их на практике, вы сможете создавать более эффективные промпты и получать именно те результаты, которые вам нужны.

Читать далее

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Время на прочтение41 мин
Охват и читатели5.5K

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

Читать далее

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели2.7K

Привет! Меня зовут Петр Зайдель и я — старший разработчик в Музыке. Вместе с другими ребятами из Яндекса, которые развивают рекомендательные системы в разных сервисах, я в октябре побывал на международной конференции ACM RecSys — 2024 в итальянском городе Бари. Сегодня хочу поделиться с Хабром впечатлениями, трендами и, конечно, обзорами самых интересных научных статей с конференции. Думаю, мой рассказ будет полезен всем специалистам в сфере рекомендательных систем, которые следят за трендами и готовы пробовать в своей работе что‑то новое и интересное.

Читать далее

Задача Emotional FusionBrain 4.0: итоги и победители

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели692

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

Читать далее

NLP: когда машины начинают понимать нас (Часть 3)

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели2.8K

В этой статье мы продолжим изучение NLP и перейдем к более продвинутым темам, которые являются главными для построения современных приложений и моделей в области обработки естественного языка. А также создадим и обучим модели самостоятельно, используя TensorFlow/Keras и PyTorch.

Читать далее

NLP: когда машины начинают понимать нас (Часть 2)

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели2.4K

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

Читать далее

Ближайшие события

NLP: когда машины начинают понимать нас (Часть 1)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.4K

Представьте, что вы можете разговаривать с компьютером так же естественно, как с обычным человеком. Вы задаёте вопросы, получаете ответы, даёте команды - и это всё на вашем родном языке. Именно этим и занимается обработка естественного языка (Natural Language Proccessing, или NLP) - область искусственного интеллекта, которая фокусируется на взаимодействии между компьютерами и людьми с помощью естественного языка.

Цель NLP - научить компьютеры понимать, интерпретировать и генерировать человеческую речь и текст так же, как это делаем мы. Это включает в себя не только распознавание слов, но и понимание их смысла, контекста и эмоций.

Читать далее

VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.3K

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами, модель может синтезировать речь для нового диктора, основываясь лишь на коротком аудио образце его голоса (prompt).

Основанная на своем предшественнике VALL-E, новая итерация вводит два значительных улучшения: Repetition Aware Sampling и Grouped Code Modeling.

Repetition Aware Sampling (Выборка с учетом повторений) решает проблему зацикливания, с которой сталкивался предыдущий VALL-E. Если модель начинает повторять одни и те же звуки, она автоматически переключается на более точный метод выбора, чтобы избежать "застревания". Grouped Code Modeling (Моделирование групп кодов) - звуковые коды группируются и обрабатываются вместе, как слоги в словах. Это ускоряет синтез речи и позволяет модели лучше учитывать контекст, делая речь более естественной и связной.

Синтез речи из текста (TTS) направлен на генерацию высококачественной речи из текстового ввода с высокой степенью ясности и разборчивости.

Читать далее

Chronos от Amazon: революция в обработке временных рядов. Часть 2

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели2.1K

Итак, друзья, продолжаем тему прогнозирования временных рядов с помощью Chronos.

Напомню, что Chronos это фреймворк от компании Amazon — простой, но эффективный фрэймворк для предобученных вероятностных моделей временных рядов.

Chronos токенизирует значения временных рядов с помощью масштабирования и квантования в фиксированный словарь и обучает существующие архитектуры языковых моделей на основе трансформеров на этих токенизированных временных рядах с использованием функции потерь кроссэнтропии. Chronos был предобучен на основе семейства T5 (размеры от 20M до 710M параметров) на большом количестве общедоступных наборов данных, дополненных синтетическим набором данных, который сгенерировали с помощью гауссовских процессов для улучшения обобщения.

В этой статье я не буду подробно рассказывать как устроен Chronos и на чем он предобучен. Вся эта информация подробно изложена в моей предыдущей статье (Часть 1). Здесь мы попробуем применить его на общедоступных данных на примере прогнозирования котировок акций компаний из индекса Dow Jones (общедоступный датасет на Kaggle), а также на данных одного крупного российского перевозчика.

По биржевым данным цель была проста, посмотреть, как новый инструмент справляется с задачей предсказания цены акции. А на данных с железной дороги в качестве цели исследования выбрали построение прогнозов по количеству отступлений, называемых просадка пути. Многие из вас ездили поездом, и вот когда качает, это зачастую и есть просадки. Отступление довольно часто и быстро возникающее, влияет на безопасность движения, плавность хода и скорость. И предприятиям, обслуживающим путь, полезно оценивать при планировании, сколько таких отступлений предстоит устранять в следующем месяце. Данные брали посуточные, для десяти случайно выбранных предприятий. Временной период в 4 года, из них 1 месяц для тестирования. Посуточные показатели суммировали до месяца. В случае Dow Jones, пытаемся предсказать цену закрытия акции посуточно на 12 точек вперед.

Читать далее

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

Время на прочтение17 мин
Охват и читатели4.1K

В сервисе Яндекс Переводчик мы поддерживаем перевод между 102 языками. Наша цель — обеспечивать качественный перевод для самых разных типов данных: текстов, документов, HTML, изображений и видео. Сегодня обсудим ключевой компонент для обучения моделей машинного перевода — данные для обучения.

Современные нейросетевые подходы очень требовательны как к объёму данных в обучении, так и к их качеству. Для получения хорошей переводной модели требуются сотни миллионов, а в идеале миллиарды параллельных предложений (пар из предложения и его перевода). Возникает вопрос: откуда их взять и что это за данные?

В этой статье я расскажу о том, как из текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё коротко подсвечу, какое место в этом процессе занимает наша YandexGPT и что это за зверь такой — YandexGPT‑MT.

Читать далее

Основы промптинга и математические возможности моделей Llama

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.5K

Меня зовут Грибанов Никита, я Data Scientist в отделе R`n`D&ML компании Raft Digital Solutions, и сегодня я расскажу о больших языковых моделях. На данный момент в мире их существует уже более 39 тысяч! Далее буду называть их хайповым названием LLM (Large Language Model).

В этой статье вы сначала узнаете новые или освежите в памяти уже известные вам основы общения с языковыми моделями. Затем разберёте пару реальных примеров настройки запросов и увидите математические возможности Llama 3.2 3B в сравнении с Llama 3.1 8B.

Для достижения хороших результатов при решении различных задач с помощью LLM, с ними как и с людьми, нужно уметь правильно общаться. Как же это сделать?

Читать далее

Безграничное сократическое обучение с помощью языковых игр (перевод статьи Tom Schaul из Google DeepMind)

Уровень сложностиПростой
Время на прочтение23 мин
Охват и читатели754

Tom Schaul, Google DeepMind London, UK tom@deepmind.com

Перевод статьи: БЕЗГРАНИЧНОЕ СОКРАТИЧЕСКОЕ ОБУЧЕНИЕ С ПОМОЩЬЮ ЯЗЫКОВЫХ ИГР

Агент, обученный в замкнутой системе, может освоить любую желаемую способность при соблюдении следующих трех условий: (а) он получает достаточно информативную и согласованную обратную связь, (б) его охват опыта/данных достаточно широк, и (в) он обладает достаточной емкостью и ресурсами. В данной концептуальной статье мы обосновываем эти условия и рассматриваем ограничения, возникающие из-за условий (а) и (б) в замкнутых системах, предполагая, что (в) не является узким местом. Рассматривая особый случай агентов с совпадающими пространствами входных и выходных данных (а именно, язык), мы утверждаем, что такое чистое рекурсивное самосовершенствование, названное "сократическим обучением", может значительно повысить производительность за пределы того, что присутствует в исходных данных или знаниях, и ограничивается только временем, а также проблемами постепенного рассогласования. Кроме того, мы предлагаем конструктивную основу для его реализации, основанную на понятии языковых игр.

Читать далее...

Создаём генератор аудиокниг с персональным переводом

Уровень сложностиСредний
Время на прочтение39 мин
Охват и читатели4.4K


Привет, Хабр!

Изучая четвёртый язык, я в очередной раз решил попробовать обучить свою биологическую нейросеть на книгах с параллельным переводом, но после пары вечеров в такой же очередной раз их оставил. Подобный подход, когда переводом сопровождается каждое предложение, кажется несколько избыточным и мешающим погружению, и если в текстовом варианте можно хотя бы перескочить взглядом через перевод, то для прочих форматов, например, для любимых мною аудиокниг, этот подход не сработает в принципе.

Самый популярный вариант «обучающего перевода», которым пользовались и вы, – интерактивный, в котором пользователь следит за текстом на языке оригинала, и сам раскрывает переводы и пояснения забытых или новых для себя слов. Можно ли совместить эти подходы, взяв преимущества каждого, и переложить их в формат аудиокниги? Этим сегодня и займёмся.
Читать дальше →

Вклад авторов