Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

VArkhipkin 13 дек 2024 в 07:14

Kandinsky 4.0 — новая модель генерации видео

Сложный

28 мин

26K

Блог компании СберБлог компании SberDevicesМашинное обучение * Обработка изображений * Natural Language Processing *

Обзор

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео.

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

+54

aleks1k 12 дек 2024 в 08:31

Промптинг: действительно полезное руководство

Средний

11 мин

29K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Туториал

Промпт-инженеринг - это не просто наука, это настоящее искусство, требующее практики и постоянного совершенствования. Вооружившись знаниями из этого руководства и регулярно применяя их на практике, вы сможете создавать более эффективные промпты и получать именно те результаты, которые вам нужны.

Pazus 12 дек 2024 в 08:06

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

41 мин

8.3K

Блог компании ЯндексГолосовые интерфейсы * Natural Language Processing * Машинное обучение * Искусственный интеллект

✏️ Технотекст 7

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

+52

PeterZaidel 11 дек 2024 в 07:00

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Средний

17 мин

3.8K

Блог компании ЯндексИскусственный интеллектКонференцииМашинное обучение * Natural Language Processing *

Обзор

Привет! Меня зовут Петр Зайдель и я — старший разработчик в Музыке. Вместе с другими ребятами из Яндекса, которые развивают рекомендательные системы в разных сервисах, я в октябре побывал на международной конференции ACM RecSys — 2024 в итальянском городе Бари. Сегодня хочу поделиться с Хабром впечатлениями, трендами и, конечно, обзорами самых интересных научных статей с конференции. Думаю, мой рассказ будет полезен всем специалистам в сфере рекомендательных систем, которые следят за трендами и готовы пробовать в своей работе что‑то новое и интересное.

+23

IrinaArmstrong 10 дек 2024 в 13:33

Задача Emotional FusionBrain 4.0: итоги и победители

Средний

9 мин

950

Блог компании AIRINatural Language Processing * Искусственный интеллектХакатоныРабота с видео *

Кейс

Всем привет! На связи снова лаборатория FusionBrain!

В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект.

Теперь пришла пора подводить итоги!

Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

+10

ceoofmsc 9 дек 2024 в 06:00

NLP: когда машины начинают понимать нас (Часть 3)

Средний

13 мин

4.4K

Natural Language Processing * Машинное обучение * Искусственный интеллектPython * Программирование *

FAQ

В этой статье мы продолжим изучение NLP и перейдем к более продвинутым темам, которые являются главными для построения современных приложений и моделей в области обработки естественного языка. А также создадим и обучим модели самостоятельно, используя TensorFlow/Keras и PyTorch.

ceoofmsc 8 дек 2024 в 06:30

NLP: когда машины начинают понимать нас (Часть 2)

Средний

8 мин

3.6K

Python * Искусственный интеллектМашинное обучение * Natural Language Processing * Программирование *

FAQ

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

ceoofmsc 7 дек 2024 в 07:00

NLP: когда машины начинают понимать нас (Часть 1)

Простой

6 мин

6.2K

Natural Language Processing * Искусственный интеллектМашинное обучение *

FAQ

Представьте, что вы можете разговаривать с компьютером так же естественно, как с обычным человеком. Вы задаёте вопросы, получаете ответы, даёте команды - и это всё на вашем родном языке. Именно этим и занимается обработка естественного языка (Natural Language Proccessing, или NLP) - область искусственного интеллекта, которая фокусируется на взаимодействии между компьютерами и людьми с помощью естественного языка.

Цель NLP - научить компьютеры понимать, интерпретировать и генерировать человеческую речь и текст так же, как это делаем мы. Это включает в себя не только распознавание слов, но и понимание их смысла, контекста и эмоций.

ceoofmsc 6 дек 2024 в 11:15

VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

Простой

6 мин

1.9K

Natural Language Processing * Искусственный интеллектМашинное обучение *

Из песочницы

Перевод

VALL-E 2, последнее достижение в области нейронных кодировочных языковых моделей, которое стало вехой в синтезе речи в zero-shot, достигнув человеческого уровня впервые. Zero-shot - способность модели генерировать речь для голоса, который она не слышала во время обучения. Другими словами, модель может синтезировать речь для нового диктора, основываясь лишь на коротком аудио образце его голоса (prompt).

Основанная на своем предшественнике VALL-E, новая итерация вводит два значительных улучшения: Repetition Aware Sampling и Grouped Code Modeling.

Repetition Aware Sampling (Выборка с учетом повторений) решает проблему зацикливания, с которой сталкивался предыдущий VALL-E. Если модель начинает повторять одни и те же звуки, она автоматически переключается на более точный метод выбора, чтобы избежать "застревания". Grouped Code Modeling (Моделирование групп кодов) - звуковые коды группируются и обрабатываются вместе, как слоги в словах. Это ускоряет синтез речи и позволяет модели лучше учитывать контекст, делая речь более естественной и связной.

Синтез речи из текста (TTS) направлен на генерацию высококачественной речи из текстового ввода с высокой степенью ясности и разборчивости.

ITS_HOT 6 дек 2024 в 06:00

Chronos от Amazon: революция в обработке временных рядов. Часть 2

Средний

4 мин

2.9K

Машинное обучение * Python * Natural Language Processing * Искусственный интеллект

Обзор

Итак, друзья, продолжаем тему прогнозирования временных рядов с помощью Chronos.

Напомню, что Chronos это фреймворк от компании Amazon — простой, но эффективный фрэймворк для предобученных вероятностных моделей временных рядов.

Chronos токенизирует значения временных рядов с помощью масштабирования и квантования в фиксированный словарь и обучает существующие архитектуры языковых моделей на основе трансформеров на этих токенизированных временных рядах с использованием функции потерь кроссэнтропии. Chronos был предобучен на основе семейства T5 (размеры от 20M до 710M параметров) на большом количестве общедоступных наборов данных, дополненных синтетическим набором данных, который сгенерировали с помощью гауссовских процессов для улучшения обобщения.

В этой статье я не буду подробно рассказывать как устроен Chronos и на чем он предобучен. Вся эта информация подробно изложена в моей предыдущей статье (Часть 1). Здесь мы попробуем применить его на общедоступных данных на примере прогнозирования котировок акций компаний из индекса Dow Jones (общедоступный датасет на Kaggle), а также на данных одного крупного российского перевозчика.

По биржевым данным цель была проста, посмотреть, как новый инструмент справляется с задачей предсказания цены акции. А на данных с железной дороги в качестве цели исследования выбрали построение прогнозов по количеству отступлений, называемых просадка пути. Многие из вас ездили поездом, и вот когда качает, это зачастую и есть просадки. Отступление довольно часто и быстро возникающее, влияет на безопасность движения, плавность хода и скорость. И предприятиям, обслуживающим путь, полезно оценивать при планировании, сколько таких отступлений предстоит устранять в следующем месяце. Данные брали посуточные, для десяти случайно выбранных предприятий. Временной период в 4 года, из них 1 месяц для тестирования. Посуточные показатели суммировали до месяца. В случае Dow Jones, пытаемся предсказать цену закрытия акции посуточно на 12 точек вперед.

iliya_golovanov 5 дек 2024 в 07:00

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

17 мин

6.3K

Блог компании ЯндексМашинное обучение * Искусственный интеллектNatural Language Processing * Алгоритмы *

В сервисе Яндекс Переводчик мы поддерживаем перевод между 102 языками. Наша цель — обеспечивать качественный перевод для самых разных типов данных: текстов, документов, HTML, изображений и видео. Сегодня обсудим ключевой компонент для обучения моделей машинного перевода — данные для обучения.

Современные нейросетевые подходы очень требовательны как к объёму данных в обучении, так и к их качеству. Для получения хорошей переводной модели требуются сотни миллионов, а в идеале миллиарды параллельных предложений (пар из предложения и его перевода). Возникает вопрос: откуда их взять и что это за данные?

В этой статье я расскажу о том, как из текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё коротко подсвечу, какое место в этом процессе занимает наша YandexGPT и что это за зверь такой — YandexGPT‑MT.

+31

Grandik 3 дек 2024 в 14:20

Основы промптинга и математические возможности моделей Llama

Простой

10 мин

9.4K

Блог компании RaftNatural Language Processing * Искусственный интеллект

Обзор

Меня зовут Грибанов Никита, я Data Scientist в отделе R`n`D&ML компании Raft Digital Solutions, и сегодня я расскажу о больших языковых моделях. На данный момент в мире их существует уже более 39 тысяч! Далее буду называть их хайповым названием LLM (Large Language Model).

В этой статье вы сначала узнаете новые или освежите в памяти уже известные вам основы общения с языковыми моделями. Затем разберёте пару реальных примеров настройки запросов и увидите математические возможности Llama 3.2 3B в сравнении с Llama 3.1 8B.

Для достижения хороших результатов при решении различных задач с помощью LLM, с ними как и с людьми, нужно уметь правильно общаться. Как же это сделать?

+16

AlexKimen 2 дек 2024 в 16:03

Безграничное сократическое обучение с помощью языковых игр (перевод статьи Tom Schaul из Google DeepMind)

Простой

23 мин

1.3K

Natural Language Processing * Изучение языковИскусственный интеллект

Перевод

Tom Schaul, Google DeepMind London, UK tom@deepmind.com

Перевод статьи: БЕЗГРАНИЧНОЕ СОКРАТИЧЕСКОЕ ОБУЧЕНИЕ С ПОМОЩЬЮ ЯЗЫКОВЫХ ИГР

Агент, обученный в замкнутой системе, может освоить любую желаемую способность при соблюдении следующих трех условий: (а) он получает достаточно информативную и согласованную обратную связь, (б) его охват опыта/данных достаточно широк, и (в) он обладает достаточной емкостью и ресурсами. В данной концептуальной статье мы обосновываем эти условия и рассматриваем ограничения, возникающие из-за условий (а) и (б) в замкнутых системах, предполагая, что (в) не является узким местом. Рассматривая особый случай агентов с совпадающими пространствами входных и выходных данных (а именно, язык), мы утверждаем, что такое чистое рекурсивное самосовершенствование, названное "сократическим обучением", может значительно повысить производительность за пределы того, что присутствует в исходных данных или знаниях, и ограничивается только временем, а также проблемами постепенного рассогласования. Кроме того, мы предлагаем конструктивную основу для его реализации, основанную на понятии языковых игр.

TLHE 2 дек 2024 в 08:15

Создаём генератор аудиокниг с персональным переводом

Средний

39 мин

7.1K

Блог компании Timeweb CloudNatural Language Processing * Python * Изучение языковПрограммирование *

Кейс

Привет, Хабр!

Изучая четвёртый язык, я в очередной раз решил попробовать обучить свою биологическую нейросеть на книгах с параллельным переводом, но после пары вечеров в такой же очередной раз их оставил. Подобный подход, когда переводом сопровождается каждое предложение, кажется несколько избыточным и мешающим погружению, и если в текстовом варианте можно хотя бы перескочить взглядом через перевод, то для прочих форматов, например, для любимых мною аудиокниг, этот подход не сработает в принципе.

Самый популярный вариант «обучающего перевода», которым пользовались и вы, – интерактивный, в котором пользователь следит за текстом на языке оригинала, и сам раскрывает переводы и пояснения забытых или новых для себя слов. Можно ли совместить эти подходы, взяв преимущества каждого, и переложить их в формат аудиокниги? Этим сегодня и займёмся.

Читать дальше →

+31

ph_piter 29 ноя 2024 в 11:05

Зачем нам ИИ-агенты?

8 мин

3.8K

Блог компании Издательский дом «Питер»Natural Language Processing * Алгоритмы * Искусственный интеллект

Перевод

В этой статье я приведу некоторые доводы в пользу того, что при разработке LLM удобно прибегать к помощи интеллектуальных агентов (ИИ-агентов). Так удаётся переходить к решению всё более сложных задач. Под катом много интересного!

Читать дальше →

ibarskaya 28 ноя 2024 в 07:02

Человек и LLM: как построить метрики для оценки моделей

14 мин

23K

Блог компании ЯндексNatural Language Processing * Искусственный интеллектМашинное обучение *

Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась.

Когда возникает вопрос о том, как измерить «ум» модели, первое, что приходит в голову, — протестировать её так же, как человека: с помощью школьных российских или американских тестов или специализированных профессиональных экзаменов. Так в мире LLM появилось немало бенчмарков: берём вопросы из определённой области с вариантами ответа, модель проходит тест, получаем быстрый автоматический вердикт и таким образом понимаем, насколько умная перед нами модель.

В этой статье предлагаю найти ответ на вопрос: есть ли универсальный метод оценки работы LLM‑моделей? Для этого я расскажу, какие для этого существуют бенчмарки и почему нельзя полагаться только на них, как работает Chatbot Arena LLM Leaderboard, кто такие AI‑тренеры и может ли одна модель правильно оценить другую.

+23

AlanRobotics 26 ноя 2024 в 08:24

Как мы создали LLM-модель Cotype Nano

7 мин

10K

Блог компании МТСБлог компании MWS AIМашинное обучение * Искусственный интеллектNatural Language Processing *

На связи группа фундаментальных исследований MTS AI. В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.

+35

enjoykaz 23 ноя 2024 в 10:47

Deepseek: лезем в голову к GPT-модели и смотрим, как именно она рассуждает

Простой

13 мин

19K

Natural Language Processing * Машинное обучение *

Обзор

Китайская лаборатория выпустили языковую модель, которая использует механизм цепочки размышлений и показывает его.

То есть можно прямо буквально залезть в мысли к модели и посмотреть, как она «рассуждает». Это прямо дико круто.

Попробовать можно тут: chat.deepseek.com. Регистрация по гуглоаккауну бесплатная, умная модель с цепочкой по переключателю под полем ввода, 50 запросов в день.

Предыдущая модель с цепочкой размышлений была ChatGPT o1 preview. Она решает некоторые задачи сильно лучше стандартной модели за счёт того, что разбивает процесс на шаги и делает много попыток решения. Но она не показывает, что творится под капотом.

А эта показывает. Правда, иногда эта цепочка как в анекдоте про то, что корову придётся отдать. Щас расскажу и покажу анализ в исполнении модели.

Читать дальше →

+31

ivan_mordovets 21 ноя 2024 в 11:34

Как заставить LLM работать на вас – разбираемся на примере задачи сопоставления товаров на маркетплейсе

Средний

9 мин

5.3K

Блог компании ecom.techМашинное обучение * IT-компанииNatural Language Processing * Искусственный интеллект

✏️ Технотекст 7

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. В этой статье мы расскажем, как используем LLM для задачи сопоставления товаров на маркетплейсе.

Как перевести задачу с продуктового языка на язык промптов. Что делать, если ни одна LLM не обучается на нужную тебе задачу (fine-tune). Как быть с поддержкой русского языка. Об этих и других аспектах по использованию LLM – читайте ниже.

Надеемся, эта статья будет интересна тем, кто интересуется математической и технической сторонами использования машинного обучения для решения продуктовых задач.

+15

MiraTerekhova 20 ноя 2024 в 07:16

Как LLM может валидировать данные

Простой

9 мин

3.1K

Data Engineering * Natural Language Processing * Машинное обучение * Big Data *

Из песочницы

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.

1 2 ...

12 13

15 16 ...

55 56

Natural Language Processing *

Kandinsky 4.0 — новая модель генерации видео

Промптинг: действительно полезное руководство

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

ACM RecSys — 2024: тренды и доклады с крупнейшей конференции по ML в рекомендательных системах

Задача Emotional FusionBrain 4.0: итоги и победители

NLP: когда машины начинают понимать нас (Часть 3)

NLP: когда машины начинают понимать нас (Часть 2)

NLP: когда машины начинают понимать нас (Часть 1)

VALL-E 2: Нейронные кодировочные языковые модели являются синтезаторами речи с человеческим уровнем в zero-shot

Chronos от Amazon: революция в обработке временных рядов. Часть 2

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

Основы промптинга и математические возможности моделей Llama

Безграничное сократическое обучение с помощью языковых игр (перевод статьи Tom Schaul из Google DeepMind)

Ближайшие события

Создаём генератор аудиокниг с персональным переводом

Зачем нам ИИ-агенты?

Человек и LLM: как построить метрики для оценки моделей

Как мы создали LLM-модель Cotype Nano

Deepseek: лезем в голову к GPT-модели и смотрим, как именно она рассуждает

Как заставить LLM работать на вас – разбираемся на примере задачи сопоставления товаров на маркетплейсе

Как LLM может валидировать данные

Вклад авторов