Обновить
123.18

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Лучший друг интроверта: как ИИ помогает в общении с людьми

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.4K

Начнем с того, что интровертам порой бывает нелегко сформулировать правильное сообщение, особенно когда речь идет о важных или личных вопросах. Сомнения, страх сказать что-то не то, и даже простое нежелание вступать в диалог – все это может сделать коммуникацию настоящим испытанием. С такой проблемой я сталкиваюсь каждый день. Тем не менее, умение правильно выразить свои мысли и чувства чрезвычайно важно, и здесь на помощь могут прийти технологии.

Чат-боты уже давно перестали быть просто развлечением. В условиях, когда технологии становятся все более сложными, чат-боты представляют собой простой и удобный интерфейс для взаимодействия с различными сервисами и приложениями. ChatGPT показал, насколько удобно использовать интерфейс чата, и насколько много различных задач можно решить в таком виде. Такой интерфейс понятен каждому и доступен в любое время.

Я всегда стараюсь найти, какие трудности из моей жизни я могу решить с помощью технологий. Итак, позвольте представить вам Дейта – чат-бота ВКонтакте, который поможет вам на каждом этапе диалога. Вот что он умеет:

Читать далее

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Время на прочтение12 мин
Количество просмотров26K

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.

Читать далее

Гайд по ICLR 2024: тренды и лучшие доклады

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров5K

Привет! Меня зовут Света Маргасова, и я руковожу бригадой моделей с внешней информацией в Яндексе. В этом году в большой компании коллег впервые побывала на конференции ICLR (Learning Representations (ICLR) — обучение представлений), которая проходила в Вене. Масштаб и формат ICLR 2024 подтверждаюет её статус — A*. Конференция продолжалась 5  дней, на неё подали больше 7000  статей, 2260  из которых приняли. Участников тоже было очень много  — все старались успеть познакомиться с авторами на постер-сессиях, послушать доклады и попасть на воркшопы. 

В этой статье я расскажу о самом интересном по моему мнению и по отзывам коллег  — над постом также работали Илья Удалов и Максим Кузин, которые занимаются  ML в рекламе. Здесь же вы найдёте нашу коллективную подборку полезных статей. 

Читать далее

Как мы обучали нейросеть распознавать юридические документы

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.4K

Проверка юридических документов с помощью визуальных помощников может оказаться важной задачей. Если человек способен хранить в голове одновременно в зоне его мозговых вычислений 6-8 параметров, ну может и больше, если гений... А остальные держать в блокноте. То ИИ учитывает больше параметров, те же модели LLM доступны с количеством 70 миллиардов параметров. То есть мы-то тоже ежедневно принимаем решения на основе большого количества входных параметров: купить ли сегодня эту вещь, поехать ли отдыхать на море, бросив все, доехать на такси или на автобусе. Но учитываем не все сразу, хотя что-то учитывается на подсознательном уровне. Эдакое дело вкуса, когда просто чувствуешь, что так правильнее, и в итоге не прогадал.

Правда люди еще не научились влиять на решения сети. У нейросетей особенные вкусы. Если GAN-сеть создает нам девушку, у которой 2 руки, то для каких-нибудь художников эпохи Сюрреализма это могло бы показаться гениальным. Двумя руками обнимает парня, словно вцепилась в него всей душой и влюбилась всем сердцем... К сожалению или к счастью, в задачах создания юридических документов мало необходимости творить что-либо на уровне латентного вектора в цепочке между кодировщиком и декодировщиком. Но работа с юридическими документами – тот самый скоп задач, где важно найти судебную практику, предшествующие документы и просто оформить все примерно также.

Таким образом, работа с юридическими документами – лакомый кусочек уже лет так 5, особенно на зарубежном рынке, где задача автоматизации рутинной деятельности сводится именно к тому, чтобы из исторически предшествующих документов собрать что-то стоящее, применимое к текущему документу. По семантическому окрасу и истории работы с документом можно понимать, что именно перед тобой: проигрышная трактовка, выигрышная трактовка, доводы, играющие в пользу истца или аргументы, помогающие ответчику, если дело идет о судебных исках.

Читать далее

Как мы сломали языковой барьер с помощью одной модели?

Время на прочтение8 мин
Количество просмотров8.3K

В этой статье я расскажу о реализации моего бесшовного модуля мультиязычности. Технологии, способной преодолевать языковые барьеры.

Виртуальный ассистент поддерживает 109 языков, понимает на каком языке к нему обратились и генерирует ответ уже на этом языке. И все это благодаря пайплайну на основе языковой модели LaBSE (Language-agnostic BERT Sentence Embedding) и фреймворка RASA.

Читать далее

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.5K

Приветствую, хабровчане!

Сегодня хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка модель-эмбеддер, которая умеет работать с техническими текстами о PHP и способна извлекать схожие эмбеддинги для параллельных текстов на английском и русском языках.

Основная причина, по которой я решил заняться этим проектом, заключается в том, что мои заметки, код и документация, накопленные за более чем десять лет практики, представляют собой солянку текстов о разных технологиях, языках программирования, пометки о настройке серверов Linux и т.д. на русском и английском языках. Поэтому мне захотелось сделать Retrieval-Augmented Generation (RAG) помогалку, которая сможет принимать запросы пользователя (меня) и эффективно находить информацию в столь разношерстой базе данных, независимо от того на каком языке я сделал запрос и на каком языке написана документация.

Для достижения этой цели необходима независимая от языка модель-эмбеддер, которая будет одинаково хорошо работать с техническими текстами на русском и английском языках.

Ещё одним важным аспектом было то, чтобы модель потребляла как можно меньше ресурсов и, если возможно, чтобы её можно было преобразовать в формат GGUF.

Читать далее

Kandinsky Video 1.1: обновленная модель генерации видео

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров7.5K

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.

Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

Читать далее

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Время на прочтение28 мин
Количество просмотров19K

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей. 

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху. 

Читать далее

Шпаргалка для создания идеального промпта LLM

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров32K

Большие языковые модели могут производить любую последовательность символов на каком угодно языке в любом формате данных (включая языки программирования, аудио и видео). Соответственно и качество этой последовательности может быть самым разным. Иногда мы получаем многословные запутанные объяснения с галлюцинациями и устаревшими знаниями, а иногда ― элегантную функцию на Python решающую сложную задачу,  идеальное название для бренда, а скоро и первую серию будущего бестселлера. Более того, модель может надёжно и точно ответить на миллионы вопросов ваших клиентов, сопоставить запросы из сотен позиций с многотысячным каталогом, самостоятельно обработать заявки по страховым искам, обучить робота или перебрать новые патентные заявки в поисках конфликтов со старыми. Однако чтобы полностью реализовать потенциал LLM, необходимо научиться мастерски давать им подсказки. А как это делать, я расскажу в этой статье.

Читать далее

Векторные БД vs Точность — часть 2

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.9K

В первой части из тестов стало понятно, что в векторном поиске с терминами что-то не так. И точность достаточно низкая для корректной работы RAG (retrieval augmentation generation). Давайте попробуем гибридный поиск и посмотрим, что из этого получится.

Читать далее

LLM Leaderboard за май 2024

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.3K

Привет, Хабр!

AI-хайп достиг нового пика, и кажется, что весь мир сейчас занят внедрением AI-функций в свои продукты, собирая миллионы на разработку новых оболочек для ChatGPT и добавляя в свои арсеналы бесчисленные AI-инструменты. В этом вихре инноваций интересно узнать, какие LLM действительно помогают бизнесу решать задачи эффективнее. Сегодня мы готовы раскрыть LLM Leaderboard за май 2024 и показать, какие модели оказались в авангарде, а каким еще предстоит доказать свою эффективность. Давайте разберем, кто по-настоящему заслуживает вашего внимания и инвестиций, а кто просто ловит волну хайпа!

Читать далее

Большие языковые модели гораздо линейнее, чем мы думали

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров19K

Хабр, привет! Это снова Антон Разжигаев, аспирант Сколтеха и научный сотрудник лаборатории Fusion Brain в Институте AIRI, где мы продолжаем углубляться в изучение языковых моделей. В прошлый раз мы выяснили, что эмбеддинги трансформеров-декодеров сильно анизотропны. На этот раз я бы хотел рассказать об их удивительной линейности, ведь нашу статью про обнаруженный эффект («Your Transformer is Secretly Linear») несколько дней назад приняли на международную конференцию ACL!

Читать далее

Как ИИ расскажет о видео из YouTube: или RAG Telegram бот с langchain и докерами

Время на прочтение11 мин
Количество просмотров4.4K

Зачем тратить ценное личное время на просмотр продолжительных видео, когда можно получить краткий обзор от ИИ-робота? Попробуем создать бота, способного предоставлять краткий обзор любого видео с YouTube и отвечать на вопросы по его содержимому.

Читать далее

Ближайшие события

LLM field landscape

Уровень сложностиСредний
Время на прочтение43 мин
Количество просмотров7.2K

Ради чего эта статья?

Сфера генеративных моделей сегодня кипит, булькает и шипит — каждый день выходят новые статьи, новые бенчмарки, новая модель вырывается вперёд на Arena, открывается очередной AI‑стартап… Только мы успеваем потрогать одну модель и сделать свои выводы, выходит другая, а Sam Altman в каждом интервью намекает, насколько GPT-5 будет умнее, лучше и круче, чем GPT-4.

В общем, за сферой LLM сегодня очень трудно уследить. Но уследить хочется. Хочется сделать снэпшот, в котором отразить максимально актуальное состояние области на текущий момент, насколько это возможно, чтоб было от чего отталкиваться потом. На самом деле, это задача для серьёзного научного review, но лучшее враг хорошего, поэтому начну я со статьи на Хабре.

Читать далее

Да, это не OpenAI — на Google I/O показали LLM Gemini Flash 1.5 с дешевым контекстом на 1 миллион токенов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7K
Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.

В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как упоротый большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.

Читать дальше →

Создаём свою стример-тян из зефира и палок

Уровень сложностиСредний
Время на прочтение127 мин
Количество просмотров39K

Наверняка вы слышали о нашумевшей в своё время ИИ стримерше NeuroSama. Однако мое внимание привлекало не само шоу и эти нашумевшие самые «крутейшие» моменты стримов, а сам факт того, что нейросеть реально может полностью автономно и полноценно вести стрим, удерживая внимание зрителей! Меня очень заинтересовала такая задумка, и я решился её повторить!

В этой статье я расскажу о попытке создать свою нейро-тян для русского сегмента, которая сможет автономно и без перерывов играть и вести трансляции на различных стриминг-платформах и буллить кожаных мешков конечно же развлекать зрителей и игроков, не получая баны! В результате получился самый настоящий гомункул киборг-убийца (мозгов) квадратных людей, поэтому запасайтесь бочкой кваса и ванной попкрона, как и в прошлый раз, приключение обещает быть жарким, но не только потому, что скоро лето, а ещё потому, что сейчас весна (и сопутствующее весеннее обострение), ведь мы с вами будем создавать настоящую (виртуальную) девушку-стримера!

Может, немного опоздал с трендом, но не пропадать же добру просто так! Кому-нибудь да пригодится (хотя бы для того, чтобы посмеяться или кринжануть с человека, который год занимался никому не нужной фигнёй).

Статья получилась без преувеличения огромной из-за совмещения просто ТУЧИ разных технологий и необходимости погружения в тонкости некоторых, так что отправьте ссылку себе на комп, расположитесь поудобнее и предупредите свою попу, что она рискует не отрываться от стула на протяжении целого часа!

Будет весело, сложно и очень интересно как опытному «бойцу», так и простому обывателю!

Читать далее →

Prompt engineering — путь к эффективной работе с ChatGPT

Время на прочтение16 мин
Количество просмотров18K

Привет, Хабр! Меня зовут  Илья Козырёв, я — CTO и Co-Founder в Raft. Много работал в консалтинге в сфере ритейла и фармацевтики, имею экспертизу в обработке данных, специализируюсь на ML/AI. А ещё я — участник опенсорсного продукта по обработке данных Apache Beam, помогаю запускать продукт по ценообразованию.

В этой статье расскажу, как эффективно работать с ChatGPT в разных задачах и архитектуре. Многие пробовали, но не у всех получилось.

Читать далее

OpenAI релизнула GPT-4o и мы её уже внедрили

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров46K

13 мая 2024 года запомнится как важная веха в мире искусственного интеллекта. OpenAI провела долгожданное обновление, представив GPT-4o и множество улучшений для ChatGPT. Эти новинки имеют все шансы изменить то, как мы взаимодействуем с ИИ в повседневной жизни. Мы уже успели внедрить новую модель и протестировали как она работает.

Читать далее

ChatGPT как мутная ксерокопия Интернета

Время на прочтение13 мин
Количество просмотров26K

В 2013 году сотрудники одной немецкой строительной компании заметили кое-какую странность в работе корпоративного аппарата Xerox. Всякий раз, когда копировалась планировка этажа в стоящемся здании, копия отличалась от оригинала в одном тонком, но в очень важном аспекте. В оригинальной версии планировки в доме различались три комнаты, и у каждой из них в прямоугольнике была подписана площадь этой комнаты: 14,13, 21,11 и 17,42 квадратных метра соответственно. Но на ксерокопии было написано, что все три комнаты имеют площадь по 14,13 квадратных метра. Компания обратилась к информатику Давиду Кризелю с просьбой, почему получается такой, казалось бы, немыслимый результат. Здесь требовалась именно консультация информатика, так как в современных аппаратах не применяется физический ксерографический процесс, впервые популяризованный в 1960-е. Вместо этого аппарат создаёт цифровую копию документа, а затем распечатывает полученный файл (изображение). При этом учтём, что для экономии дискового пространства почти все цифровые файлы изображений подвергаются сжатию — и разгадка этого таинственного случая начинает напрашиваться сама собой.

Читать далее

Подбор гиперпараметров RAG-системы с помощью Optuna

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров9.1K

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее