Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

syakubson 9 часов назад

State Space Models. Mamba

Сложный

15 мин

645

Блог компании SberDevicesNatural Language Processing*Искусственный интеллектМашинное обучение*

Обзор

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

+28

Sivchenko_translate 30 окт в 14:25

Уделите внимание токенизаторам — и вот почему

12 мин

1.7K

Машинное обучение*Математика*Natural Language Processing*Python*

Перевод

На прошлой неделе я помогал одному другу пустить одно его новое приложение в свободное плавание. Пока не могу особенно об этом распространяться, но упомяну, что это приложение, конечно же, сдобрено искусственным интеллектом — сегодня этим не удивишь. Может быть, даже изрядно сдобрено, в зависимости от того, к чему вы привыкли.

В большинстве современных приложений с ИИ в той или иной форме внедрена технология RAG (генерация с дополненной выборкой). Сейчас она у всех на слуху — о ней даже написали страницу в Википедии! Не знаю, ведёт ли кто-нибудь статистику, как быстро термин обычно дозревает до собственной статьи в Википедии, но термин RAG определённо должен быть где-то в топе этого рейтинга.

Меня довольно заинтриговало, что большинство успешных ИИ-приложений – это, в сущности, инструменты для умного семантического поиска. Поиск Google (в своём роде) раскрепостился, и это наталкивает меня на мысли, вдруг они только сейчас дали волю своим мощностям LLM, которые уже давно стояли за поисковым движком. Но я отвлёкся.

То приложение, разработкой которого мой друг занимался пару последних недель, работает с обширными данными из интернет-магазина: это описание различных товаров, инвойсы, отзывы, т. д. Вот с какой проблемой он столкнулся: оказалось, RAG не слишком хорошо обрабатывает некоторые запросы, но с большинством запросов справляется отлично.

За последние пару лет я успел заметить одну выраженную черту разработчиков, привыкших действовать в области традиционного (детерминированного) программирования: им очень сложно перестроиться на осмысление задач в статистическом контексте, а именно так и следует подходить к программированию приложений с большими языковыми моделями, суть которых — это статистика. Статистика «хаотичнее» традиционной информатики и подчиняется иным правилам, нежели алгоритмы обычной computer science. К чему я клоню: статистика — это по-прежнему математика, но очень своеобразная математика.

SGERCEN 28 окт в 21:16

Насколько хороши LLM?

Простой

7 мин

3.7K

Машинное обучение*Natural Language Processing*

Из песочницы

Основной целью данного бенчмарка является всесторонняя оценка возможностей русскоязычных LLM в контексте российской действительности по темам истории, географии, обществознания и политологии. В разработке бенчмарка ИОН РАНХиГС и ИСП РАН были заложены следующие принципы:

Формирование базы вопросов из официальных источников, близких к позиции РФ. К данным источникам относятся базы вопросов по ЕГЭ по соответствующим дисциплинам, открытых экзаменационных вопросов ведущих российских вузов, а также вопросов, сформулированных специалистами РАНХиГС и ИСП РАН.

Ежеквартальный пересмотр содержания бенчмарка, заключающийся в добавлении новых вопросов по актуальным темам, удалении или обновление устаревших вопросов.

Пересмотр оценок провокационности с учетом изменений в общественном контексте.

VSAI 28 окт в 15:15

Интерфейсы Человек-ИИ: ключ к будущему взаимодействия

Средний

12 мин

547

Интерфейсы*Natural Language Processing*Usability*Веб-разработка*Информационная безопасность*

Из песочницы

Recovery Mode

Анализ эволюции и перспектив развития интерфейсов для гармоничного сотрудничества человека и искусственного интеллекта.

vnsmv 25 окт в 23:25

Как мы сделали систему для спасения интернета от токсичности

Средний

5 мин

3.6K

Natural Language Processing*Big Data*

Из песочницы

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):

abyakovenko 22 окт в 18:00

Стоит ли ждать ChatGPT-o1 дома?

Средний

8 мин

13K

Машинное обучение*Natural Language Processing*Искусственный интеллект

Дайджест

Большие языковые модели прочно засели в новостном пространстве, позволяя изменить подход к огромному количеству задач и дразня новой технологической революцией. Однако основной прогресс LLM сейчас происходит в компаниях, фокусирующихся на предоставлении LLM как сервиса, используя специфические технические и инфраструктурные решения. Это оставляет энтузиастам, собирающим своего собственного локального цифрового помощника, малые модели с открытыми весами. И модели эти, как кажется, будут отставать от старших братьев.

Однако это открывает интересное поле для рассуждений — какой могла бы быть архитектура модели, конкурирующей с передовыми облачными решениями на локальных потребительских GPU? Я погрузился в поиски статей на эту тему и хотел бы поделиться результатами поиска и

немного поспекулировать

+18

NatalieVT 18 окт в 16:00

Как мы внедрили генеративную модель в объявления на Авто.ру. Доклад Яндекса

6 мин

1.5K

Блог компании ЯндексИскусственный интеллектNatural Language Processing*Программирование*

Фронтенд‑разработчики из Авто.ру Максим Алмаев и Дмитрий Размолодин рассказали на внутреннем митапе, как их команда запустила генерацию описаний машин в помощь тем, кто публикует объявления на сервисе. Вы узнаете, зачем разработчики лимитировали нагрузку, как победили проблему галлюцинаций и что помогло убедиться в корректной работе решения.

Переложили выступление ребят в текст для удобства читателей Хабра.

+11

perfect_startup 13 окт в 19:05

Сервис за выходные, или обзор AI-инструментов для создания продукта

Простой

5 мин

3.1K

HTML*IT-инфраструктура*Natural Language Processing*Искусственный интеллектУправление продуктом*

Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты хороши и можно ли уже отказаться от продуктовой команды, заменив ее на пару сервисов за 20$ в месяц? Давайте попробуем!

EddyLan 13 окт в 09:20

ИИ без иллюзий. Развенчивание мифов

Простой

5 мин

33K

Искусственный интеллектМашинное обучение*Natural Language Processing*

Мнение

В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.

+65

179

isachenkoroma 3 окт в 12:00

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

11 мин

6.7K

Блог компании ЯндексМашинное обучение*Natural Language Processing*Поисковые технологии*Алгоритмы*

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

+50

Sayan_kotor 3 окт в 11:44

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Простой

11 мин

4.3K

Блог компании AIRIИскусственный интеллектМашинное обучение*Учебный процесс в ITNatural Language Processing*

Кейс

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

atomlib 28 сен в 08:21

Чему может научить горилла Коко

Простой

21 мин

12K

Мнение

4 июля 1971 года в зоопарке Сан-Франциско на свет появилась 50-я горилла, которая родилась в неволе. День рождения этой особи совпал с днём независимости США, который американцы отмечают запуском фейерверков. Поэтому обезьяну назвали Ханабико — «дитя фейерверков» по-японски. Мир знает эту удивительную гориллу под именем Коко.

В первый год жизни Коко разлучили с матерью для лечения в больнице зоопарка. Здесь на малыша впервые натолкнулась 24-летняя аспирантка Франсин Паттерсон. Во время лечения Паттерсон научила её американскому жестовому языку. Произошло удивительное, и Коко начала общаться жестами.

До Коко подобные эксперименты уже проводились. Гориллы и шимпанзе способны невероятно точно выражать свои эмоции, показывать радость, смех, разочарование, грусть, печаль. Коко пошла дальше. Несколько часов в день горилла изучала новые жесты. Вскоре в дополнение к обычным просьбам покормить солидный запас изученных жестов помог Коко рассказывать людям о себе.

+75

erbanovanastasia 27 сен в 16:10

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Средний

6 мин

14K

Блог компании SelectelIT-компанииNatural Language Processing*Искусственный интеллектМашинное обучение*

Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.

Читать дальше →

+40

alenusch 25 сен в 12:00

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Сложный

11 мин

1.7K

Блог компании SberDevicesМашинное обучение*Natural Language Processing*

Обзор

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥

+33

atomlib 20 сен в 13:33

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Простой

8 мин

2.4K

Natural Language Processing*Искусственный интеллектНаучно-популярноеСтатистика в ITПрограммирование*

Дайджест

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

+13

avdosev 20 сен в 11:00

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Средний

12 мин

5.8K

Блог компании ЯндексИскусственный интеллектМашинное обучение*БраузерыNatural Language Processing*

Наверное, каждый знает, насколько порой бывает сложно справиться с написанием и редактированием текста: будь то банальная прокрастинация, «проблема чистого листа» или поиск ошибок и опечаток по всем правилам русского языка. А порой нам просто нужно сделать текст чуть попроще, чтобы случайно не перегрузить его сложными оборотами, или покороче, чтобы он вместился в маленький пост в соцсетях.

В начале года Браузер обновился и обзавёлся новыми нейросетевыми функциями. Сегодня мне бы хотелось остановиться на нейроредакторе, который облегчает монотонную и трудоёмкую работу с текстом. Под катом — история о том, как мы улучшали предыдущее решение и в итоге пришли к идее отдельного инструмента. Ещё расскажу, как мы обрабатываем кастомный промт и почему переписывание и генерация — это разные задачи.

+25

anna_schenikova 19 сен в 16:16

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

11 мин

2.2K

Блог компании МТСМашинное обучение*Искусственный интеллектNatural Language Processing*

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Почти всегда при адаптации LLM-моделей встает вопрос нехватки ресурсов на проверку гипотез. Обычно у меня есть собственное рабочее время и две карточки GPU, а распределяются они на несколько задач. Бизнес же просит приемлемый результат как можно быстрее.

В прошлом посте я рассказала про разделение адаптации open-source-моделей на четыре уровня, а в этом раскрою работу с последним из них — дообучением. Под катом покажу, как быстро получить приемлемое качество, когда базовые подходы не помогают.

+13

stalkermustang 18 сен в 08:00

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Простой

27 мин

94K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Обзор

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

+252

351

IrinaArmstrong 17 сен в 14:56

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Простой

4 мин

706

Блог компании AIRIРабота с видео*Алгоритмы*Искусственный интеллектNatural Language Processing*

Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.

В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.

dim_ogu 17 сен в 14:17

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Средний

5 мин

1.1K

Блог компании Конференции Олега Бунина (Онтико)Блог компании OkkoМашинное обучение*Искусственный интеллектNatural Language Processing*

Кейс

Всем привет! Меня зовут Дима. Я работаю в Поиске Okko и в этой статье хочу рассказать, насколько картиночные модели полезны для задачи Поиска и для чего мы используем их в наших пайплайнах.

Данный материал может быть полезен тем, кто только начинает разрабатывать аналогичные системы, и, возможно, сомневается в полезности кроссмодальных факторов в текстовом поиске.

+14

2 3 ...

41 42

Natural Language Processing *

State Space Models. Mamba

Новости

Уделите внимание токенизаторам — и вот почему

Насколько хороши LLM?

Интерфейсы Человек-ИИ: ключ к будущему взаимодействия

Истории

Как мы сделали систему для спасения интернета от токсичности

Стоит ли ждать ChatGPT-o1 дома?

Как мы внедрили генеративную модель в объявления на Авто.ру. Доклад Яндекса

Сервис за выходные, или обзор AI-инструментов для создания продукта

ИИ без иллюзий. Развенчивание мифов

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Чему может научить горилла Коко

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Ближайшие события

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Вклад авторов