Как стать автором
Обновить
120.79

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Время на прочтение11 мин
Количество просмотров4.6K

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

Читать далее
Всего голосов 32: ↑32 и ↓0+42
Комментарии13

Новости

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.7K

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии9

Чему может научить горилла Коко

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров12K

4 июля 1971 года в зоопарке Сан-Франциско на свет появилась 50-я горилла, которая родилась в неволе. День рождения этой особи совпал с днём независимости США, который американцы отмечают запуском фейерверков. Поэтому обезьяну назвали Ханабико — «дитя фейерверков» по-японски. Мир знает эту удивительную гориллу под именем Коко.

В первый год жизни Коко разлучили с матерью для лечения в больнице зоопарка. Здесь на малыша впервые натолкнулась 24-летняя аспирантка Франсин Паттерсон. Во время лечения Паттерсон научила её американскому жестовому языку. Произошло удивительное, и Коко начала общаться жестами.

До Коко подобные эксперименты уже проводились. Гориллы и шимпанзе способны невероятно точно выражать свои эмоции, показывать радость, смех, разочарование, грусть, печаль. Коко пошла дальше. Несколько часов в день горилла изучала новые жесты. Вскоре в дополнение к обычным просьбам покормить солидный запас изученных жестов помог Коко рассказывать людям о себе.

Читать далее
Всего голосов 66: ↑59 и ↓7+74
Комментарии40

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров13K

Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

  • Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
  • Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.
Читать дальше →
Всего голосов 41: ↑34 и ↓7+38
Комментарии9

Истории

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.5K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥
Всего голосов 23: ↑23 и ↓0+33
Комментарии3

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.2K

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

Читать далее
Всего голосов 12: ↑8 и ↓4+13
Комментарии16

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5K

Наверное, каждый знает, насколько порой бывает сложно справиться с написанием и редактированием текста: будь то банальная прокрастинация, «проблема чистого листа» или поиск ошибок и опечаток по всем правилам русского языка. А порой нам просто нужно сделать текст чуть попроще, чтобы случайно не перегрузить его сложными оборотами, или покороче, чтобы он вместился в маленький пост в соцсетях.

В начале года Браузер обновился и обзавёлся новыми нейросетевыми функциями. Сегодня мне бы хотелось остановиться на нейроредакторе, который облегчает монотонную и трудоёмкую работу с текстом. Под катом — история о том, как мы улучшали предыдущее решение и в итоге пришли к идее отдельного инструмента. Ещё расскажу, как мы обрабатываем кастомный промт и почему переписывание и генерация — это разные задачи.

Читать далее
Всего голосов 23: ↑20 и ↓3+25
Комментарии11

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

Время на прочтение11 мин
Количество просмотров1.8K

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Почти всегда при адаптации LLM-моделей встает вопрос нехватки ресурсов на проверку гипотез. Обычно у меня есть собственное рабочее время и две карточки GPU, а распределяются они на несколько задач. Бизнес же просит приемлемый результат как можно быстрее.

В прошлом посте я рассказала про разделение адаптации open-source-моделей на четыре уровня, а в этом раскрою работу с последним из них — дообучением. Под катом покажу, как быстро получить приемлемое качество, когда базовые подходы не помогают.

Читать далее
Всего голосов 10: ↑9 и ↓1+13
Комментарии4

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Уровень сложностиПростой
Время на прочтение27 мин
Количество просмотров86K

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →
Всего голосов 227: ↑221 и ↓6+249
Комментарии351

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров672

Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.

В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.

Читать далее
Всего голосов 5: ↑3 и ↓2+3
Комментарии0

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров989

Всем привет! Меня зовут Дима. Я работаю в Поиске Okko и в этой статье хочу рассказать, насколько картиночные модели полезны для задачи Поиска и для чего мы используем их в наших пайплайнах.

Данный материал может быть полезен тем, кто только начинает разрабатывать аналогичные системы, и, возможно, сомневается в полезности кроссмодальных факторов в текстовом поиске. 

Читать далее
Всего голосов 11: ↑11 и ↓0+14
Комментарии0

Гендальф, Ганди, Гаусс и Глинка — наборы персонажей для LLM

Время на прочтение11 мин
Количество просмотров1.1K
LLM надо на чём-то учить, а нормальные данные заканчиваются. Синтетические же — слегка не очень для обучения. Принципиально повысить количество реальных данных вариантов уже почти не осталось, а вот чуть повысить качество синтетики реально.

В китайской AI-лаборатории разработали такой подход — Persona Hub. Это коллекция из миллиарда разнообразных персонажей, автоматически подобранных из Сети и помещённых в разные контексты, соответствующие реальным. То есть, по сути, это перевзвешивание корпуса LLM в соответствии с предпочтениями разных персонажей.

С помощью этой технологии можно создавать вымышленных клиентов в нужном контексте с их привычками, проблемами и целями, а также разбираться в их потребностях.
Читать дальше →
Всего голосов 13: ↑12 и ↓1+12
Комментарии1

Юваль Ной Харари: Что произойдет, когда боты начнут бороться за вашу любовь?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.9K

Демократия — это диалог. Её функционирование и выживание зависят от доступных технологий обмена информацией. На протяжении большей части истории не существовало технологий, позволяющих вести масштабные диалоги между миллионами людей. В доиндустриальном мире демократии существовали только в небольших городах-государствах, таких как Рим и Афины, или даже в более малых племенах. Когда государство становилось слишком большим, демократический диалог рушился, и авторитаризм оставался единственной альтернативой.

Читать далее
Всего голосов 8: ↑5 и ↓3+3
Комментарии5

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Innopolis 2025
Иннополис

Что такое Retrieval-Augmented Generation (RAG) в языковых моделях и как оно работает?

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.5K

В контексте разговоров о больших языковых моделях (LLM) все чаще возникает аббревиатура RAG – Retrieval-Augmented Generation, или если переводить на русский язык, то «поисковая дополненная генерация». В этом тексте попробуем в общих чертах разобраться, как работает RAG, и где он может быть применим на практических задачах.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии3

Обзор приложения NotebookLM

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.7K

Веб-приложение под названием NotebookLM (https://notebooklm.google.com/) было выпущено компанией Google около года назад, и на Хабре было по этому поводу два кратких анонса в прошлом году (раз, два). На мой взгляд, оно заслуживает обзора чуть более подробного чем эти краткие сообщения, так что попробую восполнить этот пробел.

NotebookLM - это инструмент на основе ИИ, который позволяет относительно быстро, удобно и без лишних телодвижений получить краткий разносторонний обзор (саммари) объемных документов (книг, статей), а также интерактивно взаимодействовать с ними (задавать вопросы, касающиеся их содержания). В моем понимании он представляет собой надстройку над "обычным ИИ-чатом", которому в контекст загружен интересующий пользователя документ. Эта надстройка включает в себя:

1. Набор из нескольких преднастроенных стандартизованных промптов, доступных в один клик и ориентированных на работу с объемными текстами ("Составь мне оглавление", "Составь мне FAQ на основе этого текста", и т.п.)

2. Интерфейсное решение ("карточки-плитки на рабочем столе"), которое по замыслу разработчиков, видимо, должно быть более удобным чем "обычный (линейный) чат"

3. Интерфейс чата, который при взаимодействии с текстом в формате "вопрос-ответ" отображает не только ответы на задаваемые вопросы, но и фрагменты соответствующего исходного текста, а также ссылки на конкретные параграфы полного текста-источника.

Посмотрим как это работает
Всего голосов 7: ↑7 и ↓0+11
Комментарии5

Как мы заняли II место во II Корпоративном Хакатоне «ТехШторм»

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров733

На хакатоне сделали своего AI-ассистента. Делимся впечатлениями о том, как это было, рассказываем детали решения.

Конечно, вы заметили пальцы.
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.9K

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям. Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG)

RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

Читать далее
Всего голосов 4: ↑4 и ↓0+7
Комментарии0

Шлепа — Большой Русский Бенчмарк

Время на прочтение6 мин
Количество просмотров4.2K


Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмарк

Что есть сейчас для оценки русскоязычных LLM

Mera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут.

Читать далее
Всего голосов 19: ↑17 и ↓2+17
Комментарии13

3 самых очевидных способа вручную обнаружить текст от большой языковой модели

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров47K

На написание и публикацию этого текста меня побудила необходимость быстро объяснить, как определять текст от больших языковых моделей (БЯМ). Важно, что речь идёт только про выявление очевидных случаев, а не бронебойное детектирование.

В голове инструкция выглядела как три коротких пункта. Списочек немедленно разросся обширным введением, замечаниями и примерами. Грех этой инструкцией не поделиться.

Читать далее
Всего голосов 82: ↑78 и ↓4+99
Комментарии87

Действительно ли большие языковые модели галлюцинируют? Эксперимент

Время на прочтение11 мин
Количество просмотров11K

Существует мнение, что основная проблема больших языковых моделей — в склонности к галлюцинациям. Когда нейросеть генерирует текст с информацией, не связанной с запросом.  

Меня зовут Полина, я инженер по разработке ПО искусственного интеллекта в YADRO. Вместе с коллегами я разрабатываю системы на базе генеративных моделей, в том числе вопросно-ответных ассистентов. В рамках одного из проектов мы вместе с экспертом команды Андреем Соколовым задались вопросом: действительно ли проблема галлюцинаций так актуальна для современных предобученных LLM в вопросно-ответном сценарии.

Для этого мы провели эксперимент на собранном датасете. Попутно рассказали про модели-трансформеры и дали строгое определение понятию «галлюцинации LLM». Все подробности — под катом.

Читать далее
Всего голосов 24: ↑24 и ↓0+34
Комментарии22
1
23 ...