Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

perfect_startup 13 окт 2024 в 16:05

Сервис за выходные, или обзор AI-инструментов для создания продукта

Простой

5 мин

4.1K

HTML * IT-инфраструктура * Natural Language Processing * Искусственный интеллектУправление продуктом *

Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты хороши и можно ли уже отказаться от продуктовой команды, заменив ее на пару сервисов за 20$ в месяц? Давайте попробуем!

EddyLan 13 окт 2024 в 06:20

ИИ без иллюзий. Развенчивание мифов

Простой

5 мин

35K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Мнение

В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.

+68

179

isachenkoroma 3 окт 2024 в 09:00

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

11 мин

19K

Блог компании ЯндексПоисковые технологии * Natural Language Processing * Машинное обучение * Алгоритмы *

✏️ Технотекст 7

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

+47

Sayan_kotor 3 окт 2024 в 08:44

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Простой

11 мин

6.4K

Блог компании AIRIИскусственный интеллектМашинное обучение * Учебный процесс в ITNatural Language Processing *

Кейс

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

atomlib 28 сен 2024 в 05:21

Чему может научить горилла Коко

Простой

21 мин

16K

Мнение

4 июля 1971 года в зоопарке Сан-Франциско на свет появилась 50-я горилла, которая родилась в неволе. День рождения этой особи совпал с днём независимости США, который американцы отмечают запуском фейерверков. Поэтому обезьяну назвали Ханабико — «дитя фейерверков» по-японски. Мир знает эту удивительную гориллу под именем Коко.

В первый год жизни Коко разлучили с матерью для лечения в больнице зоопарка. Здесь на малыша впервые натолкнулась 24-летняя аспирантка Франсин Паттерсон. Во время лечения Паттерсон научила её американскому жестовому языку. Произошло удивительное, и Коко начала общаться жестами.

До Коко подобные эксперименты уже проводились. Гориллы и шимпанзе способны невероятно точно выражать свои эмоции, показывать радость, смех, разочарование, грусть, печаль. Коко пошла дальше. Несколько часов в день горилла изучала новые жесты. Вскоре в дополнение к обычным просьбам покормить солидный запас изученных жестов помог Коко рассказывать людям о себе.

+74

erbanovanastasia 27 сен 2024 в 13:10

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Средний

6 мин

18K

Блог компании SelectelМашинное обучение * Искусственный интеллектNatural Language Processing * IT-компании

Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.

Читать дальше →

+36

alenusch 25 сен 2024 в 09:00

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Сложный

11 мин

2.2K

Блог компании SberDevicesМашинное обучение * Natural Language Processing *

Обзор

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥

+30

atomlib 20 сен 2024 в 10:33

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Простой

8 мин

3.1K

Natural Language Processing * Искусственный интеллектНаучно-популярноеСтатистика в ITПрограммирование *

Дайджест

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

+14

avdosev 20 сен 2024 в 08:00

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Средний

12 мин

8.7K

Блог компании ЯндексБраузерыМашинное обучение * Искусственный интеллектNatural Language Processing *

Наверное, каждый знает, насколько порой бывает сложно справиться с написанием и редактированием текста: будь то банальная прокрастинация, «проблема чистого листа» или поиск ошибок и опечаток по всем правилам русского языка. А порой нам просто нужно сделать текст чуть попроще, чтобы случайно не перегрузить его сложными оборотами, или покороче, чтобы он вместился в маленький пост в соцсетях.

В начале года Браузер обновился и обзавёлся новыми нейросетевыми функциями. Сегодня мне бы хотелось остановиться на нейроредакторе, который облегчает монотонную и трудоёмкую работу с текстом. Под катом — история о том, как мы улучшали предыдущее решение и в итоге пришли к идее отдельного инструмента. Ещё расскажу, как мы обрабатываем кастомный промт и почему переписывание и генерация — это разные задачи.

+23

anna_schenikova 19 сен 2024 в 13:16

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

11 мин

4.1K

Блог компании МТСМашинное обучение * Искусственный интеллектNatural Language Processing *

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Почти всегда при адаптации LLM-моделей встает вопрос нехватки ресурсов на проверку гипотез. Обычно у меня есть собственное рабочее время и две карточки GPU, а распределяются они на несколько задач. Бизнес же просит приемлемый результат как можно быстрее.

В прошлом посте я рассказала про разделение адаптации open-source-моделей на четыре уровня, а в этом раскрою работу с последним из них — дообучением. Под катом покажу, как быстро получить приемлемое качество, когда базовые подходы не помогают.

+11

stalkermustang 18 сен 2024 в 05:00

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Простой

27 мин

120K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектБудущее здесьNatural Language Processing *

Обзор

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

+249

351

IrinaArmstrong 17 сен 2024 в 11:56

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Простой

4 мин

Блог компании AIRIРабота с видео * Алгоритмы * Искусственный интеллектNatural Language Processing *

Мы в лаборатории FusionBrain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Мы также любим придумывать соревнования по этой теме. Так, команда FusionBrain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.

В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional FusionBrain 4.0. Ниже — подробности и детали соревнования.

dim_ogu 17 сен 2024 в 11:17

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Средний

5 мин

1.6K

Блог компании OkkoБлог компании Конференции Олега Бунина (Онтико)Natural Language Processing * Искусственный интеллектМашинное обучение *

Кейс

Всем привет! Меня зовут Дима. Я работаю в Поиске Okko и в этой статье хочу рассказать, насколько картиночные модели полезны для задачи Поиска и для чего мы используем их в наших пайплайнах.

Данный материал может быть полезен тем, кто только начинает разрабатывать аналогичные системы, и, возможно, сомневается в полезности кроссмодальных факторов в текстовом поиске.

+11

maxim_tsar 12 сен 2024 в 07:00

Гендальф, Ганди, Гаусс и Глинка — наборы персонажей для LLM

11 мин

1.3K

Блог компании ГазпромбанкМашинное обучение * Natural Language Processing *

LLM надо на чём-то учить, а нормальные данные заканчиваются. Синтетические же — слегка не очень для обучения. Принципиально повысить количество реальных данных вариантов уже почти не осталось, а вот чуть повысить качество синтетики реально.

В китайской AI-лаборатории разработали такой подход — Persona Hub. Это коллекция из миллиарда разнообразных персонажей, автоматически подобранных из Сети и помещённых в разные контексты, соответствующие реальным. То есть, по сути, это перевзвешивание корпуса LLM в соответствии с предпочтениями разных персонажей.

С помощью этой технологии можно создавать вымышленных клиентов в нужном контексте с их привычками, проблемами и целями, а также разбираться в их потребностях.

Читать дальше →

+13

technokratiya 11 сен 2024 в 12:08

Юваль Ной Харари: Что произойдет, когда боты начнут бороться за вашу любовь?

Простой

6 мин

4.1K

Искусственный интеллектNatural Language Processing *

Мнение

Перевод

Демократия — это диалог. Её функционирование и выживание зависят от доступных технологий обмена информацией. На протяжении большей части истории не существовало технологий, позволяющих вести масштабные диалоги между миллионами людей. В доиндустриальном мире демократии существовали только в небольших городах-государствах, таких как Рим и Афины, или даже в более малых племенах. Когда государство становилось слишком большим, демократический диалог рушился, и авторитаризм оставался единственной альтернативой.

technokratiya 6 сен 2024 в 14:33

Что такое Retrieval-Augmented Generation (RAG) в языковых моделях и как оно работает?

Простой

8 мин

20K

Искусственный интеллектNatural Language Processing *

Перевод

В контексте разговоров о больших языковых моделях (LLM) все чаще возникает аббревиатура RAG – Retrieval-Augmented Generation, или если переводить на русский язык, то «поисковая дополненная генерация». В этом тексте попробуем в общих чертах разобраться, как работает RAG, и где он может быть применим на практических задачах.

AlexanderAnisimov 2 сен 2024 в 13:56

Обзор приложения NotebookLM

Простой

8 мин

68K

GTD * СофтИскусственный интеллектNatural Language Processing *

Туториал

Веб-приложение под названием NotebookLM (https://notebooklm.google.com/) было выпущено компанией Google около года назад, и на Хабре было по этому поводу два кратких анонса в прошлом году (раз, два). На мой взгляд, оно заслуживает обзора чуть более подробного чем эти краткие сообщения, так что попробую восполнить этот пробел.

NotebookLM - это инструмент на основе ИИ, который позволяет относительно быстро, удобно и без лишних телодвижений получить краткий разносторонний обзор (саммари) объемных документов (книг, статей), а также интерактивно взаимодействовать с ними (задавать вопросы, касающиеся их содержания). В моем понимании он представляет собой надстройку над "обычным ИИ-чатом", которому в контекст загружен интересующий пользователя документ. Эта надстройка включает в себя:

1. Набор из нескольких преднастроенных стандартизованных промптов, доступных в один клик и ориентированных на работу с объемными текстами ("Составь мне оглавление", "Составь мне FAQ на основе этого текста", и т.п.)

2. Интерфейсное решение ("карточки-плитки на рабочем столе"), которое по замыслу разработчиков, видимо, должно быть более удобным чем "обычный (линейный) чат"

3. Интерфейс чата, который при взаимодействии с текстом в формате "вопрос-ответ" отображает не только ответы на задаваемые вопросы, но и фрагменты соответствующего исходного текста, а также ссылки на конкретные параграфы полного текста-источника.

Посмотрим как это работает

arsab 2 сен 2024 в 09:30

Как мы заняли II место во II Корпоративном Хакатоне «ТехШторм»

Простой

4 мин

933

ХакатоныNatural Language Processing *

Кейс

На хакатоне сделали своего AI-ассистента. Делимся впечатлениями о том, как это было, рассказываем детали решения.

Конечно, вы заметили пальцы.

-1

mkery 2 сен 2024 в 09:15

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Средний

12 мин

3.7K

Машинное обучение * Поисковые технологии * Natural Language Processing *

Из песочницы

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям. Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG).

RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

alexwortega 2 сен 2024 в 07:00

Шлепа — Большой Русский Бенчмарк

6 мин

5.3K

Python * Искусственный интеллектNatural Language Processing *

Кейс

Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмарк

Что есть сейчас для оценки русскоязычных LLM

Mera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут.

+18

1 2 ...

14 15

17 18 ...

55 56

Natural Language Processing *

Сервис за выходные, или обзор AI-инструментов для создания продукта

ИИ без иллюзий. Развенчивание мифов

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Чему может научить горилла Коко

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Ближайшие события

Гендальф, Ганди, Гаусс и Глинка — наборы персонажей для LLM

Юваль Ной Харари: Что произойдет, когда боты начнут бороться за вашу любовь?

Что такое Retrieval-Augmented Generation (RAG) в языковых моделях и как оно работает?

Обзор приложения NotebookLM

Как мы заняли II место во II Корпоративном Хакатоне «ТехШторм»

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Шлепа — Большой Русский Бенчмарк

Вклад авторов