Как стать автором
Обновить
59.78

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

State Space Models. Mamba

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров645

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее
Всего голосов 21: ↑21 и ↓0+28
Комментарии0

Новости

Уделите внимание токенизаторам — и вот почему

Время на прочтение12 мин
Количество просмотров1.7K

На прошлой неделе я помогал одному другу пустить одно его новое приложение в свободное плавание. Пока не могу особенно об этом распространяться, но упомяну, что это приложение, конечно же, сдобрено искусственным интеллектом — сегодня этим не удивишь. Может быть, даже изрядно сдобрено, в зависимости от того, к чему вы привыкли.

В большинстве современных приложений с ИИ в той или иной форме внедрена технология RAG (генерация с дополненной выборкой). Сейчас она у всех на слуху — о ней даже написали страницу в Википедии! Не знаю, ведёт ли кто-нибудь статистику, как быстро термин обычно дозревает до собственной статьи в Википедии, но термин RAG определённо должен быть где-то в топе этого рейтинга.

Меня довольно заинтриговало, что большинство успешных ИИ-приложений – это, в сущности, инструменты для умного семантического поиска. Поиск Google (в своём роде) раскрепостился, и это наталкивает меня на мысли, вдруг они только сейчас дали волю своим мощностям LLM, которые уже давно стояли за поисковым движком. Но я отвлёкся.

То приложение, разработкой которого мой друг занимался пару последних недель, работает с обширными данными из интернет-магазина: это описание различных товаров, инвойсы, отзывы, т. д. Вот с какой проблемой он столкнулся: оказалось, RAG не слишком хорошо обрабатывает некоторые запросы, но с большинством запросов справляется отлично.

За последние пару лет я успел заметить одну выраженную черту разработчиков, привыкших действовать в области традиционного (детерминированного) программирования: им очень сложно перестроиться на осмысление задач в статистическом контексте, а именно так и следует подходить к программированию приложений с большими языковыми моделями, суть которых — это статистика. Статистика «хаотичнее» традиционной информатики и подчиняется иным правилам, нежели алгоритмы обычной computer science. К чему я клоню: статистика — это по-прежнему математика, но очень своеобразная математика.  

Читать далее
Всего голосов 5: ↑5 и ↓0+8
Комментарии1

Насколько хороши LLM?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.7K

Основной целью данного бенчмарка является всесторонняя оценка возможностей русскоязычных LLM в контексте российской действительности по темам истории, географии, обществознания и политологии. В разработке бенчмарка ИОН РАНХиГС и ИСП РАН были заложены следующие принципы: 

Формирование базы вопросов из официальных источников, близких к позиции РФ. К данным источникам относятся базы вопросов по ЕГЭ по соответствующим дисциплинам, открытых экзаменационных вопросов ведущих российских вузов, а также вопросов, сформулированных специалистами РАНХиГС и ИСП РАН.

Ежеквартальный пересмотр содержания бенчмарка, заключающийся в добавлении новых вопросов по актуальным темам, удалении или обновление устаревших вопросов.

Пересмотр оценок провокационности с учетом изменений в общественном контексте.

Читать далее
Всего голосов 7: ↑4 и ↓3+3
Комментарии8

Интерфейсы Человек-ИИ: ключ к будущему взаимодействия

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров547

Анализ эволюции и перспектив развития интерфейсов для гармоничного сотрудничества человека и искусственного интеллекта.

Читать далее
Всего голосов 5: ↑3 и ↓2+2
Комментарии2

Истории

Как мы сделали систему для спасения интернета от токсичности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.6K

Токсичность в интернете — распространенная проблема, с которой сталкивался каждый. В период бурного развития AI само собой напрашивается решение для автоматического удаления токсичных паттернов с сохранением исходного смысла и оригинального стиля автора. Один из таких подходов - использование NLP seq2seq моделей, которые мы обучаем на парах (тоcкичное предложение; нетоксичное предложение):

Читать далее
Всего голосов 13: ↑6 и ↓7+5
Комментарии22

Стоит ли ждать ChatGPT-o1 дома?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров13K

Большие языковые модели прочно засели в новостном пространстве, позволяя изменить подход к огромному количеству задач и дразня новой технологической революцией. Однако основной прогресс LLM сейчас происходит в компаниях, фокусирующихся на предоставлении LLM как сервиса, используя специфические технические и инфраструктурные решения. Это оставляет энтузиастам, собирающим своего собственного локального цифрового помощника, малые модели с открытыми весами. И модели эти, как кажется, будут отставать от старших братьев.

Однако это открывает интересное поле для рассуждений — какой могла бы быть архитектура модели, конкурирующей с передовыми облачными решениями на локальных потребительских GPU? Я погрузился в поиски статей на эту тему и хотел бы поделиться результатами поиска и

немного поспекулировать
Всего голосов 14: ↑13 и ↓1+18
Комментарии8

Как мы внедрили генеративную модель в объявления на Авто.ру. Доклад Яндекса

Время на прочтение6 мин
Количество просмотров1.5K

Фронтенд‑разработчики из Авто.ру Максим Алмаев и Дмитрий Размолодин рассказали на внутреннем митапе, как их команда запустила генерацию описаний машин в помощь тем, кто публикует объявления на сервисе. Вы узнаете, зачем разработчики лимитировали нагрузку, как победили проблему галлюцинаций и что помогло убедиться в корректной работе решения.

Переложили выступление ребят в текст для удобства читателей Хабра.

Читать далее
Всего голосов 11: ↑9 и ↓2+11
Комментарии6

Сервис за выходные, или обзор AI-инструментов для создания продукта

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.1K

Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты хороши и можно ли уже отказаться от продуктовой команды, заменив ее на пару сервисов за 20$ в месяц? Давайте попробуем!

Читать далее
Всего голосов 10: ↑5 и ↓5+4
Комментарии0

ИИ без иллюзий. Развенчивание мифов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров33K

В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.

Читать далее
Всего голосов 101: ↑78 и ↓23+65
Комментарии179

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Время на прочтение11 мин
Количество просмотров6.7K

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

Читать далее
Всего голосов 39: ↑39 и ↓0+50
Комментарии14

Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.3K

Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.

На словах всё красиво. Но три года назад мы заметили, что и магистры, и работники индустрии, связанной с AI, часто просят «объяснить, как же все‑таки работают трансформеры, потому что из научной статьи ничего не понятно». Так происходит из‑за того, что многое, что в статьях считается очевидным и само собой разумеющимся, очень плохо разъясняется в учебной литературе или существующих курсах. Как следствие, многие не могут использовать трансформеры для решения практических задач и реализации своих идей.

Эта трудность побудила нас создать полноценный курс по трансформерам, в котором проработаны такие проблемные точки и который адаптирован для студентов с разным профессиональным бэкграундом. О нём я и расскажу в этой статье.

Мы уже апробировали курс на лекциях в Сколтехе, МГУ и Сбер Университете, и написали в AIRI о нём статью, которую представили на воркшопе по преподаванию на одной из самых популярных мировых конференций по NLP — ACL-2024. Материалы академической версии курса можно найти в нашем репозитории.

Приятного чтения!

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии9

Чему может научить горилла Коко

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров12K

4 июля 1971 года в зоопарке Сан-Франциско на свет появилась 50-я горилла, которая родилась в неволе. День рождения этой особи совпал с днём независимости США, который американцы отмечают запуском фейерверков. Поэтому обезьяну назвали Ханабико — «дитя фейерверков» по-японски. Мир знает эту удивительную гориллу под именем Коко.

В первый год жизни Коко разлучили с матерью для лечения в больнице зоопарка. Здесь на малыша впервые натолкнулась 24-летняя аспирантка Франсин Паттерсон. Во время лечения Паттерсон научила её американскому жестовому языку. Произошло удивительное, и Коко начала общаться жестами.

До Коко подобные эксперименты уже проводились. Гориллы и шимпанзе способны невероятно точно выражать свои эмоции, показывать радость, смех, разочарование, грусть, печаль. Коко пошла дальше. Несколько часов в день горилла изучала новые жесты. Вскоре в дополнение к обычным просьбам покормить солидный запас изученных жестов помог Коко рассказывать людям о себе.

Читать далее
Всего голосов 67: ↑60 и ↓7+75
Комментарии40

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров14K

Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

  • Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
  • Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.
Читать дальше →
Всего голосов 42: ↑35 и ↓7+40
Комментарии9

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.7K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥
Всего голосов 23: ↑23 и ↓0+33
Комментарии3

Исследование: генеративный ИИ повышает производительность труда разработчиков на 26,08 %

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.4K

Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.

На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.

Читать далее
Всего голосов 12: ↑8 и ↓4+13
Комментарии16

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5.8K

Наверное, каждый знает, насколько порой бывает сложно справиться с написанием и редактированием текста: будь то банальная прокрастинация, «проблема чистого листа» или поиск ошибок и опечаток по всем правилам русского языка. А порой нам просто нужно сделать текст чуть попроще, чтобы случайно не перегрузить его сложными оборотами, или покороче, чтобы он вместился в маленький пост в соцсетях.

В начале года Браузер обновился и обзавёлся новыми нейросетевыми функциями. Сегодня мне бы хотелось остановиться на нейроредакторе, который облегчает монотонную и трудоёмкую работу с текстом. Под катом — история о том, как мы улучшали предыдущее решение и в итоге пришли к идее отдельного инструмента. Ещё расскажу, как мы обрабатываем кастомный промт и почему переписывание и генерация — это разные задачи.

Читать далее
Всего голосов 23: ↑20 и ↓3+25
Комментарии13

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

Время на прочтение11 мин
Количество просмотров2.2K

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Почти всегда при адаптации LLM-моделей встает вопрос нехватки ресурсов на проверку гипотез. Обычно у меня есть собственное рабочее время и две карточки GPU, а распределяются они на несколько задач. Бизнес же просит приемлемый результат как можно быстрее.

В прошлом посте я рассказала про разделение адаптации open-source-моделей на четыре уровня, а в этом раскрою работу с последним из них — дообучением. Под катом покажу, как быстро получить приемлемое качество, когда базовые подходы не помогают.

Читать далее
Всего голосов 10: ↑9 и ↓1+13
Комментарии5

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Уровень сложностиПростой
Время на прочтение27 мин
Количество просмотров94K

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →
Всего голосов 229: ↑223 и ↓6+252
Комментарии351

Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров706

Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.

Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.

В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.

Читать далее
Всего голосов 5: ↑3 и ↓2+3
Комментарии0

Вместо тысячи слов: как картинки помогают в текстовом Поиске?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.1K

Всем привет! Меня зовут Дима. Я работаю в Поиске Okko и в этой статье хочу рассказать, насколько картиночные модели полезны для задачи Поиска и для чего мы используем их в наших пайплайнах.

Данный материал может быть полезен тем, кто только начинает разрабатывать аналогичные системы, и, возможно, сомневается в полезности кроссмодальных факторов в текстовом поиске. 

Читать далее
Всего голосов 11: ↑11 и ↓0+14
Комментарии0
1
23 ...