Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

LyutovaDaria 29 мар 2024 в 12:30

Уязвимые гиганты: что общего между зулусским языком и LLM

Простой

10 мин

Искусственный интеллектNatural Language Processing *

Из песочницы

Сейчас, когда каждый чих в интернете может привести к новому стартапу или технологическому прорыву, большие языковые модели (LLM) занимают своё законное место на передовой научно-технического прогресса. Они умнее, быстрее и эффективнее человека в ряде задач: написание кода, создание контента, перевод текстов и многое другое. Однако, такая высокая степень умения ставит нас перед новым набором проблем – их безопасностью и устойчивостью.

Кто бы подумал, что искусственный интеллект кусается? На деле, конечно, дело не в физическом нападении, а в уязвимостях, которые могут быть использованы злоумышленниками. Большие языковые модели действительно могут попасть под угрозу, и влияние таких событий может оказаться далеко не виртуальным.

Меня зовут Дарья Лютова, я data scientist в ЦАД ВАВТ, также я учусь в магистратуре AI Talent Hub ИТМО и интересуюсь вопросами обучения и безопасности языковых моделей. В этом посте, вместе с вами, хочу пойти дальше простого обсуждения существования уязвимостей в LLM и предлагаю вникнуть в тему проблем безопасности, касающуюся больших языковых моделей, выявить слабые места и прийти к пониманию методов их укрепления. Очень надеюсь, что эта информация поможет тем, кто преследует цель не только достичь новых высот в области AI, но и удостовериться, что их достижения надежны и устойчивы к киберугрозам.

Поехали!

+12

anton_shbk 20 мар 2024 в 17:05

Общее описание и реализация Word2Vec с помощью PyTorch

Средний

12 мин

25K

Python * Машинное обучение * Natural Language Processing *

Туториал

В данной статье даётся общее описание векторного представления вложений слов - модель word2vec. Также рассматривается пример реализации модели word2vec с использованием библиотеки PyTorch. Приведена реализация как архитектуры skip-gram так и CBOW.

Sitnich 15 мар 2024 в 14:30

Сравнение работы MTS AI Chat с другими русскоязычными LLM

Простой

8 мин

7.9K

Блог компании МТСБлог компании MWS AINatural Language Processing * Искусственный интеллект

Всем привет!

Мы в MTS AI занимаемся созданием технологий и продуктов на базе искусственного интеллекта. Непосредственно наша группа фундаментальных исследований разрабатывает LLM и модели для генерации кода.

В этой статье мы представим нашу первую фундаментальную модель MTS AI Chat-7B. Также сравним результаты ее работы с другими русскими языковыми моделями, такими как YandexGPT, GigaChat и GigaChat‑Pro.

+22

hivaze 11 мар 2024 в 13:15

Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась

Средний

9 мин

12K

Блог компании Точка БанкNatural Language Processing * Искусственный интеллектМашинное обучение *

Привет, Хабр! Если вы интересуетесь NLP или просто современными DL моделями, то приглашаю вас узнать, как можно, имея всего лишь одну A100, около 30 гигабайтов текста и несколько дней обучения, решить проблему ограниченного окна контекста для русскоязычных трансформеров. А ещё сделаем несколько оптимизаций и добьёмся почти лучших метрик в бенчмарке encodechka.

Погрузиться в контекст

+13

Flokis_guy 6 мар 2024 в 10:31

WaveSync: Новый путь к нелинейному анализу эмбеддингов

Средний

8 мин

3.7K

Математика * Natural Language Processing * Машинное обучение *

Из песочницы

WaveSync — новый алгоритм для детального, нелинейного и быстрого анализа сходства эмбеддингов и векторов.

Алгоритм является в большинстве задач заменой линейному косиносному сходству. Он позволяет улучшить точность обработки языка и открывает новые перспективы для разработчиков и исследователей в области NLP.

Motoroller_love 4 мар 2024 в 14:15

Сравнение различных схем квантования для LLM

Простой

4 мин

33K

Python * Программирование * Машинное обучение * Natural Language Processing *

Туториал

✏️ Технотекст 2023

Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование!

Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели.

avdosev 4 мар 2024 в 07:00

Как мы научили YandexGPT пересказывать видео

Средний

14 мин

33K

Блог компании ЯндексБраузерыМашинное обучение * Искусственный интеллектNatural Language Processing *

✏️ Технотекст 2023

Порой бывает сложно перематывать длинный ролик в надежде найти хоть что-то интересное или тот самый момент из Shorts. Или иногда хочется за ночь узнать, о чём шла речь на паре научных конференций. Для этого в Браузере есть волшебная кнопка — «Пересказать», которая экономит время и помогает лучше понять, стоит ли смотреть видео, есть ли в нём полезная информация, и сразу перейти к интересующей части.

Сегодня я расскажу про модель, которая быстро перескажет видео любой длины и покажет таймкоды для каждой части. Под катом — история о том, как мы смогли выйти за лимиты контекста модели и научить её пересказывать даже очень длинные видео.

+62

Motoroller_love 29 фев 2024 в 15:20

LLM Leaderboard за февраль 2024

Простой

2 мин

5.8K

Программирование * Microsoft Azure * Машинное обучение * Natural Language Processing *

Обзор

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работаю на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

NewTechAudit 28 фев 2024 в 06:00

NLP для поиска грамматических ошибок

Простой

10 мин

3.7K

Машинное обучение * Natural Language Processing *

Туториал

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Журавлев Сергей.

В 2017 году на свет вышла статья разработчиков Google под названием «Attention is All You Need». В ней впервые была предложена идея трансформеров — моделей машинного обучения, ключевой особенностью которых было использование так называемых «слоев внимания», определяющих, какие слова и в какой степени важны для формирования контекста предложения. Публикация стала началом активного развития и продвижения моделей машинного обучения на описанной архитектуре.

AIdrisova 27 фев 2024 в 09:55

Мультиагенты, основанные на больших языковых моделях(LLM)

7 мин

10K

Искусственный интеллектNatural Language Processing *

Обзор

Перевод

Хочу представить вам пересказ-обзор на статью Large Language Model based Multi-Agents: A Survey of Progress and Challenges, представленную группой ученых(Taicheng Guo , Xiuying Chen , Yaqi Wang , Ruidi Chang , Shichao Pei, Nitesh V. Chawla, Olaf Wiest , Xiangliang Zhang) 21 января 2024 года.

Статья является обзором на тему нашумевших систем мультиагентов, рассказывая про различные методы классификации таких систем, проблемы в разработке мультиагентных систем и областях применения.

Благодаря развитию больших языковых моделей (LLM) открылись новые возможности сфере автономных агентов, которые могут воспринимать окружающую среду, принимать решения и предпринимать ответные действия. Таким образом, агенты на основе сильных LLM смогли достичь уровня понимания и генерации инструкций, подобных человеческим, что облегчает сложное взаимодействие и принятие решений в широком диапазоне контекстов.

На основе вдохновляющих возможностей одного агента на базе LLM были предложены системы мультиагентов на основе LLM(LLM-MA), позволяющие использовать коллективный разум, а также специализированные профили и навыки нескольких агентов. По сравнению с системами, использующими один агент на основе LLM, многоагентные системы предлагают расширенные возможности за счет специализации LLM на различных отдельных агентах с разными возможностями и обеспечения взаимодействия между этими различными агентами для моделирования сложных реальных процессов. В этом контексте несколько автономных агентов совместно участвуют в планировании, обсуждениях и принятии решений, отражая совместный характер групповой работы людей при решении задач.

Sber 27 фев 2024 в 06:16

Учим большие языковые модели описывать продукты данных

Сложный

13 мин

8.6K

Блог компании СберМашинное обучение * Natural Language Processing *

Кейс

Привет, Хабр! В этой статье мы рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике. Это может улучшить автоматизацию процесса, предоставляя инструмент для создания описаний продуктов.

+14

StarKap 21 фев 2024 в 09:00

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Средний

4 мин

7.6K

Блог компании RaftМашинное обучение * Natural Language Processing * Искусственный интеллектИнформационная безопасность *

Обзор

Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы.

Узнать больше

+22

Rai220 20 фев 2024 в 08:03

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Средний

10 мин

17K

Блог компании SberDevicesNatural Language Processing * Искусственный интеллектМашинное обучение *

Обзор

Всем привет! На связи лид разработки SDK GigaChat’a — Константин Крестников. В этой статье я расскажу о том, что такое GigaChain и как в целом SDK позволяет упростить жизнь разработчика LLM, например, научить LLM давать ответы на вопросы по вашим документам или работать в режиме автономного агента. Также поговорим про решения, которые практически невозможно сделать без использования SDK.

GigaСhain — это ответвление (fork) открытой библиотеки LangСhain на Python. Её главная цель — облегчить жизнь разработчику. Библиотека состоит из большого количества различных компонентов, которые позволяют работать с промптами, объединять вызовы к большим языковым моделям в цепочки, загружать данные из разных источников и сохранять обработанные ответы языковой модели.

+27

chekz 15 фев 2024 в 07:21

ИИ: тень великана

Простой

3 мин

2.7K

Natural Language Processing * Будущее здесьИскусственный интеллект

Из песочницы

Человечество изобретает технологии ради своего блага. С каждым новым прорывом человечество рефлексирует на тему того, станет ли оно само заложником технологий. Так было с изобретением печатных станков, паровых машин, поездов, телевидения и интернета. И вот, теперь точно так же мы задумываемся о том, что изменится с развитием ИИ, чего действительно стоит бояться и на что надеяться.

averkij 12 фев 2024 в 12:38

Язык твой — друг твой. Дообучаем языковые модели, собираем корпуса, делаем книги на малоресурсных языках

Средний

14 мин

11K

Open source * Машинное обучение * Искусственный интеллектИзучение языковNatural Language Processing *

Туториал

📌 градиент обреченный

Всем привет. Хочу поделиться с сообществом небольшим опытом и наработками для исследования и развития языков, в особенности малых. Для большинства таких языков нет ни систем машинного перевода, ни виртуальных ассистентов, ни других языковых моделей. Основная проблема тут в недостатке данных и отсутствии большого интереса у крупных компаний в их развитии. Однако есть достаточно большое число людей, которым дорог их язык, и которые прикладывают усилия по их сохранению и развитию. Предлагаю обсудить это и познакомиться с инструментами, которые помогут не только собирать данные, но и делать на их основе полезные вещи, типа паралельных книг для изучения языка и систем машинного перевода.

Мы научимся:

1. Дообучать мультиязычные языковые модели, переводящие текст в векторное представление (эмбеддинги).

2. Использовать их для выравнивания текстов библиотекой lingtrain-aligner, извлекая из текстов параллельные корпуса.

3. Загружать датасеты и модели на HuggingFace, чтобы это было доступно всем.

4. Создавать из выравнивания параллельные книги для изучения языков.

5. Начнем собирать датасет инструкций на малых языках, чтобы языковые модели и виртуальные смогли понимать и общаться на чувашском, якутском, башкирском и других языках.

Все это в делается в виде открытых проектов и сообществ, поэтому приглашаю всех интересующихся изучением и поддержкой языков подключаться к нам, будет интересно.

+43

gataAmarilla 9 фев 2024 в 09:30

Делаем intent classifier для службы поддержки без доменного датасета на русском

Средний

8 мин

4.3K

Разработка под e-commerce * Машинное обучение * Python * Natural Language Processing *

Из песочницы

В этой статье я продемонстрирую, как без собственного датасета сделать классификатор намерений пользователя для службы поддержки в сфере e-commerce. И более того, я расскажу, как у меня получилось сделать классификатор для русского языка без датасета на русском языке.

Меня зовут Елизавета Колмакова, я Data Scientist в компании, которая разрабатывает айти-решения для крупного ритейла.

dbaturova 7 фев 2024 в 08:15

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

Средний

6 мин

31K

Natural Language Processing * Машинное обучение * Python *

Из песочницы

На сегодняшний день созданы разные большие языковые модели (LLM), которые показывают превосходные результаты, но для раскрытия их полного потенциала необходимо дообучение для точного решения конкретных задач. Традиционный метод файнтюнинга, при котором настраиваются все параметры предварительно обученной модели, становится непрактичным и вычислительно дорогостоящим при работе с современными моделями LLM.

PEFT(Parameter-Efficient Fine-Tuning) представляет собой эффективный подход, позволяющий не терять производительность при тонкой настройке модели, снижая при этом требования к памяти и вычислительным мощностям.

В этой статье мы рассмотрим общую концепцию PEFT, его преимущества и основные методы.

squirreldatafeed 7 фев 2024 в 06:15

Прощайте, базы данных, да здравствуют векторные базы данных

Простой

11 мин

119K

Natural Language Processing * Open source * Искусственный интеллект

Из песочницы

Перевод

Революция в области искусственного интеллекта переформатирует все отрасли нашей жизни, с одной стороны обещая невероятные инновации, а с другой ー сталкивая нас с новыми вызовами. В безумном потоке изменений эффективная обработка данных становится приоритетом для приложений, на основе больших языковых моделей, генеративного ИИ и семантического поиска. В основе этих технологий лежат векторные представления (embeddings, дальше будем называть их Эмбеддинги), сложные представления данных, пронизанные критической семантической информацией.

Эти вектора, созданные LLMs, охватывают множество атрибутов или характеристик, что делает управление ими сложной задачей. В области искусственного интеллекта и машинного обучения эти характеристики представляют различные измерения данных, необходимые для обнаружения закономерностей, взаимосвязей и базовых структур. Для удовлетворения уникальных требований к обработке этих вложений необходима специализированная база данных. Векторные базы данных специально созданы для обеспечения оптимизированного хранения и запросов векторов, сокращая разрыв между традиционными базами данных и самостоятельными векторными индексами, а также предоставляя ИИ-системам инструменты, необходимые для успешной работы в этой среде нагруженной данными.

+48

AlanRobotics 5 фев 2024 в 17:34

Как ускорить LLM-генерацию текста в 20 раз на больших наборах данных

7 мин

22K

Блог компании MWS AIМашинное обучение * Искусственный интеллектNatural Language Processing *

Всем привет, я Алан, разработчик-исследователь в MTS AI. В команде фундаментальных исследований мы занимаемся исследованием LLM, реализацией DPO и валидацией наших собственных языковых моделей. В рамках этих задач у нас возникла потребность в генерации большого количества данных с помощью LLM. Такая генерация обычно занимает много времени. Однако за последний год, с ростом популярности LLM, стали появляться различные инструменты для развертывания таких моделей. Одной из самых эффективных библиотек для инференса языковых моделей является библиотека vLLM. В статье показывается, как с помощью асинхронных запросов и встроенных особенностей vLLM можно увеличить скорость генерации примерно в 20 раз. Приятного чтения!

+17

UtrobinMV 5 фев 2024 в 13:33

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Простой

10 мин

13K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing * Data Engineering *

Обзор

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше. Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

1 2 ...

23 24

26 27 ...

58 59

Natural Language Processing *

Уязвимые гиганты: что общего между зулусским языком и LLM

Общее описание и реализация Word2Vec с помощью PyTorch

Сравнение работы MTS AI Chat с другими русскоязычными LLM

Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась

WaveSync: Новый путь к нелинейному анализу эмбеддингов

Сравнение различных схем квантования для LLM

Как мы научили YandexGPT пересказывать видео

LLM Leaderboard за февраль 2024

NLP для поиска грамматических ошибок

Мультиагенты, основанные на больших языковых моделях(LLM)

Учим большие языковые модели описывать продукты данных

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Ближайшие события

ИИ: тень великана

Язык твой — друг твой. Дообучаем языковые модели, собираем корпуса, делаем книги на малоресурсных языках

Делаем intent classifier для службы поддержки без доменного датасета на русском

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

Прощайте, базы данных, да здравствуют векторные базы данных

Как ускорить LLM-генерацию текста в 20 раз на больших наборах данных

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Вклад авторов