Новая LLM для русского языка - краткий обзор.

Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров на TPU v4-128.
4096 контекстное окно
Llama в качестве основной архитектуры
128k vocab
32B токенов в датасете
Компьютерный анализ и синтез естественных языков
Новая LLM для русского языка - краткий обзор.
Завершено обучение первой языковой модели для русского языка с 1.6 млрд. параметров на TPU v4-128.
4096 контекстное окно
Llama в качестве основной архитектуры
128k vocab
32B токенов в датасете
Выше пользовательского сообщения ChatGPT получает немного текста, который самому пользователю не виден. Этот текст — системный промпт. Он инициализирует бота: рассказывает, кто он такой, какой сегодня день и какие возможности доступны.
Получить системный промпт всё же можно, если попросить модель процитировать сообщение выше. Кстати, именно из-за изменений системного промпта качество работы ChatGPT могло ухудшаться. А меняться там есть чему: системный промпт у OpenAI составляет в длину 1700 токенов.
Аманда Аскелл [Amanda Askell], специалист по этике в Anthropic, показала системный промпт бота Claude 3 и объяснила, что содержит каждый из абзацев:
Имя, компания-создатель и текущая дата.
Временная отсечка базы знаний и инструкция отвечать с учётом того, что данные уже устаревшие.
Инструкция отвечать подробно, но не слишком длинно.
Claude чаще отказывается выполнять задачи, связанные с правыми взглядами, чем с левыми. Четвёртый абзац призван с этим бороться.
Аналогично, пятый абзац борется с тенденцией Claude стереотипно высказываться о группах, представляющих большинство, но уходить от стереотипов, если речь идёт про различные меньшинства.
Четвёртый абзац приводит к тому, что Claude часто говорит, что обе стороны в чём-то правы. Шестой абзац это исправляет.
Инструкция всячески помогать и писать код в Markdown.
Восьмой абзац призван не спрятать системный промпт, а снизить его избыточную цитируемость.
Впрочем, системные промпты часто и быстро меняются.
Claude 3 можно научить черкесскому языку. Из-за принадлежности к адыгской подгруппе язык относительно изолирован от других. А ещё изучать его не так-то просто из-за сложной морфологии и ограниченности данных.
С таким необычным заявлением выступил энтузиаст hahahahohohe. В длинном твите он описал свою работу последних нескольких лет: из скудных источников он собрал 64 тыс. переведённых терминов и выражений, чтобы обучить модели русско-кабардинского машинного перевода.
Экспериментатор вставил в промпт справочные случайно выбранные 5,7 тыс. пар кабардинский – русский, затем попросил Claude 3 перевести текст. Казалось, что даже с малой толикой датасета БЯМ немедленно освоила то, на что у энтузиаста ушло 2 года.
Модель Opus продемонстрировала глубокое понимание структуры языка, правильно использовала заимствованные термины и проводила правдоподобный этимологический анализ. По запросу она могла даже сочинять новые термины.
Действительно, язык представлен в Интернете относительно слабо: в «Кабардино-черкесской Википедии» на сегодняшний день 1635 статей и 232 482 слов. Но в датасете предобучения язык всё же был в некотором объёме.
Как признался энтузиаст на следующий день, Claude 3 знает черкесский и так. Opus умеет переводить и общаться на языке, пусть и с ошибками. И вообще, поначалу модель переводить с черкесского просто отказывается, что и подкрепило иллюзию изучения языка из промпта.
Впрочем, предоставление дополнительных данных в промпте действительно улучшает качество работы модели.
Джейсон Вэй — известный исследователь направления языковых моделей. Имя Джейсона стоит первым на различных научных докладах Google: про эмерджентные способности (arXiv:2206.07682), промптинг в стиле цепочки рассуждений (arXiv:2201.11903) и FLAN (arXiv:2109.01652).
У Джейсона есть брат Джерри Вэй, который стажировался в различных структурах Google. С мая Джерри проходил стажировку в Google DeepMind, а с июля 2023 года работает там на постоянной основе. Джерри тоже успел отличиться и выпустил доклад про symbol tuning (arXiv:2305.08298).
Джейсон же в феврале этого года перешёл из Google в отдел ChatGPT в компании OpenAI. Как рассказывает перебежчик, культура в компаниях заметно отличается: вместо небольших исследовательских групп Google пришлось привыкать к крупным командам OpenAI. Чтобы адаптироваться, Джейсон рекомендует больше внимания уделять документации, простоте дизайна и качеству инструментов разработки. Также, если верить Джейсону, в OpenAI кормят лучше, чем в Маунтин-Вью, хотя ещё вкуснее еда в сингапурском офисе Google.
Братья не прекращают общение и регулярно видятся, но не забывают подтрунивать мемами в социальных сетях друг над другом.
На личном сайте Брендана Байкрофта на странице bbycroft.net/llm опубликована интерактивная визуализация работы большой языковой модели.
Всё работает прямо в браузере с пошаговой обработкой промпта. По нажатию пробела происходит переход от одной стадии к другой. Алгоритмическая сложность разнообразных структур демонстрируется в трёхмерном пространстве. Архитектура модели наглядно разбита на отдельные составляющие, будто это конвейер мебельной фабрики.
Код проекта выложен на аккаунте Байкрофта на GitHub.
Ни для кого не секрет, что достучаться до живого человека техподдержки бывает весьма затруднительно. Нулевой линией выстраивают глупых и навязчивых роботов. Чтобы его преодолеть, кто-то начинает ругаться нецензурно (и нынешние боты картинно "обижаются"), кто-то делать что-то ещё более несуразное.
У меня есть предположение, что существуют некие магические фразы для преодоления этого рубежа - ну, в конце-концов, как-то эту штуку же отлаживают.
Предлагаю делиться такими проверенными магическими фразами для прохождения заградительного слоя чат-ботов, стоящих грудью на нулевой линии техподдержки многих сервисов.
В качестве затравки предлагаю найденную и проверенную фразу для вызова человеков в чате поддержки теле2.
Итак:
tele2 - бот изыди
Запуск модели искусственного интеллекта следующего поколения Gemini от Google задерживается. Теперь ожидается, что её выпустят в начале 2024 года, а не в этом месяце.
В этом году Google объединила две команды ИИ в одну группу, которая работает над новой моделью, способной конкурировать с GPT-4 от OpenAI. Её лидер Демис Хассабис в июле заявлял: «Мы уже чувствуем, что через пару месяцев будут видны преимущества и сильные стороны проекта Gemini, нашей мультимодальной большой модели следующего поколения. Это довольно впечатляюще».
Ранее представители Google пообещали некоторым облачным клиентам и деловым партнёрам, что к ноябрю они получат доступ к новому диалоговому ИИ компании. Но теперь разработка Gemini задерживается. Одновременно замедлились продажи облачных технологий Google, в то время как у конкурента Microsoft они ускоряются.
RAG или Finetuning?
В AI сообществе сложилась определенная классификация подходов к решению задач с помощью LLM. Вот хорошая статья про это. Мне была полезна такая классификация, возможно, будет полезна и вам. Позволю себе краткое саммари статьи.
Итак, есть два подхода.
RAG - Retrieval-Augmented Generation. Берут "generic" LLM, обученную на большом массиве данных и дополняют решение поиском по базе знаний, специфичной для вашего домена. Подходит, например, если делаете систему помощи для работы с внутренней базой знаний компании.
Finetuning. Снова берут уже обученную на большом датасете LLM и дообучают ее на меньшем наборе данных, специфичном для домена. Подходит, например, если делаете болталку на специфичные темы.
Простой набор вопросов, который поможет выбрать путь:
Выбирай RAG, когда:
- требуется доступ к внешним источникам данных
- необходимо минимизировать галлюцинации модели
- нет большого набора данных для тюнинга модели
- специфичные данные меняются во времени
- необходима возможность анализировать источники и причины ответов системы
Выбирай Finetuning, когда:
- требуется модификация поведения или стиля ответов модели
- есть большой набор данных для тюнинга модели
- доменные данные статичны
- нет необходимости анализировать источники и причины ответов системы
Канал Чуть больше продакта