Мы не тюнили свою модель на основе своих же бенчмарков. Иначе бенчмарк потерял бы всякий смысл. Вы можете посмотреть на другие бенчи, более того, можете сами сделать свой бенч
Обогнали — и это результат замеров, которые подробно описаны в статье. Это, разумеется, не гарантирует, что в ответ на ваш конкретный запрос ответ от другой модели окажется лучше
Бывает, увы. В целом LLM ещё многое не очень хорошо умеют. Например, фонетику языка не очень хорошо понимают, не очень хорошо работают с отдельными символами, галлюцинируют, не справляются за один шаг с обработкой больших последовательностей, плохо умеют в математику и т. д. и т. п. Это свойственно почти любым моделям раз от разу, но разработчики это победят со временем: неразрешимых проблем тут нет
Фильтры несовершенны — они либо много лишнего блокируют (что народ очень раздражает), либо пропускают много. В данном случае никакой фильтр на такой вопрос не сработал (а должен был? Нельзя задавать такие вопросы?..)
Мне вот просто очень интересно как и откуда модель подчерпнула этот сияющий бриллиант знаний?
Всё просто — человек долго и упорно разводил модель на галлюцинацию разными способами, развёл. Теперь носится с этим примером по всему интернету. Видимо, хочет раздуть скандал, устроить поиск виноватых, травлю и в конце концов повредить развитию отечественных технологий.
Подобные атаки возможны на любую современную языковую генеративную модель, ChatGPT, например, разводили неоднократно на угрозы пользователям убийством. Проблема галлюцинаций в языковых моделях, равно как и проблема атак на такие модели путём инъекции в промпт — пока в общем смысле не решена. Скорее всего, до конца и не будет, скорее люди поймут, что такие стохастические инструменты, как генеративные языковые модели, это именно инструменты, и не нужно пытаться наказать создателей, скажем, фотошопа, за то, что в этом фотошопе можно нарисовать непотребство.
MERA это бенчмарк Альянса в сфере искусственного интеллекта, а не Сбера
Мы не тюнили свою модель на основе своих же бенчмарков. Иначе бенчмарк потерял бы всякий смысл. Вы можете посмотреть на другие бенчи, более того, можете сами сделать свой бенч
Попугаи бенчмарков куда надёжнее, чем мнение одного человека, составленное на основе нескольких запросов
Обогнали — и это результат замеров, которые подробно описаны в статье. Это, разумеется, не гарантирует, что в ответ на ваш конкретный запрос ответ от другой модели окажется лучше
Бывает, увы. В целом LLM ещё многое не очень хорошо умеют. Например, фонетику языка не очень хорошо понимают, не очень хорошо работают с отдельными символами, галлюцинируют, не справляются за один шаг с обработкой больших последовательностей, плохо умеют в математику и т. д. и т. п. Это свойственно почти любым моделям раз от разу, но разработчики это победят со временем: неразрешимых проблем тут нет
Фильтры несовершенны — они либо много лишнего блокируют (что народ очень раздражает), либо пропускают много. В данном случае никакой фильтр на такой вопрос не сработал (а должен был? Нельзя задавать такие вопросы?..)
Какие-то знания о фонетике у модели есть, они недостаточны, увы, чтобы всегда выходило складно, но иногда удаются и рифма и ритм
Всё просто — человек долго и упорно разводил модель на галлюцинацию разными способами, развёл. Теперь носится с этим примером по всему интернету. Видимо, хочет раздуть скандал, устроить поиск виноватых, травлю и в конце концов повредить развитию отечественных технологий.
Подобные атаки возможны на любую современную языковую генеративную модель, ChatGPT, например, разводили неоднократно на угрозы пользователям убийством. Проблема галлюцинаций в языковых моделях, равно как и проблема атак на такие модели путём инъекции в промпт — пока в общем смысле не решена. Скорее всего, до конца и не будет, скорее люди поймут, что такие стохастические инструменты, как генеративные языковые модели, это именно инструменты, и не нужно пытаться наказать создателей, скажем, фотошопа, за то, что в этом фотошопе можно нарисовать непотребство.
Тест на крошечном наборе задач из одного домена и глобальные выводы?..
Какой прекрасный текст. Жалко только, что автор почему-то считает, что Гарриет Бичер-Стоу это мужчина :)
У вас неверная информация
А причём тут Кандинский вообще?..
В смысле, что вводит людей в заблуждение?
Версию претрейна с 13B параметров мы скоро выложим в открытый доступ.
GPT-3 от OpenAI это: 350M, 760M, 1.3B, 2.7B, 6.7B, 13B, 175B
Сейчас мы выложили в открытый доступ для русского 760M, 1.3B
Если у вас есть доступные вычислительные мощности, призываем вас присоединиться и делать для комьюнити модели больше.
Генерацию кода умеет
Да, и даже немножко хитрее
Пока нет таких планов, но в будущем частично возможно
Такого нет. Надо сделать)
да, ведутся
Не видел таких утверждений у них. Может, где-то пропустил.
В целом я очень советую вот эти три пейпера для понимания, то что там «на самом деле» :)
https://arxiv.org/abs/2206.04615
https://arxiv.org/abs/2203.15556
https://arxiv.org/abs/2207.10551