Комментарии / Профиль oulenspiegel / Хабр

Сергей Марков @oulenspiegel

Специалист по машинному обучению

Профиль Публикации 2Комментарии 271Закладки 5

Шлепа — Большой Русский Бенчмарк

oulenspiegel 2 сен в 10:43

MERA это бенчмарк Альянса в сфере искусственного интеллекта, а не Сбера

Посмотреть

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

oulenspiegel 8 фев в 15:41

Мы не тюнили свою модель на основе своих же бенчмарков. Иначе бенчмарк потерял бы всякий смысл. Вы можете посмотреть на другие бенчи, более того, можете сами сделать свой бенч

Посмотреть

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

oulenspiegel 8 фев в 15:39

Попугаи бенчмарков куда надёжнее, чем мнение одного человека, составленное на основе нескольких запросов

Посмотреть

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

oulenspiegel 2 фев в 16:00

Обогнали — и это результат замеров, которые подробно описаны в статье. Это, разумеется, не гарантирует, что в ответ на ваш конкретный запрос ответ от другой модели окажется лучше

Посмотреть

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

oulenspiegel 2 фев в 13:38

Бывает, увы. В целом LLM ещё многое не очень хорошо умеют. Например, фонетику языка не очень хорошо понимают, не очень хорошо работают с отдельными символами, галлюцинируют, не справляются за один шаг с обработкой больших последовательностей, плохо умеют в математику и т. д. и т. п. Это свойственно почти любым моделям раз от разу, но разработчики это победят со временем: неразрешимых проблем тут нет

Посмотреть

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

oulenspiegel 13 дек 2023 в 23:37

Фильтры несовершенны — они либо много лишнего блокируют (что народ очень раздражает), либо пропускают много. В данном случае никакой фильтр на такой вопрос не сработал (а должен был? Нельзя задавать такие вопросы?..)

Посмотреть

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

oulenspiegel 13 дек 2023 в 16:04

Какие-то знания о фонетике у модели есть, они недостаточны, увы, чтобы всегда выходило складно, но иногда удаются и рифма и ритм

Посмотреть

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

oulenspiegel 13 дек 2023 в 16:02

Посмотреть

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

oulenspiegel 13 дек 2023 в 15:58

Мне вот просто очень интересно как и откуда модель подчерпнула этот сияющий бриллиант знаний?

Всё просто — человек долго и упорно разводил модель на галлюцинацию разными способами, развёл. Теперь носится с этим примером по всему интернету. Видимо, хочет раздуть скандал, устроить поиск виноватых, травлю и в конце концов повредить развитию отечественных технологий.

Подобные атаки возможны на любую современную языковую генеративную модель, ChatGPT, например, разводили неоднократно на угрозы пользователям убийством. Проблема галлюцинаций в языковых моделях, равно как и проблема атак на такие модели путём инъекции в промпт — пока в общем смысле не решена. Скорее всего, до конца и не будет, скорее люди поймут, что такие стохастические инструменты, как генеративные языковые модели, это именно инструменты, и не нужно пытаться наказать создателей, скажем, фотошопа, за то, что в этом фотошопе можно нарисовать непотребство.

Посмотреть

LLaMa vs GigaChat: может ли опенсорсная модель работать лучше LLM с 13 млрд параметрами?

oulenspiegel 7 сен 2023 в 22:55

Тест на крошечном наборе задач из одного домена и глобальные выводы?..

Посмотреть

Распутывая историю Ады Лавлейс (первого программиста в истории)

oulenspiegel 19 июл 2023 в 17:26

Какой прекрасный текст. Жалко только, что автор почему-то считает, что Гарриет Бичер-Стоу это мужчина :)

Посмотреть

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

oulenspiegel 28 апр 2023 в 11:47

У вас неверная информация