Pull to refresh

Comments 25

Очень хорошо! А можете добавить фильтр на <12 VRAM?

Да, можно добавить. У вас какой-то специфический кейс? Почему 12?

Ага, тогда имеет смысл.

Проведена большая работа. Вы молодец. А как бы я мог найти llm лучшие для создания кода на питоне?

Начните отсюда https://llm.extractum.io/list/?codegen
Справа есть поле для быстрого поиска, в него можно вписать python, отфильтруются те, что для python кода.

Она в рейтинге (в районе 34 ранка), просто сейчас сортировка по средней оценке бенчмарков. Чуть позже прикручу в этот раздел сортировку по humaneval-python. Из codegen моделей WizardCoder-Python-34B хорошая, она не только код умеет генерить, но и по остальным бенчмаркам хороша (равно как и квантизованная).

Ок. Просьба еще добавить фильтр на <24 VRAM. Таких карт сейчас тоже много типа Tesla P40, M40 и т.д.

Извиняюсь, если это off-topic, но подходят ли LLM модели для задачи написания summary (резюме, краткое содержание)?

То есть чтобы я мог отдать на вход длинную статью на русском языке (приблизительно 30-60 минут выступления), а получить несколько предложений с кратким содержанием? Или в какую сторону копать?

Да, это задача саммаризации: скормить большой текст в модель и попросить её изложить кратко. Подойдут любые модели, которые хорошо работают с русским языком.

У саммари моделей ведь тоже такие же ограничения как у остальных? В среднем 32к токенов вместимость. Я так понимаю, человек спрашивал о модели которая может в себя вместить большие объемы, например 10мб, такие существуют?

Самый большой контекст, который сейчас поддерживается в некоторых моделях - 128K (это примерно 300 страниц книжного текста). Если нужны такие модели, то стоит сходить сюда https://llm.extractum.io/list/?ctx16 и посмотреть модели с большим размером контекста (>=100K). Или использовать gpt4-turbo, у которого input-контекст тоже 128K (но output контекст 4K). Или Antrophic Claude 2.1, там тоже 100K input context.

Извините за оффтопик, а можно ли LLM поднять на ноуте, где только cpu поддерживается? Оперативки 32гига. Или все будет жутко тормозить?

Можно попробовать 4bit кватизацию для модели и инференс через llama.cpp. Но, конечно, генерация будет небыстрой.

7B 8bit q8_0 на intel core i7 ноутбучном около 2 токена/секунду выдает.

Спасибо! прямо то, что доктор прописал

Для тех кто не заметил - Support for Mixtral was merged into Llama.cpp on December 13th.

Да, они оперативно влили.

Спасибо за очень полезный инструмент. Поисковик HF действительно ужасный :)

Есть несколько предложений/вопросов:

1. Планируется ли подключить русские бенчмарки RussianSuperGLUE или MERA?

2. Таблица сейчас полностью не влазит на экран (по крайней мере для ноута, fullhd). Постоянно приходится прокручивать вниз-вверх, влево-направо - очень не удобно. Предложения:

- Зафиксировать первый столбец с названием (и убрать из него maintainer, чтобы стал поуже - для него есть отдельный столбец)

- Заменить текст в заголовках колонок на иконки - это сильно уменьшит их ширину.

- Как-нибудь сделать горизонтальную прокрутку постоянно видной (даже если не докрутили до низа таблицы)

3. Сделать цвет кнопок глобальных фильтров однотонным. Текст на градиенте трудновато читать.

Спасибо за комментарий и предложения.

  1. Пока не планирую, для начала появятся стандартные MMLU, ARC, TrustfulQA и аналогичные.

  2. OK, хорошие предложения. Сделаю.

  3. Здесь нужно пособирать больше обратной связи. Если действительно это так, то уберу градиент.

Подскажите, как работает подписка? Несколько дней назад подписался. Вижу на графике обновления, но на почту ничего не приходит?

Апдейты по моделям на почту будут чуть позже.

Sign up to leave a comment.