Обновить
10
Александр Абрамов@Andriljo

Head of AI CoE во ВкусВилл

14
Подписчики
Отправить сообщение

Хорошая работа, но у меня к авторам просьба. Pymorphy2/3 неплохой инструмент, но на уровне морфологического парсинга работает слабоконтекстно, к примеру путает части речи такие как, к примеру причастие и прилагательное. Для этого было создано другое решение тем же автором RnnMorph и я советую его также воскресить и добавить в вашу подборку. Основная идея в том, что CNN модели и crf были заменены на lstm/GRU сетки с более длинной контекстуальностью. Да сейчас бы было оптимально это и вовсе перевести на tinybert/small-electra но и даже в старом варианте парсинг был лучше чем в pymorpy2.

Кто хотел, начал раньше и им это подспорье, но есть умельцы и за две недели влетать в топ.

Работа с памятью не подразумевает нарушение закона о персональных данных и иных чувствительных данных (мед и прочие).

К сожалению работа с апи подразумевает, что в рамках релизного цикла может измениться версия модели, ну или по апи где-то рядом фикс версию поднимать. Записали.

А что мы как малые дети? Зайдите на каггл посмотрите соревнования от гугла, где в правилах прописаны использование моделей Gemma или иных соревнований. Далее, задача облегчена для участников, она косвенно близка к задаче, которую решают организаторы, но не является 1-1, а лишь сильно упрощенной версией. Далее за победу и лучшее решение люди получают вознаграждение, в 21 веке, в капиталистическом рынке это норма. Снова зайдите на сайт каггл, почитайте правила участия соревнований, про призы и интеллектуальные права. Давайте не будем набрасывать тут на пустом.

Т9 это не трансформер, а статистическая модель не нейросетевая, а на алгоритмах.

Возможно вы имели ввиду модель T5 от Гугла?

А мне одному это напомнило логику предикатов ток на уровне промптинга, аля как в пролог?

В общем, годное!

Подбираются ли для эмбеддеров префиксы, чтобы использовать всю их мощь в RAG? Замеряется ли качество извлечения подсказок на основе retrieval метрик? Или только везде судья?

Модель превращает ваш текст в чиселки - вектор, как в 9ом классе на алгебре или геометрии. Далее этот вектор используется для того, чтобы искать другие вектора, привязанные к др фразам. Так происходит поиск, а также если это фразы команд в вашей базе команд, то и поиск команд. А еще поверх чиселок можно группироват-кластеризовать тексты и искать закономерности. Это не LLM которая работает как текст на вход и текст на выход.

Модель полезна для задач матчинга, поиска, поверх нее можно делать классификацию и кластеризацию. Хороший эмбеддер для RAG.

Хорошее гибридное решение, остается только вопрос, в конце атрибуты и результаты матчинга с LLM и VLM идут в бустинг как фичи или в этом пайпе бустинга нет?

В остальном конечно,для оффлайн матчинга ок, действительно дорого по времени и выч ресурсам получается. Надеюсь будут статьи про то,как вы юзаете LMки для онлайн матчинга.

Вопрос хороший, можно использовать разные подходы для оценки языка от RuSuperGlue до RuMMLU и MERA. Специальные бенчи мне попадались на глаза, возьму паузу и поищу. Докину вторым комментарием.

Приветствую, а киньте ссылки на их эмбеддеры. Тут все же не LLM, а эмбеддер для RAG.

Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.
Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.
2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.
2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.
 T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib
T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib

До 512 токенов - Фрида лучшая имо.

Мы смотрим на модели по ruMTEB. Там в основном оунеры замеряют качество, в тч по моделям с апи. Для длинных текстов, думаю лучше будет oai, но еще верю в наши gigaembs.

Если есть примеры gguf t5 то совместимо, сейчас глянем.

Приветствую, отличная идея. Среди комьюнити уже есть onnx версия, мы также приглашаем энтузиастов к созданию gguf.

Информация

В рейтинге
7 648-й
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Head of AI,ML
От 100 000 ₽
Управление проектами
Ведение переговоров
Управление людьми
Управление разработкой
Стратегическое планирование
Стратегическое управление
Информационные технологии