Информация
- В рейтинге
- 7 648-й
- Откуда
- Москва, Москва и Московская обл., Россия
- Работает в
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Head of AI,ML
От 100 000 ₽
Управление проектами
Ведение переговоров
Управление людьми
Управление разработкой
Стратегическое планирование
Стратегическое управление
Информационные технологии
Хорошая работа, но у меня к авторам просьба. Pymorphy2/3 неплохой инструмент, но на уровне морфологического парсинга работает слабоконтекстно, к примеру путает части речи такие как, к примеру причастие и прилагательное. Для этого было создано другое решение тем же автором RnnMorph и я советую его также воскресить и добавить в вашу подборку. Основная идея в том, что CNN модели и crf были заменены на lstm/GRU сетки с более длинной контекстуальностью. Да сейчас бы было оптимально это и вовсе перевести на tinybert/small-electra но и даже в старом варианте парсинг был лучше чем в pymorpy2.
Кто хотел, начал раньше и им это подспорье, но есть умельцы и за две недели влетать в топ.
Работа с памятью не подразумевает нарушение закона о персональных данных и иных чувствительных данных (мед и прочие).
К сожалению работа с апи подразумевает, что в рамках релизного цикла может измениться версия модели, ну или по апи где-то рядом фикс версию поднимать. Записали.
А что мы как малые дети? Зайдите на каггл посмотрите соревнования от гугла, где в правилах прописаны использование моделей Gemma или иных соревнований. Далее, задача облегчена для участников, она косвенно близка к задаче, которую решают организаторы, но не является 1-1, а лишь сильно упрощенной версией. Далее за победу и лучшее решение люди получают вознаграждение, в 21 веке, в капиталистическом рынке это норма. Снова зайдите на сайт каггл, почитайте правила участия соревнований, про призы и интеллектуальные права. Давайте не будем набрасывать тут на пустом.
Т9 это не трансформер, а статистическая модель не нейросетевая, а на алгоритмах.
Возможно вы имели ввиду модель T5 от Гугла?
Или как бы Frida подошла бы для этого)
А мне одному это напомнило логику предикатов ток на уровне промптинга, аля как в пролог?
В общем, годное!
Подбираются ли для эмбеддеров префиксы, чтобы использовать всю их мощь в RAG? Замеряется ли качество извлечения подсказок на основе retrieval метрик? Или только везде судья?
Модель превращает ваш текст в чиселки - вектор, как в 9ом классе на алгебре или геометрии. Далее этот вектор используется для того, чтобы искать другие вектора, привязанные к др фразам. Так происходит поиск, а также если это фразы команд в вашей базе команд, то и поиск команд. А еще поверх чиселок можно группироват-кластеризовать тексты и искать закономерности. Это не LLM которая работает как текст на вход и текст на выход.
Модель полезна для задач матчинга, поиска, поверх нее можно делать классификацию и кластеризацию. Хороший эмбеддер для RAG.
Наш товарищ из opensource Павел, сделал ггуф https://huggingface.co/evilfreelancer/FRIDA-GGUF.
Ollama https://ollama.com/evilfreelancer/FRIDA
Хорошее гибридное решение, остается только вопрос, в конце атрибуты и результаты матчинга с LLM и VLM идут в бустинг как фичи или в этом пайпе бустинга нет?
В остальном конечно,для оффлайн матчинга ок, действительно дорого по времени и выч ресурсам получается. Надеюсь будут статьи про то,как вы юзаете LMки для онлайн матчинга.
Вопрос хороший, можно использовать разные подходы для оценки языка от RuSuperGlue до RuMMLU и MERA. Специальные бенчи мне попадались на глаза, возьму паузу и поищу. Докину вторым комментарием.
Приветствую, а киньте ссылки на их эмбеддеры. Тут все же не LLM, а эмбеддер для RAG.
До 512 токенов - Фрида лучшая имо.
Мы смотрим на модели по ruMTEB. Там в основном оунеры замеряют качество, в тч по моделям с апи. Для длинных текстов, думаю лучше будет oai, но еще верю в наши gigaembs.
Если есть примеры gguf t5 то совместимо, сейчас глянем.
Приветствую, отличная идея. Среди комьюнити уже есть onnx версия, мы также приглашаем энтузиастов к созданию gguf.