Комментарии / Профиль Andriljo / Хабр

Александр Абрамов@Andriljo

Head of AI CoE во ВкусВилл

Подписчики

ПрофильСтатьи2ПостыНовостиКомментарии115

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Andriljo 7 ноя 2025 в 14:45

Хорошая работа, но у меня к авторам просьба. Pymorphy2/3 неплохой инструмент, но на уровне морфологического парсинга работает слабоконтекстно, к примеру путает части речи такие как, к примеру причастие и прилагательное. Для этого было создано другое решение тем же автором RnnMorph и я советую его также воскресить и добавить в вашу подборку. Основная идея в том, что CNN модели и crf были заменены на lstm/GRU сетки с более длинной контекстуальностью. Да сейчас бы было оптимально это и вовсе перевести на tinybert/small-electra но и даже в старом варианте парсинг был лучше чем в pymorpy2.

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Andriljo 20 окт 2025 в 16:46

Кто хотел, начал раньше и им это подспорье, но есть умельцы и за две недели влетать в топ.

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Andriljo 20 окт 2025 в 16:45

Работа с памятью не подразумевает нарушение закона о персональных данных и иных чувствительных данных (мед и прочие).

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Andriljo 20 окт 2025 в 16:45

К сожалению работа с апи подразумевает, что в рамках релизного цикла может измениться версия модели, ну или по апи где-то рядом фикс версию поднимать. Записали.

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Andriljo 18 окт 2025 в 11:52

А что мы как малые дети? Зайдите на каггл посмотрите соревнования от гугла, где в правилах прописаны использование моделей Gemma или иных соревнований. Далее, задача облегчена для участников, она косвенно близка к задаче, которую решают организаторы, но не является 1-1, а лишь сильно упрощенной версией. Далее за победу и лучшее решение люди получают вознаграждение, в 21 веке, в капиталистическом рынке это норма. Снова зайдите на сайт каггл, почитайте правила участия соревнований, про призы и интеллектуальные права. Давайте не будем набрасывать тут на пустом.

ИИ кодинг не работает

Andriljo 12 окт 2025 в 09:15

Т9 это не трансформер, а статистическая модель не нейросетевая, а на алгоритмах.

Возможно вы имели ввиду модель T5 от Гугла?

+12

Векторизация текстов с помощью LLM. Гайд для аналитиков, которые не хотят, чтобы их проекты переделывали с нуля

Andriljo 7 окт 2025 в 20:08

Или как бы Frida подошла бы для этого)

Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно

Andriljo 29 авг 2025 в 23:09

А мне одному это напомнило логику предикатов ток на уровне промптинга, аля как в пролог?

В общем, годное!

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Andriljo 25 июл 2025 в 15:41

Подбираются ли для эмбеддеров префиксы, чтобы использовать всю их мощь в RAG? Замеряется ли качество извлечения подсказок на основе retrieval метрик? Или только везде судья?

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 23 мая 2025 в 11:23

Модель превращает ваш текст в чиселки - вектор, как в 9ом классе на алгебре или геометрии. Далее этот вектор используется для того, чтобы искать другие вектора, привязанные к др фразам. Так происходит поиск, а также если это фразы команд в вашей базе команд, то и поиск команд. А еще поверх чиселок можно группироват-кластеризовать тексты и искать закономерности. Это не LLM которая работает как текст на вход и текст на выход.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 22 мая 2025 в 19:58

Модель полезна для задач матчинга, поиска, поверх нее можно делать классификацию и кластеризацию. Хороший эмбеддер для RAG.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 22 мая 2025 в 06:53

Наш товарищ из opensource Павел, сделал ггуф https://huggingface.co/evilfreelancer/FRIDA-GGUF.

Ollama https://ollama.com/evilfreelancer/FRIDA

Современные подходы к матчингу товаров с использованием LLM. Опыт в e-commerce

Andriljo 21 мая 2025 в 14:36

Хорошее гибридное решение, остается только вопрос, в конце атрибуты и результаты матчинга с LLM и VLM идут в бустинг как фичи или в этом пайпе бустинга нет?

В остальном конечно,для оффлайн матчинга ок, действительно дорого по времени и выч ресурсам получается. Надеюсь будут статьи про то,как вы юзаете LMки для онлайн матчинга.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 21 мая 2025 в 14:15

Вопрос хороший, можно использовать разные подходы для оценки языка от RuSuperGlue до RuMMLU и MERA. Специальные бенчи мне попадались на глаза, возьму паузу и поищу. Докину вторым комментарием.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 21 мая 2025 в 14:14

Приветствую, а киньте ссылки на их эмбеддеры. Тут все же не LLM, а эмбеддер для RAG.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 20 мая 2025 в 11:17

Vllm не поддерживает т5, но поддерживает энкодеры, т5 энкодер это классик энкодер, видимо с некоторыми приседаниями должен залететь.

2025г кому нужны ваши т5 энкодеры, но зато bart конечно нужен.

T5 encoder существует в гуфе, значит сделать реально,но пример через llama embs lib

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 20 мая 2025 в 10:58

До 512 токенов - Фрида лучшая имо.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 20 мая 2025 в 10:05

Мы смотрим на модели по ruMTEB. Там в основном оунеры замеряют качество, в тч по моделям с апи. Для длинных текстов, думаю лучше будет oai, но еще верю в наши gigaembs.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 20 мая 2025 в 10:02

Если есть примеры gguf t5 то совместимо, сейчас глянем.

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Andriljo 20 мая 2025 в 08:35

Приветствую, отличная идея. Среди комьюнити уже есть onnx версия, мы также приглашаем энтузиастов к созданию gguf.