Comments / Profile of alexanderkuk / Habr

Александр Кукушкин @alexanderkuk

Лаборатория анализа данных Александра Кукушкина

ProfileArticles14PostsNewsComments90

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

alexanderkuk Jun 20 at 16:50

В начале соглашения https://forms.yandex.ru/u/68139306d04688bad07479ae/ не хватает фразы типа «слушай сюда, пес» 😂

Look

Как мы собираем SWE-bench на других языках

alexanderkuk May 18 at 06:00

Есть код, данные в открытом доступе?

Look

Doom — русский физмат бенчмарк

alexanderkuk May 7 at 16:07

Есть ли большой смысл переводить датасет по математике / майнить задачи математике на русском языке? Я понимаю зачем например бенч с русскими сканами на OCR, зачем бенч на русский культурный код. Но математика на всех языках одинаковая. Та же мысль про бенчи про код

Look

Doom — русский физмат бенчмарк

alexanderkuk May 7 at 16:03

Российских ризонинг моделей нет, российский ризонинг бенчмарк есть ))

Или есть какие-то ризонинг модели?

Look

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

alexanderkuk Apr 30 at 11:33

Какие бенчи кроме https://mathvista.github.io https://huggingface.co/datasets/SpursgoZmy/MMTab ?

Look

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

alexanderkuk Apr 30 at 11:30

Будет доступ по API?

Look

A-Vibe от Авито, токенизация и оценка стоимости

alexanderkuk Apr 9 at 14:11

Какие скоры на бенчмарках кроме Меры?
Токенизатор хуже / лучше чем в Ruadapt?
Почему опубликовали не в хабе AvitoTech?

Look

Как я победил в RAG Challenge: от нуля до SoTA за один конкурс

alexanderkuk Mar 28 at 05:48

Было бы интересно что-то вроде ablation study, как максимально упростить решение, минимально потерять в качестве. Разобраться сколько именно качества докидывают отдельные фичи

что если забить на шифр Цезары
на сколько влияет на скор сериализация таблиц
...

Look

GigaChat 2.0 в API

alexanderkuk Mar 13 at 19:49

Хорошо бы кроме метрик на бенчмарках показать цену за токен. Сравнить цену на Llama, Qwen, Deepseek в Openrouter и на Gigachat

Интересно сколько будет стоить использовать Aider с Gigachat по сравнению с Deepseek

Look

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

alexanderkuk Jun 26 2024 at 17:14

Какой промпт использовали чтобы выделить тему из кластера?
Пробовали объединить темы Чатгпт? Как выглядел промпт?
Визуализация эмбеддингов какая-то слишком удобная )) На реальных данных кластера также хорошо разделяются?

Оч полезная статья, спасибо!

Look

SAGE: коррекция орфографии с помощью языковых моделей

alexanderkuk Oct 6 2023 at 16:04

Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?

Look

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

alexanderkuk Apr 24 2023 at 09:42

Собрав "корзину" из запросов разной тематики, мы провели на ней SBS между нашей моделью и моделью от OpenAI (gpt-3.5-turbo). Начиная от 3:97 в пользу ChatGPT, нам удалось добиться результата 30:70 в финальной версии модели

Вы не могли бы опубликовать список запросов?

Look

Обучение модели естественного языка с BERT и Tensorflow

alexanderkuk Nov 18 2020 at 08:25

Модель доступна для скачивания в формате для tensorflow, pytorch, и tf-hub.

Интересно про SBERT, не могли бы раскрыть подробности:

Сравнивали с RuBERT от DeepPavlov http://docs.deeppavlov.ai/en/master/features/models/bert.html?
Какой объем обучающих текстов? Какой состав, Taiga, Lenta?
Ванильный BERT, не RoBERTa?
Код из Huggingface?
Сколько, каких GPU, сколько тренировали?
Тренировали с нуля или как DeepPavlov инициировали multilungual?

Look

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk Aug 31 2020 at 15:06

В проекте, кстати, уже есть есть такие обёртки. Там aiohttp + docker https://github.com/natasha/slovnet/blob/master/docker/slovnet-ner/exec/app.py

Look

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk Aug 25 2020 at 18:48

Правила для Yargy-парсера

Look

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk Aug 25 2020 at 13:47

Открытых решений для русского не знаю. Для тональности всего текста есть https://github.com/bureaucratic-labs/dostoevsky

Look

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

alexanderkuk Aug 25 2020 at 13:47

Хорошо ли справляется выделение ФИО с приведением к норальной форме (именительный падеж)?
Да, советую пробовать свои примеры на стенде. Более подробный стенд есть на http://natasha.github.io/. Мерил качество нормализации на BSNLP-2019 https://github.com/natasha/corus#load_bsnlp, примерно 90% имён нормализуется корректно.

"Песков" будет превращен в "песок". такие кейсы как Эрик Конггорд («конггордый»)-Андерсен, или Елена Верещака («верещак»), или Николай Борцов («борец»)
Такое, конечно, Наташа старается учитывать. Наташа использует информацию о морфологии от внутреннего морфологического тегера и Pymorphy https://pymorphy2.readthedocs.io/en/latest/ для нормализации. Если оба отработают корректно, ошибки не будет

Эрик Конггорд-Андерсен». Фамилию через черточку не смог осилить полностью
Для разделения на имя и фамилию в библиотеке собран набор правил для Yargy-парсера https://github.com/natasha/yargy. Правил для фамилий с дефисом там нет.