Comments / Profile of aarmaageedoon / Habr

Буянов Игорь @aarmaageedoon

NLP-разработчик (MTS AI)

ProfileArticles18PostsNewsComments53

Контроль и порядок. Разворачиваем платформу учёта затравок для БЯМ

aarmaageedoon Jan 16 at 15:14

Просто переключать раскладку лень, а "ЛЛМ" выглядит неказисто.

Look

Контроль и порядок. Разворачиваем платформу учёта затравок для БЯМ

aarmaageedoon Jan 16 at 15:14

Просто переключать раскладку лень, а "ЛЛМ" выглядит неказисто.

Look

Долой рандом, или ищем лучшие настройки для аугментации текстов

aarmaageedoon Jul 30 2024 at 07:37

Привет)
На уровне символов не рассматривали, но есть идеи замены слов на рифмующиеся. Удаление пробела, к сожалению, не поможет, потому что если человек говорит быстро, то аср распознает как-то по-другому.

Look

Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки

aarmaageedoon Jun 24 2024 at 14:45

В статье очень не хватает рассуждений на тему "А почему бы не взять ChatGPT/Saiga?". Оно с одной стороны понятно: дообучать и инференсить gpt2 гораздо проще, чем БЯМ. Однако, если выхлоп слабее, чем от БЯМ, то почему не они? В общем, было бы круто, если такое сравнение показали.

Look

Мы создали большой диалоговый датасет

aarmaageedoon Jul 31 2023 at 20:13

А что с лицензией?)

Look

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

aarmaageedoon Jan 21 2023 at 18:32

Думаю, что нет. Я пишу, если есть о чем писать, но у меня нет цели написать на аудиторию из N человек. В конце концов, здесь, на Хабре, теоретически, можно получить довольно широкий обхват.

Look

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

aarmaageedoon Jan 21 2023 at 05:35

После этой публикации пришло 6 человек. По мне, это много. Каждому подписчику радуюсь)

Ну аудитория может ждать чего угодно.) Я же завёл канал для того, чтобы знать, что есть люди, которые меня читают и таким образом мотивировать себя не создание нового контента. Пока работает)

Look

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

aarmaageedoon Jan 9 2023 at 05:42

Спасибо. Рад, что работа уже нашла тех, кому она может пригодиться)

Look

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

aarmaageedoon Jan 7 2023 at 16:51

Спасибо.)
Добавил ссылки на ваши карты.

Look

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

aarmaageedoon Jan 7 2023 at 16:50

Хорошая идея. Сперва только хотелось бы собрать обратную связь от коллег по цеху.

Look

Мы в город изумрудный идем дорогой трудной. Ваш компас в мир NLP

aarmaageedoon Jan 7 2023 at 12:23

Скорее, просто мне не попался. Также, как не попался, например, AllenNLP.

Look

Разбираемся, как измерять разнообразие слов

aarmaageedoon Jan 6 2023 at 10:27

В данном случае, под валидностью я имел к ввиду отсутствие деградации с увеличением роста числа токенов. Есть более сложные вопросы типа точно ли эти метрики измеряют то, что от них ожидается, но я этих вопросов не касался.

Про второй вопрос. Я собираю разные методы, которые могли бы помочь с характеризацией текстов. В планах, на базе этих характеристик научиться извлекать явные интерпретируемые зависимости.

Look

Разбираемся, как измерять разнообразие слов

aarmaageedoon Jan 6 2023 at 06:44

Авторы статей искали валидную метрику для лексического разнообразия. Я же тем экспериментом хотел увидеть динамику этих метрик на русском языке. Точнее, я хотел посмотреть насколько эти метрики линейны при изменении длины текста в токенах.

Что касается задачи. К своему стыду, я не смог быстро придумать решение, используя тервер - мало практики. Однако, на основе изложенного можно предложить следующее примерное решение.

Давайте по имеющемуся тексту оценим параметр D по методике voc-d. Далее, немного преобразуя выражение из параграфа про voc-d, можем получить формулу зависимости уникальных токенов от длины текста. Получится формула $$V = D[(1+2\frac{N}{D})^2 -1]$$, по которой мы и сможем оценить количество уникальных токенов данного текста при наперед заданной длине. Вероятностную оценку не назову, но условием применимости, как минимум, будет подчинение распределения токенов закону Ципфа. Это также можно проверить эмпирически.

Look

Разбираемся, как измерять разнообразие слов

aarmaageedoon Jan 5 2023 at 19:49

Меры на основе теории информации есть, я их просто не рассматривал здесь.) Ваш подход тоже можно использовать. Однако, на сколько мне помнится, исследователи не использовали формулу энтропии напрямую, а как-то с ней колдовали.

Look

I never asked for this. Как понять, на что способен аугментатор текстов

aarmaageedoon Dec 30 2022 at 09:38

Приветствую, Илья. Рад вас видеть в комментах) Однако, к сожалению, я не могу сказать много, т.к. сам выступал в роли потребителя сервиса.

Судя по репе, использовался base bert, который был до обучен на, скорее всего, наших внутренних данных. В парафразере используется GPT-2, не знаю, внешняя ли она или была натренирована нами. Особо интересных параметров там нет, а в качестве способа ранжирования используется механизм внутри класса GPT2LMHeadModel из transformers. Судя по тому, что там указано top-k и нет параметра beam_size, то думаю, это обычное жадное декодирование.

Look

Введение в триангуляцию

aarmaageedoon Nov 11 2022 at 12:00

del

Look

Мультиклассовая классификация текста. Дисбаланс тренировочных данных и их генерация. Особенности взвешивания TF-IDF

aarmaageedoon Jul 19 2022 at 08:09

Вы не учитываете числитель - то есть кол-во текстов в коллекции (корпусе).

Числитель IDF все еще не зависит от длины документов в коллекции) В том числе, в ваших вычислениях.

Далее, вы пишете

первый случай - пять раз в одном тексте (500 слов) - в знаменателе 1.

А в статье написано

Первый случай. Слово t встречается пять раз в тексте длинной 500 слов: знаменатель формулы IDF получит 5 балов и снизит показатель самого IDF, а следовательно, общий вес слова.

И еще вы описываете в комменте

второй случай - по одному разу в пяти текстах длинной 100 слов - в знаменателе 5. 40000/5 = 8000

А в статье написано

Второй случай. Слово t встречается по одному разу в пяти текстах длинной 100 слов: знаменатель формулы IDF получит 1 балов и завысит показатель самого IDF, а следовательно, общий вес слова.

Look

aarmaageedoon Jul 19 2022 at 05:08

Хотел бы задать пару вопросов.

Вы пишите, что

То есть, если мы имеем корпус с текстами с сильно различным количеством слов, мы рискуем получить завышенный показатель IDF если слово встречается только в маленьких текстах и наоборот если слово часто встречается много раз только в одном крупном тексте.

но ведь IDF не зависит от длинны документа.

И еще, вы далее даете пояснения

Первый случай. Слово t встречается пять раз в тексте длинной 500 слов: знаменатель формулы IDF получит 5 балов и снизит показатель самого IDF, а следовательно, общий вес слова.

Второй случай. Слово t встречается по одному разу в пяти текстах длинной 100 слов: знаменатель формулы IDF получит 1 балов и завысит показатель самого IDF, а следовательно, общий вес слова.

Но ведь расшифровка формулы знаменателя IDF, которую вы приводите, на русском звучит как мощность множества документов d_i , входящих в корпус , таких, что в документе d_i содержится токен хотя бы один раз. И тогда, в первом случае, если мы берем текст из 500 слов как корпус, то idf каждого слова в принципе будет 1. А во втором случае мы имеем корпус из 5 текстов и, если слово встречается во всех 5 текстах, то знаменатель будет равен 5.

Опять же, замечу, что знаменатель IDF не зависит от количества слов в самом документе, поэтому не понятно как количество слов влияет на показатель IDF.

Look

Как мы с помощью NLP облегчаем поиск людей с суицидальными наклонностями

aarmaageedoon Jun 22 2022 at 16:13

Из того, что Ник Вуйчич стал Ником Вуйчичем, никак не следует, что все люди могут стать такими же.

Но это и не говорит о том, что нужно просто сложить лапки и обвинять мир в несправедливости. Он действительно несправедлив, но это ситуацию не исправляет. Тут, как говорится, только два путя: либо стараться и иметь шанс на то, что что-то получится, либо не иметь этого шанса. Под "стараться" я также понимаю поиск помощи, потому что, очевидно, человек не всё может решить сам.

Есть подозрение, что такие разговоры - это главный источник мыслей об собственной ущербности и прочих связанных с этим проблем.

Чтобы такого не происходило, необходим баланс уже от самих родителей, которые сами то находятся под прессом того, что их ребенок "не такой". Нужно, чтобы они не рассказывали заведомо невероятные вещи своим детям-инвалидам, если говорить в контексте Ника Вуйчича. Им он вряд ли станет, но, если он, например, имеет синдром Дауна в не самой запущенной степени, то может стать актером.

Look

Как мы с помощью NLP облегчаем поиск людей с суицидальными наклонностями

aarmaageedoon Jun 21 2022 at 03:55

Если вы про наличие соц. сетей, то это правда оговорка)

Если по поводу состояния, то позвольте объяснить: сперва уважаемый MobCobra написал, что у него суицидальные мысли больше 30 лет и мой ответ сродни рефлексу - человек написал о мыслях, значит проблема есть, значит надо сказать о том, что стоит поискать помощь. И только после этого MobCobra написал, что, оказывается, это его не особо и тревожит. Тогда, естественны образом, получается, что проблема как минимум остро не стоит (я согласен, что это не тоже самое, что "проблемы нет"). И тем не менее, в том своей разворотном сообщении я советую обратиться к психиатру.

Look

2 3

Information

Specialization