Привет) На уровне символов не рассматривали, но есть идеи замены слов на рифмующиеся. Удаление пробела, к сожалению, не поможет, потому что если человек говорит быстро, то аср распознает как-то по-другому.
В статье очень не хватает рассуждений на тему "А почему бы не взять ChatGPT/Saiga?". Оно с одной стороны понятно: дообучать и инференсить gpt2 гораздо проще, чем БЯМ. Однако, если выхлоп слабее, чем от БЯМ, то почему не они? В общем, было бы круто, если такое сравнение показали.
Думаю, что нет. Я пишу, если есть о чем писать, но у меня нет цели написать на аудиторию из N человек. В конце концов, здесь, на Хабре, теоретически, можно получить довольно широкий обхват.
После этой публикации пришло 6 человек. По мне, это много. Каждому подписчику радуюсь)
Ну аудитория может ждать чего угодно.) Я же завёл канал для того, чтобы знать, что есть люди, которые меня читают и таким образом мотивировать себя не создание нового контента. Пока работает)
В данном случае, под валидностью я имел к ввиду отсутствие деградации с увеличением роста числа токенов. Есть более сложные вопросы типа точно ли эти метрики измеряют то, что от них ожидается, но я этих вопросов не касался.
Про второй вопрос. Я собираю разные методы, которые могли бы помочь с характеризацией текстов. В планах, на базе этих характеристик научиться извлекать явные интерпретируемые зависимости.
Авторы статей искали валидную метрику для лексического разнообразия. Я же тем экспериментом хотел увидеть динамику этих метрик на русском языке. Точнее, я хотел посмотреть насколько эти метрики линейны при изменении длины текста в токенах.
Что касается задачи. К своему стыду, я не смог быстро придумать решение, используя тервер - мало практики. Однако, на основе изложенного можно предложить следующее примерное решение.
Давайте по имеющемуся тексту оценим параметр D по методике voc-d. Далее, немного преобразуя выражение из параграфа про voc-d, можем получить формулу зависимости уникальных токенов от длины текста. Получится формула $$V = D[(1+2\frac{N}{D})^2 -1]$$, по которой мы и сможем оценить количество уникальных токенов данного текста при наперед заданной длине. Вероятностную оценку не назову, но условием применимости, как минимум, будет подчинение распределения токенов закону Ципфа. Это также можно проверить эмпирически.
Меры на основе теории информации есть, я их просто не рассматривал здесь.) Ваш подход тоже можно использовать. Однако, на сколько мне помнится, исследователи не использовали формулу энтропии напрямую, а как-то с ней колдовали.
Приветствую, Илья. Рад вас видеть в комментах) Однако, к сожалению, я не могу сказать много, т.к. сам выступал в роли потребителя сервиса.
Судя по репе, использовался base bert, который был до обучен на, скорее всего, наших внутренних данных. В парафразере используется GPT-2, не знаю, внешняя ли она или была натренирована нами. Особо интересных параметров там нет, а в качестве способа ранжирования используется механизм внутри класса GPT2LMHeadModel из transformers. Судя по тому, что там указано top-k и нет параметра beam_size, то думаю, это обычное жадное декодирование.
Вы не учитываете числитель - то есть кол-во текстов в коллекции (корпусе).
Числитель IDF все еще не зависит от длины документов в коллекции) В том числе, в ваших вычислениях.
Далее, вы пишете
первый случай - пять раз в одном тексте (500 слов) - в знаменателе 1.
А в статье написано
Первый случай. Слово t встречается пять раз в тексте длинной 500 слов: знаменатель формулы IDF получит 5 балов и снизит показатель самого IDF, а следовательно, общий вес слова.
И еще вы описываете в комменте
второй случай - по одному разу в пяти текстах длинной 100 слов - в знаменателе 5. 40000/5 = 8000
А в статье написано
Второй случай. Слово t встречается по одному разу в пяти текстах длинной 100 слов: знаменатель формулы IDF получит 1 балов и завысит показатель самого IDF, а следовательно, общий вес слова.
То есть, если мы имеем корпус с текстами с сильно различным количеством слов, мы рискуем получить завышенный показатель IDF если слово встречается только в маленьких текстах и наоборот если слово часто встречается много раз только в одном крупном тексте.
но ведь IDF не зависит от длинны документа.
И еще, вы далее даете пояснения
Первый случай. Слово t встречается пять раз в тексте длинной 500 слов: знаменатель формулы IDF получит 5 балов и снизит показатель самого IDF, а следовательно, общий вес слова.
Второй случай. Слово t встречается по одному разу в пяти текстах длинной 100 слов: знаменатель формулы IDF получит 1 балов и завысит показатель самого IDF, а следовательно, общий вес слова.
Но ведь расшифровка формулы знаменателя IDF, которую вы приводите, на русском звучит как мощность множества документов , входящих в корпус , таких, что в документе содержится токен хотя бы один раз. И тогда, в первом случае, если мы берем текст из 500 слов как корпус, то idf каждого слова в принципе будет 1. А во втором случае мы имеем корпус из 5 текстов и, если слово встречается во всех 5 текстах, то знаменатель будет равен 5.
Опять же, замечу, что знаменатель IDF не зависит от количества слов в самом документе, поэтому не понятно как количество слов влияет на показатель IDF.
Из того, что Ник Вуйчич стал Ником Вуйчичем, никак не следует, что все люди могут стать такими же.
Но это и не говорит о том, что нужно просто сложить лапки и обвинять мир в несправедливости. Он действительно несправедлив, но это ситуацию не исправляет. Тут, как говорится, только два путя: либо стараться и иметь шанс на то, что что-то получится, либо не иметь этого шанса. Под "стараться" я также понимаю поиск помощи, потому что, очевидно, человек не всё может решить сам.
Есть подозрение, что такие разговоры - это главный источник мыслей об собственной ущербности и прочих связанных с этим проблем.
Чтобы такого не происходило, необходим баланс уже от самих родителей, которые сами то находятся под прессом того, что их ребенок "не такой". Нужно, чтобы они не рассказывали заведомо невероятные вещи своим детям-инвалидам, если говорить в контексте Ника Вуйчича. Им он вряд ли станет, но, если он, например, имеет синдром Дауна в не самой запущенной степени, то может стать актером.
Если вы про наличие соц. сетей, то это правда оговорка)
Если по поводу состояния, то позвольте объяснить: сперва уважаемый MobCobra написал, что у него суицидальные мысли больше 30 лет и мой ответ сродни рефлексу - человек написал о мыслях, значит проблема есть, значит надо сказать о том, что стоит поискать помощь. И только после этого MobCobra написал, что, оказывается, это его не особо и тревожит. Тогда, естественны образом, получается, что проблема как минимум остро не стоит (я согласен, что это не тоже самое, что "проблемы нет"). И тем не менее, в том своей разворотном сообщении я советую обратиться к психиатру.
Мы, люди, как продукт эволюции, получились в процессе этой борьбы и она была и есть не очень приятное занятие..
Вы правы, и одно из ключевых преимуществ, которое выработалось у нас в ходе эволюции, является способность к кооперации.
Как это ни странно, но чаще всего, именно близким все равно в большей степени, чем остальным..
Вы уверены, что это распространенный опыт?
эгоцентрично воспитанные нарциссы получают в момент осозния этого факта "разрыв шаблона"
Такие люди получаются из-за недостатков воспитания родителями и неблагоприятного социального окружения, а не от разрывов шаблонов.
Мир боль не причиняет - он вообще ничего не причиняет
Я имел в виду социальное окружение.
А вот тут нужно быть очень аккуратным в оценках тех мотивов, что побуждает людей помогать незнакомым людям.
А зачем здесь пытаться что-то оценивать, когда изначально, как я понял, шла речь о том, что окружающим все равно на проблемы индивида? Вот факт - одна группа людей пострадала, другая группа помогла, значит на проблемы индивида скорее всего найдется человек или группа, которая будет готов помочь. Мотивы - это дело десятое.
Привет)
На уровне символов не рассматривали, но есть идеи замены слов на рифмующиеся. Удаление пробела, к сожалению, не поможет, потому что если человек говорит быстро, то аср распознает как-то по-другому.
В статье очень не хватает рассуждений на тему "А почему бы не взять ChatGPT/Saiga?". Оно с одной стороны понятно: дообучать и инференсить gpt2 гораздо проще, чем БЯМ. Однако, если выхлоп слабее, чем от БЯМ, то почему не они? В общем, было бы круто, если такое сравнение показали.
А что с лицензией?)
Думаю, что нет. Я пишу, если есть о чем писать, но у меня нет цели написать на аудиторию из N человек. В конце концов, здесь, на Хабре, теоретически, можно получить довольно широкий обхват.
После этой публикации пришло 6 человек. По мне, это много. Каждому подписчику радуюсь)
Ну аудитория может ждать чего угодно.) Я же завёл канал для того, чтобы знать, что есть люди, которые меня читают и таким образом мотивировать себя не создание нового контента. Пока работает)
Спасибо. Рад, что работа уже нашла тех, кому она может пригодиться)
Спасибо.)
Добавил ссылки на ваши карты.
Хорошая идея. Сперва только хотелось бы собрать обратную связь от коллег по цеху.
Скорее, просто мне не попался. Также, как не попался, например, AllenNLP.
В данном случае, под валидностью я имел к ввиду отсутствие деградации с увеличением роста числа токенов. Есть более сложные вопросы типа точно ли эти метрики измеряют то, что от них ожидается, но я этих вопросов не касался.
Про второй вопрос. Я собираю разные методы, которые могли бы помочь с характеризацией текстов. В планах, на базе этих характеристик научиться извлекать явные интерпретируемые зависимости.
Авторы статей искали валидную метрику для лексического разнообразия. Я же тем экспериментом хотел увидеть динамику этих метрик на русском языке. Точнее, я хотел посмотреть насколько эти метрики линейны при изменении длины текста в токенах.
Что касается задачи. К своему стыду, я не смог быстро придумать решение, используя тервер - мало практики. Однако, на основе изложенного можно предложить следующее примерное решение.
Давайте по имеющемуся тексту оценим параметр D по методике voc-d. Далее, немного преобразуя выражение из параграфа про voc-d, можем получить формулу зависимости уникальных токенов от длины текста. Получится формула $$V = D[(1+2\frac{N}{D})^2 -1]$$, по которой мы и сможем оценить количество уникальных токенов данного текста при наперед заданной длине. Вероятностную оценку не назову, но условием применимости, как минимум, будет подчинение распределения токенов закону Ципфа. Это также можно проверить эмпирически.
Меры на основе теории информации есть, я их просто не рассматривал здесь.) Ваш подход тоже можно использовать. Однако, на сколько мне помнится, исследователи не использовали формулу энтропии напрямую, а как-то с ней колдовали.
Приветствую, Илья. Рад вас видеть в комментах) Однако, к сожалению, я не могу сказать много, т.к. сам выступал в роли потребителя сервиса.
Судя по репе, использовался base bert, который был до обучен на, скорее всего, наших внутренних данных. В парафразере используется GPT-2, не знаю, внешняя ли она или была натренирована нами. Особо интересных параметров там нет, а в качестве способа ранжирования используется механизм внутри класса GPT2LMHeadModel из transformers. Судя по тому, что там указано top-k и нет параметра beam_size, то думаю, это обычное жадное декодирование.
del
Числитель IDF все еще не зависит от длины документов в коллекции) В том числе, в ваших вычислениях.
Далее, вы пишете
А в статье написано
И еще вы описываете в комменте
А в статье написано
Хотел бы задать пару вопросов.
Вы пишите, что
но ведь IDF не зависит от длинны документа.
И еще, вы далее даете пояснения
Но ведь расшифровка формулы знаменателя IDF, которую вы приводите, на русском звучит как мощность множества документов , входящих в корпус , таких, что в документе содержится токен хотя бы один раз. И тогда, в первом случае, если мы берем текст из 500 слов как корпус, то idf каждого слова в принципе будет 1. А во втором случае мы имеем корпус из 5 текстов и, если слово встречается во всех 5 текстах, то знаменатель будет равен 5.
Опять же, замечу, что знаменатель IDF не зависит от количества слов в самом документе, поэтому не понятно как количество слов влияет на показатель IDF.
Но это и не говорит о том, что нужно просто сложить лапки и обвинять мир в несправедливости. Он действительно несправедлив, но это ситуацию не исправляет. Тут, как говорится, только два путя: либо стараться и иметь шанс на то, что что-то получится, либо не иметь этого шанса. Под "стараться" я также понимаю поиск помощи, потому что, очевидно, человек не всё может решить сам.
Чтобы такого не происходило, необходим баланс уже от самих родителей, которые сами то находятся под прессом того, что их ребенок "не такой". Нужно, чтобы они не рассказывали заведомо невероятные вещи своим детям-инвалидам, если говорить в контексте Ника Вуйчича. Им он вряд ли станет, но, если он, например, имеет синдром Дауна в не самой запущенной степени, то может стать актером.
Если вы про наличие соц. сетей, то это правда оговорка)
Если по поводу состояния, то позвольте объяснить: сперва уважаемый MobCobra написал, что у него суицидальные мысли больше 30 лет и мой ответ сродни рефлексу - человек написал о мыслях, значит проблема есть, значит надо сказать о том, что стоит поискать помощь. И только после этого MobCobra написал, что, оказывается, это его не особо и тревожит. Тогда, естественны образом, получается, что проблема как минимум остро не стоит (я согласен, что это не тоже самое, что "проблемы нет"). И тем не менее, в том своей разворотном сообщении я советую обратиться к психиатру.
Нет, еще нет, но это в планах. Эта работа является фундаментом для всех дальнейших исследований, включая динамику развития суицидального поведения.
Вы правы, и одно из ключевых преимуществ, которое выработалось у нас в ходе эволюции, является способность к кооперации.
Вы уверены, что это распространенный опыт?
Такие люди получаются из-за недостатков воспитания родителями и неблагоприятного социального окружения, а не от разрывов шаблонов.
Я имел в виду социальное окружение.
А зачем здесь пытаться что-то оценивать, когда изначально, как я понял, шла речь о том, что окружающим все равно на проблемы индивида? Вот факт - одна группа людей пострадала, другая группа помогла, значит на проблемы индивида скорее всего найдется человек или группа, которая будет готов помочь. Мотивы - это дело десятое.