Pull to refresh

Comments 11

Позвольте мне предложить свою точку зрения, из своей очень специфичной области увлечения. Не претендует на вселенскую объективность, а скорее наоборот.

Смотрите, использовать 500 уникальных слов на первой странице, а остальную книгу закончить используя всего 50 - наверное, не эквивалентно тому, чтобы более менее одинаково часто во всем изложении использовать 550 слов. Стандартным инструментом для учете повторений служит мера количества информации. Здесь сразу можно выделить два подхода
Внутренний:
Подсчитаем частоту употребления каждого токена внутри конкретного текста. Пусть p_i - частота i-го токена, а n_i - количество употреблений его в тексте. Вычислим сумму произведений n_i*log(p_i) - это будет полная информация I текста (без учета закономерности в последовательности его токенов). Разделим I на длину теста (в токенах), пусть r - это результат, тогда "приведенным" числом уникальных слов в тексте назовем величину 2^r.

Пример; если текст набран из k одинаково часто встречающихся токенов, то "приведенное" число уникальных слов будет равно k.

Внешний подход:
То же самое, что и внутренний, но p_i - это частота i-го токена не в конкретном тексте, а в типичном для класса этого текста языке (например, художественной литературе, книг по медицине или новостным лентам).

Внешний подход позволит приписывать осмысленные разнообразия даже очень маленьким тестам, внутри которых все токены уникальны. Правда здесь возможна ситуация, когда приведенное число токенов будет больше длины текста.

Меры на основе теории информации есть, я их просто не рассматривал здесь.) Ваш подход тоже можно использовать. Однако, на сколько мне помнится, исследователи не использовали формулу энтропии напрямую, а как-то с ней колдовали.

Всякое число, полученное каким-то осмысленным способом, имеет какой-то смысл. Трудно сказать, какое решение лучше, если не знаешь задачу. Интересно, какую задачу решали Вы, какие задачи решали авторы приведенных вами статей?

Пока я это писал, мне в голову пришла вот какая интересная задачка.
Пусть вам попалась уже разделенная на токены новелла на "древнемарсианском" языке, единственная в своем роде. Сможете ли вы, располагая текстом первых 30 ее страниц (скажем, 500 слов на страницу), оценить число уникальных слов на следующих 300 страницах, назвать вероятный разброс своей оценки и указать правдоподобные условия, в которых использованный вами метод будет оправдан.

Авторы статей искали валидную метрику для лексического разнообразия. Я же тем экспериментом хотел увидеть динамику этих метрик на русском языке. Точнее, я хотел посмотреть насколько эти метрики линейны при изменении длины текста в токенах.

Что касается задачи. К своему стыду, я не смог быстро придумать решение, используя тервер - мало практики. Однако, на основе изложенного можно предложить следующее примерное решение.

Давайте по имеющемуся тексту оценим параметр D по методике voc-d. Далее, немного преобразуя выражение из параграфа про voc-d, можем получить формулу зависимости уникальных токенов от длины текста. Получится формула $$V = D[(1+2\frac{N}{D})^2 -1]$$, по которой мы и сможем оценить количество уникальных токенов данного текста при наперед заданной длине. Вероятностную оценку не назову, но условием применимости, как минимум, будет подчинение распределения токенов закону Ципфа. Это также можно проверить эмпирически.

А "валидность" по каким критериям определялась? И ещё вопрос: Вы его (коэффициент лексического разнообразия) для чего-то используете (для чего?) или просто интересует?

В данном случае, под валидностью я имел к ввиду отсутствие деградации с увеличением роста числа токенов. Есть более сложные вопросы типа точно ли эти метрики измеряют то, что от них ожидается, но я этих вопросов не касался.

Про второй вопрос. Я собираю разные методы, которые могли бы помочь с характеризацией текстов. В планах, на базе этих характеристик научиться извлекать явные интерпретируемые зависимости.

Плотность не нравится? (Предельный случай: словарь русского языка и все тексты на нём созданные -- словарь стабилен (относительно), а количество токенов растёт лавинообразно)

Я сам бывает трачу на поиски ответа по нескольку лет и в течении этого времени ответы обычно меняются. Я рад, что у вас был повод задуматься, а насчет решения - Вы сами должны быть мерилом правильности своих рассуждений, главное - не торопитесь.

Не "мерить", а "измерять/измерить", может быть "оценивать/оценить".

Аналогично не "ложить", возможно "положить" или "класть"...

TTR, если верить Википедии, введён 1957. Если у Вас более точная информация, давайте поправим

Sign up to leave a comment.

Articles