mr-pickles Oct 4 2021 at 14:24

Перплексия в языковых моделях

10 min

19K

Wunder Fund corporate blogProgramming*Algorithms*Mathematics*Natural Language Processing*

Translation

+27

Comments 3

Alexey2005 Oct 4 2021 at 17:32

Таких вот набитых формулами статей полон Интернет, но ни одна из них не даёт понимания, как же на практике считать эту перплексию. Это как раз тот случай, когда десять строчек кода могли бы дать больше понимания, чем десять томов формул.
Вот у нас есть тестовый корпус большого объёма, представленный в виде строки токенов S. И есть модель, представленная в виде функции gen_token(), которая, получив на вход произвольную строку токенов, предсказывает следующий токен в цепочке. О структуре модели мы ничего не знаем, это просто чёрный ящик.
Как теперь замерить перплексию модели, если это вообще возможно в данном случае?

bak Oct 4 2021 at 20:00

Поддержу комментатора выше. Большинство имеющихся статей на тему перплексии только запутывают. Эта формула - не применима напрямую.

На практике в тех местах где я видел - перплексию считают через экспоненту от CrossEntropy.

CrossEntropy - нормальная метрика качества, можно подать ей на вход реальные значения и предсказанные моделью и получить на выходе оценку.

То есть проходят по очереди по всем словам в тексте. Дают языковой модели на вход предыдущий текст (ну или несколько предыдущих слов) и говорят "предскажи мне следующее слово". Смотрят что предсказала модель (кладуд в y_pred) и какое реальное слово (в y_real).

Затем считают crossentropy на его основе. И затем через экспоненту от этого perplexity.

P. S. Тру дата-сайнтисты, поправьте меня пожалуйста если что-то напутал.

balezz Jan 26 2022 at 23:43

КДПВ доставляет