Комментарии 8
но при какой мощности, большой текст от аски до юникод смайликов с иероглифами, допустим он большой, книжка такого текста, его надо закодить это нагрузка, к нему надо применить сжатие - нагрузка, и потом надо воспользоваться своим алгоритмом чтобы раскодить, и на выходе может получиться большая нагрузка наверно, книги тома текста если приглядеться к размерам строк
текст длиной 1,5 тысяч слов можно представить одним вектором.
Ну, я могу прямо сейчас представить любой текст вектором в 256 бит с помощью sha256. Что мне этот вектор скажет, кроме о неизменяемости исходного текста?
На мой взгляд, это просто открыли заново хеширование, только с помощью нейросетки.
Что мне этот вектор скажет, кроме о неизменяемости исходного текста?
Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст.
Я так понял, что они архивируют смысл и потом могут его разархивировать
Смысл в том, что с вектор отражает смысл текста и можно из вектора получить обратно текст. Текст будет похож на исходный.
Очевидно, что с sha256 такое не сделать.
Можно текст вообще в одно число закодировать, только коллизий много будет. Смысл не только в сжатии, а в возможности работать с этой сжатой информацией.
Я бы сказал, что исследователи изучали наименьшую возможную размерность пространства смыслов в которое можно вложить текст
Если исходный текст выписать в словарь, привести к нормальной форме слова и исключить синонимы, то битовый размер числа, которое будет обозначать размер этого словаря и будет размером минимального вектора. Короче этого значения будут усиливать коллизии.
Без нейронок понятно, сколько вешать в граммах.
Чем проще текст, тем легче его сжать...
Нобеля этим ребятам!
А если серьезно, то значимый прогресс. Сжимать на мэйнфрейме, обрабатывать на периферийных узлах. А в перспективе, видимо, будут асики, сжимающие текст по упрощенному стандартному алгоритму.
Международная группа учёных определила границы сжатия информации для языковых моделей