Международная группа учёных определила границы сжатия информации для языковых моделей

2 min

4.1K

Artificial IntelligenceResearch and forecasts in IT *

Comments 8

но при какой мощности, большой текст от аски до юникод смайликов с иероглифами, допустим он большой, книжка такого текста, его надо закодить это нагрузка, к нему надо применить сжатие - нагрузка, и потом надо воспользоваться своим алгоритмом чтобы раскодить, и на выходе может получиться большая нагрузка наверно, книги тома текста если приглядеться к размерам строк

BugM Jun 10 at 01:06

Это все не важно. Вычислительные мощности растут.

Оценка границы при этом важна. Она определяет потенциальные возможности технологии.

alexalexes Jun 10 at 04:30

текст длиной 1,5 тысяч слов можно представить одним вектором.

Ну, я могу прямо сейчас представить любой текст вектором в 256 бит с помощью sha256. Что мне этот вектор скажет, кроме о неизменяемости исходного текста?

На мой взгляд, это просто открыли заново хеширование, только с помощью нейросетки.

V-LA Jun 10 at 04:59

Что мне этот вектор скажет, кроме о неизменяемости исходного текста?

Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст.

Я так понял, что они архивируют смысл и потом могут его разархивировать

Liugger Jun 10 at 08:29

Смысл в том, что с вектор отражает смысл текста и можно из вектора получить обратно текст. Текст будет похож на исходный.

Очевидно, что с sha256 такое не сделать.

Можно текст вообще в одно число закодировать, только коллизий много будет. Смысл не только в сжатии, а в возможности работать с этой сжатой информацией.

Я бы сказал, что исследователи изучали наименьшую возможную размерность пространства смыслов в которое можно вложить текст

alexalexes Jun 10 at 08:36

Если исходный текст выписать в словарь, привести к нормальной форме слова и исключить синонимы, то битовый размер числа, которое будет обозначать размер этого словаря и будет размером минимального вектора. Короче этого значения будут усиливать коллизии.

Без нейронок понятно, сколько вешать в граммах.

Liugger Jun 18 at 16:43

Нейронки все же учитывают словоформы и синонимы. Так как не все синонимы на 100% схожи по смыслу. Более того они учитывают контекст, то есть несколько смыслов для одного слова.

josef_polak Jun 10 at 09:24

Чем проще текст, тем легче его сжать...

Нобеля этим ребятам!

А если серьезно, то значимый прогресс. Сжимать на мэйнфрейме, обрабатывать на периферийных узлах. А в перспективе, видимо, будут асики, сжимающие текст по упрощенному стандартному алгоритму.