Как стать автором
Обновить

Комментарии 8

но при какой мощности, большой текст от аски до юникод смайликов с иероглифами, допустим он большой, книжка такого текста, его надо закодить это нагрузка, к нему надо применить сжатие - нагрузка, и потом надо воспользоваться своим алгоритмом чтобы раскодить, и на выходе может получиться большая нагрузка наверно, книги тома текста если приглядеться к размерам строк

Это все не важно. Вычислительные мощности растут.

Оценка границы при этом важна. Она определяет потенциальные возможности технологии.

текст длиной 1,5 тысяч слов можно представить одним вектором.

Ну, я могу прямо сейчас представить любой текст вектором в 256 бит с помощью sha256. Что мне этот вектор скажет, кроме о неизменяемости исходного текста?

На мой взгляд, это просто открыли заново хеширование, только с помощью нейросетки.

Что мне этот вектор скажет, кроме о неизменяемости исходного текста?

Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст.

Я так понял, что они архивируют смысл и потом могут его разархивировать

Смысл в том, что с вектор отражает смысл текста и можно из вектора получить обратно текст. Текст будет похож на исходный.

Очевидно, что с sha256 такое не сделать.

Можно текст вообще в одно число закодировать, только коллизий много будет. Смысл не только в сжатии, а в возможности работать с этой сжатой информацией.

Я бы сказал, что исследователи изучали наименьшую возможную размерность пространства смыслов в которое можно вложить текст

Если исходный текст выписать в словарь, привести к нормальной форме слова и исключить синонимы, то битовый размер числа, которое будет обозначать размер этого словаря и будет размером минимального вектора. Короче этого значения будут усиливать коллизии.

Без нейронок понятно, сколько вешать в граммах.

Нейронки все же учитывают словоформы и синонимы. Так как не все синонимы на 100% схожи по смыслу. Более того они учитывают контекст, то есть несколько смыслов для одного слова.

Чем проще текст, тем легче его сжать...

Нобеля этим ребятам!

А если серьезно, то значимый прогресс. Сжимать на мэйнфрейме, обрабатывать на периферийных узлах. А в перспективе, видимо, будут асики, сжимающие текст по упрощенному стандартному алгоритму.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости