Kahelman Apr 3 at 23:15

Исследователи Кембриджа доказали, что вашей статьи не существует

Hard

4 min

14K

Artificial IntelligenceResearch and forecasts in IT * CopyrightData compression *

Analytics

Translation

-7

Comments 29

petro_64 Apr 3 at 23:25

Если посадить миллион обезьян за печатные машинки, то рано или поздно они напишут роман Шекспира. Теперь, с развитием интернета, мы знаем что это не так. Теперь миллион токенов.

normal Apr 3 at 23:35

я даже знаю начало этого особого секретного промпта
"Ты британский ученый, мировой специалист по латентной редукции, запили мне текст на тему... "

apevzner Apr 4 at 00:03

Я не очень понял, а модель обучалась на этих текстах, которые она так ловко сжимает? Или она обучалась на одних текстах, а сжимает другие?

Politura Apr 4 at 00:21

Это обычный фантастический рассказик. Может бредогенератор с какой-то ллм-ки. С первой-же строчки понятно: никакого "Department of Predictive Reconstructions" не существует, как и прочие выдуманые термины.

Wesha Apr 4 at 04:16

Передайте аффтару кто-нибудь, что сегодня третье апреля.

ihouser Apr 4 at 10:40

В течении двух недель будут расползатся медленно затухающие волны от первого апреля.

Kahelman Apr 4 at 14:50

Насколько я понял из препубликационного черновика — корпус для обучения и тестовые тексты разделены. Авторы настаивают на этом отдельно: система не воспроизводит по памяти, она находит минимальное описание в латентном пространстве, из которого текст восстанавливается, а не извлекается.

Отсюда и 2% остатка — это как раз граница между «запомнить» и «понять структуру». Если бы модель просто запоминала, остатка не было бы вообще, либо он был бы случайным. Но он стабильно попадает именно в авторский стиль. Это, собственно, и есть центральный результат.

Наллфилд на этот вопрос в интервью прямо не ответил. Сказал: «Это не влияет на реконструкцию». Что, в общем, само по себе ответ.

Politura Apr 4 at 23:56

Нет никакого препубликационного черновика. В самом низу статьи, там где копирайт, есть Legal ссылка, прочтите ее, пожалуйста и перестаньте вводить людей в заблуждение.

karrakoliko Apr 4 at 00:13

теперь мне интересно что получится если 50 раз пережать один и тот же текст с потерей 2% на каждом этапе

звучит как что то максимально дисфункциональное

karrakoliko Apr 4 at 00:20

интересно что получится, если бы каким то образом оцифровать мою личность в текст и сжать таким образом

sshmakov Apr 4 at 04:59

Получится nullfield

karrakoliko Apr 4 at 00:25

The Prompt is a publication of satirical commentary. All articles are works of fiction and satire. Names, characters, organisations, events, and incidents are either products of the editorial team's imagination or used in a satirical context. Any resemblance to actual persons, living or dead, or actual events is coincidental or is intended as satire and commentary in the public interest.

по ссылке с оригинала.

иа панорама крч

https://theprompt.uk/legal/

Real_Egor Apr 4 at 02:30

1) применяем рекурсию, Берем сжаые до 2% тексты, составляем из них новый текст - и он уже так не сжимается

2) это доказывает лишь то, что в большинстве исследуемых текстов в основном вода, а не смысл. Возьми математический документ, в нем одна формула и 3 страницы объяснений. Сожми до смысла - останется формула и пара слов, как выстроено объяснение. Вот и сжатие до 2%

3) А теперь самое интересное. Возьми художественный диалог, художественное произведение. В нем смысл не в фактах, а в эмоциях. Сожми его, и развернуть уже не сможешь. Получишь "совсем другой текст".

4) Ну и в добавок. Иногда текст важен не фактами, а насыщен зависимостями. Любое логическое размышление, где выстраивается причинно-следственная связь без воды,. Сожми ее и все потеряешь.
(это частично пересекается с математическими объяснениями, но я говорю о плотности логических связей. В доказательствах часто приводят примеры / аналогии / сравнения / иные взгляды / перепроверки. Все это для основного смысла - не обязательно, лишь усиливает их)

Aggle 7 hours ago

3) А теперь самое интересное. Возьми художественный диалог, художественное произведение. В нем смысл не в фактах, а в эмоциях. Сожми его, и развернуть уже не сможешь. Получишь "совсем другой текст".

С грустью могу констатировать, что это понимает всё меньше и меньше народа, начиная со школы. К слову сказать, эта тема ещё с 90-х пошла, задолго до всяких там ваших нейронок. Пачками издавались всякие сборники типа: "Краткое содержание 100 книг из программы по литературе для средней школы" и т. д. Вследствие этого, в головах со школьной скамьи стал закрепляться примат сюжета над всем остальным (без чего, в принципе, литература как таковая не существует — остаётся только сухой описательный набор каких-то действий).
Ну и теперь вполне себе нормальным считается ознакомится с АИ-выдержкой на пару-тройку страниц и считать при этом, что ты прочёл "Войну и мир"/"Преступление и наказание", да хоть "Евгения Онегина".

Kamil_GR Apr 4 at 02:49

1 апреля вроде кончилось

sshmakov Apr 4 at 04:59

Да, но шутить не запрещали

blik13 Apr 4 at 04:24

09:17 — Panikwire: «Seagate −4,1%, Western Digital −3,8% на предторговой сессии. Объяснений не поступало.»

Так это потому что упавшая сосиска была не отварная, а ещё сырая, потому всё и завертелось. Уровень связи примерно такой)

Mish_Gum Apr 4 at 04:36

Попробовал на своей статье. Эксперимент повторил в DeepSeek v.3.2.

Общее впечатление: структура и идея совпадают, детали — нет

Обе статьи (оригинал и восстановленная) говорят об одном, но способ вывода формул, численные значения и глубина обоснования — разные.

wladislawmsk Apr 4 at 06:52

Хороший первоапрельский материал, жаль немного задержался.

UFO landed and left these words here

Amfy78 Apr 4 at 09:07

Смешно. Но с переводом припоздали)

dplsoft Apr 4 at 09:52

британские учОные открыли словарные алгоритмы сжатия?!

используя а качестве словаря вероятностные связи в обученной нейронке?)) и при этом это ещё и сжатие с потерями... это что?! jpeg для текстов? wow!!!! XD

маленький шаг для жертв ~~егэ~~ бакалавриата, большая ржака для человечества )))

ps: жаль, что первоапрельская шутка не выглядит как шутка . ага. XD))

Zippy Apr 4 at 11:37

Ну это же классика - "Британские ученые..."

MaryBlackie Apr 4 at 12:03

Итак, британские учёные открыли для себя что такое тезисы...

vybo Apr 4 at 12:04

Вообще-то 100% всевозможных компьютерных файлов в виде HEX-кода уже давно есть в Вавилонской библиотеке, остается назвать правильный номер

fiego Apr 4 at 17:24

В знаках числа пи

Kahelman Apr 4 at 12:50

Не стреляйте в пианиста он не может играть лучше ….

fiego Apr 4 at 17:25

Все возможные тексты уже есть где-то в знаках числа пи. Нужно только знать позицию

Aggle 7 hours ago

09:31 — Маск (Musk) написал: «Хранилище — это просто оперативная память для промптов. Все данные помещаются в контекстное окно. Всё остальное — задержка.» Пост удалён в 09:35. Восстановлен в 09:36. Удалён снова в 09:41.

Теперь мы точно знаем, что Илон опохмеляется. )