Darya_Frolova Jul 4 at 12:00

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

5 min

6.3K

МТС corporate blogMachine learning*Artificial Intelligence

+53

Comments 17

Hopenolis Jul 4 at 13:15

Гарри Поттера просто чаще цитируют в других текстах? Растащили на цитаты.

falldown Jul 4 at 14:23

утверждение, что ИИ лишь «учится на данных, а не копирует их», ставится под сомнение.

Если учитель сотню раз скажет ученику, что после "арахисовое" должно идти "масло", то это будет обучением, в процессе которого ученик обучится повторению (копированию) фразы "арахисовое масло". Где граница?

winkyBrain Jul 5 at 07:01

Да вроде просто всё) то, что вы описываете - это не обучение, а заучивание. без какой-либо логики и объяснений, просто запомни. а процесс обучения как раз подразумевает какую-то логику происходящего, её объяснение, закрепление на схожих примерах и т.д. чтобы в итоге пришло понимание. вы правда не видите разницы?

falldown Jul 5 at 17:01

Я-то вижу. Но нейросети не обучаются через "логику происходящего, её объяснение, закрепление на схожих примерах и т.д. чтобы в итоге пришло понимание.". Обучение нейросетей происходит на заучивании последовательностей токенов через вероятность.

jetnet Jul 4 at 16:16

Я уже который год тестирую модели на память простым вопросом: перечисли все действия Пилата в МиМ.
И только в этом году гугловская Гемини 2.5 смогла точно ответить на этот вопрос. Что как бы намекает, что этот роман ей скормили много раз. Вот интересно, сколько? Десятки, сотни?
Гемма 3 до сих пор фантазирует.

RusikR2D2 Jul 4 at 16:29

Что-то я не понимаю, зачем такое странное ограничение наложили на нейросеть? Что она не может "запомнить прочитанное" (увиденное, сказанное и т.п.)? Ведь это так просто сохранить текст. И если вдруг выпустят "надстройки" над человеческим мозгом, то такой прямой способ "запомнить" будет самым простым и желанным.

BlackMokona Jul 6 at 05:50

Потому как архитектура нейросети не позволяет что то запомнить.

Kamil_GR Jul 4 at 17:31

Интересно, а не значит ли это что писатели просто пишут наиболее статистически вероятными паттернами... )

Wosk1947 Jul 5 at 06:18

Да как бы большинство людей пишут и говорят наиболее статистически вероятными паттернами, так языки устроены. Можно, конечно, начать переставлять слова местами как какой-нибудь Йода, только понимать перестанут. В этих рассуждениях можно пойти еще дальше и вспомнить о мономифе Кэмпбелла, и понять, что все художественные произведения еще и построены по одним и тем же шаблонам, и имеют фактически одну и ту же структуру, то есть по факту любое худ.произведение ни на одном из масштабов рассмотрения текста не является уникальным. Мне интересно другое про все эти права на интеллектуальную собственность. А вот если я, например, запомнил книгу, и я ее буду ходить и пересказывать? Ну например устраивать литературные вечеринки, где мы будем друг другу пересказывать по памяти книги? (Как это делали в древности, когда какого-нибудь Гомера никто не записывал, потому что барды его знали наизусть и зарабатывали как раз его прочтением из памяти вслух). В таком случае я буду нарушать какие-то права? И чем это формально отличается от воспроизведения текста нейронкой из памяти? Ведь ни у меня, ни у нейронки нигде фактически не хранится цельный файл с текстом, который я воспроизвожу, то есть текста как бы нет.

rombell Jul 10 at 18:32

Ну вообще любое публичное воспроизведение значительных кусков произведения подчиняется авторскому праву.
А вот вариант, когда первый называет полфразы, второй её заканчивает - вроде бы вполне легален, и чем это отличается от данного эксперимента?

REPISOT Jul 7 at 07:26

а не значит ли это что писатели просто пишут наиболее статистически вероятными паттернами

Мономиф

l1onsun Jul 5 at 07:50

Авторские право такой, конечно, поломанный концепт. Читать можно, запоминать нельзя. Записывать нельзя, но можно цитировать. И т.д.

Visualynx Jul 6 at 06:26

Если в сша ограничат как-то развитие нейронок, то Китай вырвется вперед. С точки зрения гб на право придется положить болт. Для вида что-то придумают, но суть не тронут.

Akr0n Jul 9 at 13:47

Именно туда все и движется, у западных компаний все больше палок в колесах от поборников копирайта.

einhorn Jul 6 at 14:00

Вы открыли для себя переобучение

Akr0n Jul 9 at 13:45

Одна надежда на китайцев, те просто наплюют на все эти авторские права и дальше будут учить свои Квены и Дипсики на всем наследии человечества с торрентов. И это хорошо.

Hopenolis Jul 9 at 14:24

А они учат на материалах недоступных для приличных людей? Что то как то не заметно что бы они лучше отвечали.