Насколько я понимаю, информация - это какие-либо сведения, уменьшающие неопределённость. Смысл в тексте - это идея, которую хочет передать автор читателю. Целью написания текста является коммуникация для уменьшения неопределённости по какому-либо вопросу, т.е. это процесс передачи информации. По-видимому текст должен содержать что-то, подлежащее осмыслению или "распаковке" смысла. Иначе непонятно как бы читатель смог почерпнуть из книги или статьи примерно то же самое, что и хотел донести до него автор. Текст без смысла может содержать формальные признаки информации, например правильную грамматическую структуру, но при этом не вносить ничего нового в систему знаний читателя. Пример: "стрептоцидовый стриптиз с трепетами стрептококков" - есть информация (о структуре): прилагательное + существительное + предложный оборот. Но по смыслу абсурд, ибо как антибиотик может исполнять стриптиз и какие трепеты могут быть у бактерий. Чтобы человек понял смысл текста, ему нужно иметь определённую "прошивку" своего декодера. От этого зависит, что будет означать для него встреченное в тексте "пивной путч" - вздутие живота от выпитого пива или попытка переворота в Веймарской республике.
Если в начале 20 века (условно) рабочий производил за 6 часов работы конвейера столько, сколько ему платят за весь рабочий день, то в 21 веке это происходит за полчаса работы конвейера. Остальное - прибавочный продукт, обращаемый в прибыль собственника. Часть этого растущего избытка распределяется в интересах общества - на социалку, отпуски, больничные, большую доступность всевозможных материальных благ. Этому способствует технический прогресс. Также он даёт техническую возможность для сокращения продолжительности рабочего дня, т.к. создать всего столько же сколько раньше можно за меньшее время. Это время можно было бы благодаря техническому прогрессу сделать свободным для каждого работника, сократив рабочий день, скажем до 6 часов. Но это происходит не так часто по сравнению с сокращением становящихся лишними работниками и распределении их нагрузки на оставшихся. Потому что главная цель - прибыль. В этом проблема, работа на износ и часто выгорание. А вовсе не в техническом прогрессе самом по себе.
Если в тексте самом по себе нет смысла, то такой текст никому не нужен, потому что с помощью него нельзя передать никакой информации от одного человека другому. Наверное дело тут в том, какой декодер сформировался в мозгу - если это люди носители одного языка и одной культуры, то они вполне свободно могут передавать друг другу смысл сообщений в тексте, осуществляя кодирование информации на своём языке и умея её декодировать.
На мой взгляд результат машинного обучения - извлечённые из данных закономерности. Это не база данных, в которую постранично записаны произведения авторов, а модель - абстракция в отражены самые важные элементы изученного. В процессе генерации данные воссоздаются по извлечённым закономерностям. И результат, при достаточно высоком разнообразии исходных данных (значительно превышающем сложность модели) может быть не похож ни на что из исходников. Поэтому по-сути компании, предоставляющие сервисы на основе таких моделей не нарушают авторские права.
Но для того, чтобы поддержать творчество людей, которое и служит лучше всего обучению новых моделей, нужно, чтобы компании, особенно если это крупные корпорации вроде Microsoft или OpenAI с Antropic существовали в некотором балансе интересов. Например, нанимали худужников, писателей и артистов для создания контента. Либо выплачивали некоторые отчисления тем людям, чьё творчество было использовано при создании моделей. Потому что в конце-концов не люди существуют для прогресса машин. А машины, для продолжения прогресса людей.
Я как раз занимаюсь в качестве домашнего хобби-проекта разработкой моделей для распределённого исполнения и организации вывода на принципах самоорганизации. Начал примерно год назад с нуля. Задача изначально сильно не по уровню и возможностям, но если интересно, чего бы и не заниматься такими авантюрами. Первым делом я обучил меленькую модель типа кодер-декодер ("Requestor" на Обниморде), для того чтобы с помощью неё на моих слабых компьютерах быстро создавать много синтетических данных. Теперь третий месяц идёт обучение на этом наборе модели декодера, предназначение которой будет писать статьи и отвечать на вопросы пользователя. Она будет создавать датасеты для следующей модели типа mamba-former для работы с большими документами и смешанными источниками (изображение, аудио). Все они будут очень компактны и пригодны для работы на одноплатниках и смартфонах, чтобы можно было построить распределённую сеть на пользовательских устройствах, ответы которой будут улучшаться за счёт саморефлексии и изменения топологии узлов. На каждом устройстве - узле пользователя, будет набор моделей со своим "опытом", приобретаемым из взаимодействия с пользователем и предоставляемой им информации. Чем больше будет сеть, тем больше будет ёмкость и охват тем в ширь и глубину.
Но мне не совсем понятно, с чем связаны ваши опасения? Это в любом случае будет только инструмент для работы с информацией. Как поисковая машина на ресурсах пользователей.
На мой взгляд синтетические данные - это что-либо полученное соединением каких либо отдельных частей. Например, мы можем взять некоторые списки имён, фамилий, возрастов, названий городов и написать программу для генерации биографий. А затем обучить сеть на множестве таких текстов извлечению из неструктурированного текста нужные сущности и выдачу их в структурированной форме, например в виде JSON файла. Наверное есть множество задач, где такие синтетические данные будут работать даже лучше, чем тексты созданные людьми вручную.
Мне кажется ставка на то, что ИИ сам напишет любую программу может быть не самой эффективной. Возможно, большую производительность дадут такие инструменты с функциями ИИ, которые позволят программисту писать программы на естественном языке (английском, русском и т.д.). В этом процессе главным будет умение найти и описать алгоритмы ведущие к решению. Это позволит получать более точные результаты за меньшее число итераций, потому что реальное понимание задачи есть только у человека.
Я хочу попробовать создать такую модель с чистого листа и постепенно продвигаюсь к этому в рамках свободного домашнего проекта. Пока что освоил обучение кодер-декодерных трансформеров с помощью OpenMNT и декодерных с помощью Pytorch. Как раз сейчас продолжается обучение GPT2 модели, которая будет генерировать произвольные тексты по плану пользователя. После этого этапа я и планирую начать эксперименты с моделью для программирования. Для начала модель будет переводить псевдокод на русском в код на Python. Дальше, то же самое с блок-схемами. Ну а если всё пойдёт хорошо - то текст в произвольном форме в программу.
А так переводит моё ИИ-творение "Толмачёвая клёпа": "Преподобная мать Гай Хелен Мохиам сидела в лентестрированном кресле, наблюдая, как мать и сын приближаются. Виндовс с каждой стороны ее смотрел на изогнутый южный сгиб реки и зеленые земледельцы семейного холдинга Атридов, но преподобная мать игнорировала взгляд. Она чувствовала свой возраст сегодня утром, более чем немного петулантной. Она винила его в космических путешествиях и объединении с той мерзкой Способной Гильдией и ее тайными способами.
Но вот была миссия, требующая личного внимания от Бена Гессерита – с – Взгляд. Даже правдоподобный император Падиша не мог уклониться от этой ответственности, когда наступил дежурный звонок."
Есть неплохая статья Михаила Утробина "Как создать переводчик, который переводит лучше, чем Google Translate". В ней он использовал для обучения OpenNMT. Этот готовый набор программ позволяет обучать модели типа "преобразователь" разных архитектур, в том числе и GPT. Всё что вам понадобится - собрать датасет и настроить конфигурационный файл. Я таким образом собрал набор данных на 1.5 млрд токенов для обучения русско-английскому переводу, суммаризации, составлению заголовков и генерации вопросов и обучил модель на 80 млн. параметров в общей сложности суток за 5 на 1 карте Nvidia RTX3090. Что получилось можно посмотреть на демо-сайте: https://tolmacher.wia.su/ А скачать для экспериментов саму модель здесь: https://huggingface.co/Vladniag/Requestor
Сейчас я её использую для генерации более масштабного датасета, на котором намерен обучить уже GPT модель примерно на 300 млн. параметров. Используется Qwen05B, которая не знает русского и моя модель, которая делает перевод на русский. Это единственный приемлемый вариант, учитывая недоступность Google-переводчика и стоимость переводов другими переводчиками такого огромного объёма данных какой нужен для обучения.
Насколько я понимаю, информация - это какие-либо сведения, уменьшающие неопределённость. Смысл в тексте - это идея, которую хочет передать автор читателю. Целью написания текста является коммуникация для уменьшения неопределённости по какому-либо вопросу, т.е. это процесс передачи информации. По-видимому текст должен содержать что-то, подлежащее осмыслению или "распаковке" смысла. Иначе непонятно как бы читатель смог почерпнуть из книги или статьи примерно то же самое, что и хотел донести до него автор.
Текст без смысла может содержать формальные признаки информации, например правильную грамматическую структуру, но при этом не вносить ничего нового в систему знаний читателя. Пример: "стрептоцидовый стриптиз с трепетами стрептококков" - есть информация (о структуре): прилагательное + существительное + предложный оборот. Но по смыслу абсурд, ибо как антибиотик может исполнять стриптиз и какие трепеты могут быть у бактерий.
Чтобы человек понял смысл текста, ему нужно иметь определённую "прошивку" своего декодера. От этого зависит, что будет означать для него встреченное в тексте "пивной путч" - вздутие живота от выпитого пива или попытка переворота в Веймарской республике.
Если в начале 20 века (условно) рабочий производил за 6 часов работы конвейера столько, сколько ему платят за весь рабочий день, то в 21 веке это происходит за полчаса работы конвейера. Остальное - прибавочный продукт, обращаемый в прибыль собственника. Часть этого растущего избытка распределяется в интересах общества - на социалку, отпуски, больничные, большую доступность всевозможных материальных благ. Этому способствует технический прогресс. Также он даёт техническую возможность для сокращения продолжительности рабочего дня, т.к. создать всего столько же сколько раньше можно за меньшее время. Это время можно было бы благодаря техническому прогрессу сделать свободным для каждого работника, сократив рабочий день, скажем до 6 часов. Но это происходит не так часто по сравнению с сокращением становящихся лишними работниками и распределении их нагрузки на оставшихся. Потому что главная цель - прибыль. В этом проблема, работа на износ и часто выгорание. А вовсе не в техническом прогрессе самом по себе.
Если в тексте самом по себе нет смысла, то такой текст никому не нужен, потому что с помощью него нельзя передать никакой информации от одного человека другому. Наверное дело тут в том, какой декодер сформировался в мозгу - если это люди носители одного языка и одной культуры, то они вполне свободно могут передавать друг другу смысл сообщений в тексте, осуществляя кодирование информации на своём языке и умея её декодировать.
Ясно. Такие опасения мне кажутся вполне обоснованы.
На мой взгляд результат машинного обучения - извлечённые из данных закономерности. Это не база данных, в которую постранично записаны произведения авторов, а модель - абстракция в отражены самые важные элементы изученного. В процессе генерации данные воссоздаются по извлечённым закономерностям. И результат, при достаточно высоком разнообразии исходных данных (значительно превышающем сложность модели) может быть не похож ни на что из исходников. Поэтому по-сути компании, предоставляющие сервисы на основе таких моделей не нарушают авторские права.
Но для того, чтобы поддержать творчество людей, которое и служит лучше всего обучению новых моделей, нужно, чтобы компании, особенно если это крупные корпорации вроде Microsoft или OpenAI с Antropic существовали в некотором балансе интересов. Например, нанимали худужников, писателей и артистов для создания контента. Либо выплачивали некоторые отчисления тем людям, чьё творчество было использовано при создании моделей. Потому что в конце-концов не люди существуют для прогресса машин. А машины, для продолжения прогресса людей.
Я как раз занимаюсь в качестве домашнего хобби-проекта разработкой моделей для распределённого исполнения и организации вывода на принципах самоорганизации. Начал примерно год назад с нуля. Задача изначально сильно не по уровню и возможностям, но если интересно, чего бы и не заниматься такими авантюрами. Первым делом я обучил меленькую модель типа кодер-декодер ("Requestor" на Обниморде), для того чтобы с помощью неё на моих слабых компьютерах быстро создавать много синтетических данных. Теперь третий месяц идёт обучение на этом наборе модели декодера, предназначение которой будет писать статьи и отвечать на вопросы пользователя. Она будет создавать датасеты для следующей модели типа mamba-former для работы с большими документами и смешанными источниками (изображение, аудио). Все они будут очень компактны и пригодны для работы на одноплатниках и смартфонах, чтобы можно было построить распределённую сеть на пользовательских устройствах, ответы которой будут улучшаться за счёт саморефлексии и изменения топологии узлов. На каждом устройстве - узле пользователя, будет набор моделей со своим "опытом", приобретаемым из взаимодействия с пользователем и предоставляемой им информации. Чем больше будет сеть, тем больше будет ёмкость и охват тем в ширь и глубину.
Но мне не совсем понятно, с чем связаны ваши опасения? Это в любом случае будет только инструмент для работы с информацией. Как поисковая машина на ресурсах пользователей.
На мой взгляд синтетические данные - это что-либо полученное соединением каких либо отдельных частей. Например, мы можем взять некоторые списки имён, фамилий, возрастов, названий городов и написать программу для генерации биографий. А затем обучить сеть на множестве таких текстов извлечению из неструктурированного текста нужные сущности и выдачу их в структурированной форме, например в виде JSON файла. Наверное есть множество задач, где такие синтетические данные будут работать даже лучше, чем тексты созданные людьми вручную.
Мне кажется ставка на то, что ИИ сам напишет любую программу может быть не самой эффективной. Возможно, большую производительность дадут такие инструменты с функциями ИИ, которые позволят программисту писать программы на естественном языке (английском, русском и т.д.). В этом процессе главным будет умение найти и описать алгоритмы ведущие к решению. Это позволит получать более точные результаты за меньшее число итераций, потому что реальное понимание задачи есть только у человека.
Я хочу попробовать создать такую модель с чистого листа и постепенно продвигаюсь к этому в рамках свободного домашнего проекта. Пока что освоил обучение кодер-декодерных трансформеров с помощью OpenMNT и декодерных с помощью Pytorch. Как раз сейчас продолжается обучение GPT2 модели, которая будет генерировать произвольные тексты по плану пользователя. После этого этапа я и планирую начать эксперименты с моделью для программирования. Для начала модель будет переводить псевдокод на русском в код на Python. Дальше, то же самое с блок-схемами. Ну а если всё пойдёт хорошо - то текст в произвольном форме в программу.
Мне понравились 3-й и 10 варианты.
А так переводит моё ИИ-творение "Толмачёвая клёпа":
"Преподобная мать Гай Хелен Мохиам сидела в лентестрированном кресле, наблюдая, как мать и сын приближаются. Виндовс с каждой стороны ее смотрел на изогнутый южный сгиб реки и зеленые земледельцы семейного холдинга Атридов, но преподобная мать игнорировала взгляд. Она чувствовала свой возраст сегодня утром, более чем немного петулантной. Она винила его в космических путешествиях и объединении с той мерзкой Способной Гильдией и ее тайными способами. Но вот была миссия, требующая личного внимания от Бена Гессерита – с – Взгляд. Даже правдоподобный император Падиша не мог уклониться от этой ответственности, когда наступил дежурный звонок."
Определённо ещё есть куда расти.
Есть неплохая статья Михаила Утробина "Как создать переводчик, который переводит лучше, чем Google Translate". В ней он использовал для обучения OpenNMT. Этот готовый набор программ позволяет обучать модели типа "преобразователь" разных архитектур, в том числе и GPT. Всё что вам понадобится - собрать датасет и настроить конфигурационный файл. Я таким образом собрал набор данных на 1.5 млрд токенов для обучения русско-английскому переводу, суммаризации, составлению заголовков и генерации вопросов и обучил модель на 80 млн. параметров в общей сложности суток за 5 на 1 карте Nvidia RTX3090. Что получилось можно посмотреть на демо-сайте:
https://tolmacher.wia.su/
А скачать для экспериментов саму модель здесь:
https://huggingface.co/Vladniag/Requestor
Сейчас я её использую для генерации более масштабного датасета, на котором намерен обучить уже GPT модель примерно на 300 млн. параметров. Используется Qwen05B, которая не знает русского и моя модель, которая делает перевод на русский. Это единственный приемлемый вариант, учитывая недоступность Google-переводчика и стоимость переводов другими переводчиками такого огромного объёма данных какой нужен для обучения.