Я ее в Playground от HF попробовал и без примеров научил ее писать комменты в Youtube по заданному комментарию, или на вопросв Mail RU отвечать как человек. И это легко делать, модель реально гибкая!
Особенно личные наблюдения, только ChatGPT любит везде пихать нумерованные списки. И когда он соединяет предложения, он всегда будет пользоваться союзными словами "так как", "поскольку" , "что", даже если можно обойтись без них, то гптшка все равно попытается использовать их. И он часто использует синонимы, возможно из-за высокого штрвфа за повтор
Я как раз думал летом о подобном, тогда придумал такую концепцию модели из нескольких подмоделей, хоть они и не будут действительно "думающей" моделью:
Все начинается с простенькой модели, которая выдает 0, когда нужно перестать считывать внешние данные (картинку, звук и тд) и ответить, или 1, когда надо продолжить слушать. Причем в самая первая "проверка" должна выдать 1, чтобы данные записались
После сигнала 0 от модели в пункте 1, в процесс вступают модели распознавания записанного видео, звука, и тд и тп. Они считывают свой тип данных и преобразуют их в "промежуточный" тип (можно их на шуме обучить), который будет массивом бинарных данных фиксированного размера, это будут распознанные признаки.
Потом распознанные признаки прогоняются через несколько моделей (которые также разделены по типу данных). Они просто сожмут данные
Потом сжатые данные сохранятся на диске как память, а если уже какие-то признаки сохранены, то они подгрузятся в очередную модель, которая будет искать схожие кусочки памяти. Если кусочки старые, можно перед поиском "скрыть" случайные куски данных с возрастающим шансом в зависимости даты их сохранения. Также перед отправкой данных в следующую модель записываем даты.
Потом все это попадает в БЯМ, которая из фактов составляет подробный текст ответа, в котором есть пометки для TTS
Ну а потом это все, собственно, попадает в TTS модель, которая озвучивает заданной БЯМ интонацией происходящее вокруг)
gdpi нормально работает, там 1-й пресет работает хорошо. А, и еще сам ютуб работает нормально с недавних пор, поэтому у меня gdpi пока только для рутрекера и ускорения дискорда (у меня дс еще работает, но медленно как-то)
Согл, если ты, например, найдешь клад с драгоценностями, то нужно будет их принести в полицию и ты получишь только 50% от их стоимости. А если у тебя найдут какие-нибудь наркотики или оружие (опустим момент их получения), то они на 100% твои
Лучше купить слабенький ноут за 20к и нормальный комп подороже (за 30к минимум, желательно за 50 - 70к). А если родители богачи, то можно и macbook air m1 с mac mini m2 pro взять и не париться)
6 пальчиками водят)
Я ее в Playground от HF попробовал и без примеров научил ее писать комменты в Youtube по заданному комментарию, или на вопросв Mail RU отвечать как человек. И это легко делать, модель реально гибкая!
Да, LLM еще любят заголовочки красивые пилить при помощи "###", а онр нифига не отображаются(
Только же 3-й вышел...
Особенно личные наблюдения, только ChatGPT любит везде пихать нумерованные списки. И когда он соединяет предложения, он всегда будет пользоваться союзными словами "так как", "поскольку" , "что", даже если можно обойтись без них, то гптшка все равно попытается использовать их. И он часто использует синонимы, возможно из-за высокого штрвфа за повтор
Прикольная статья, но она как будто отчасти гптшкой написана)
Такими темпами будем инференс квантованной llama3.1-8b на core 2 duo делать 😁)
Я как раз думал летом о подобном, тогда придумал такую концепцию модели из нескольких подмоделей, хоть они и не будут действительно "думающей" моделью:
Все начинается с простенькой модели, которая выдает 0, когда нужно перестать считывать внешние данные (картинку, звук и тд) и ответить, или 1, когда надо продолжить слушать. Причем в самая первая "проверка" должна выдать 1, чтобы данные записались
После сигнала 0 от модели в пункте 1, в процесс вступают модели распознавания записанного видео, звука, и тд и тп. Они считывают свой тип данных и преобразуют их в "промежуточный" тип (можно их на шуме обучить), который будет массивом бинарных данных фиксированного размера, это будут распознанные признаки.
Потом распознанные признаки прогоняются через несколько моделей (которые также разделены по типу данных). Они просто сожмут данные
Потом сжатые данные сохранятся на диске как память, а если уже какие-то признаки сохранены, то они подгрузятся в очередную модель, которая будет искать схожие кусочки памяти. Если кусочки старые, можно перед поиском "скрыть" случайные куски данных с возрастающим шансом в зависимости даты их сохранения. Также перед отправкой данных в следующую модель записываем даты.
Потом все это попадает в БЯМ, которая из фактов составляет подробный текст ответа, в котором есть пометки для TTS
Ну а потом это все, собственно, попадает в TTS модель, которая озвучивает заданной БЯМ интонацией происходящее вокруг)
Они в итоге сами станут программистами :D
gdpi нормально работает, там 1-й пресет работает хорошо. А, и еще сам ютуб работает нормально с недавних пор, поэтому у меня gdpi пока только для рутрекера и ускорения дискорда (у меня дс еще работает, но медленно как-то)
Согл, если ты, например, найдешь клад с драгоценностями, то нужно будет их принести в полицию и ты получишь только 50% от их стоимости. А если у тебя найдут какие-нибудь наркотики или оружие (опустим момент их получения), то они на 100% твои
О, я же могу им в офис прийти, недалеко (буквально 5 - 6 км))) но мне вроде номер не навязывают, так что пока смысла нету к ним идти
Лучше купить слабенький ноут за 20к и нормальный комп подороже (за 30к минимум, желательно за 50 - 70к). А если родители богачи, то можно и macbook air m1 с mac mini m2 pro взять и не париться)
А он программируется при помощи ассемблера?