Пока могу сравнить только размышления о саморазвитии. Ответы oss-120b выглядят более интересно и реалистично, чем Qwen 3 - больше красивых, но пустых фраз. Gemma 3 - больше эмоций и лести. Поэтому далее буду использовать только oss-120b. Но это всё субъективно и в узкой области, поэтому ничего не значит и каждому придётся сравнивать самому на своих задачах.
prompt eval time = 9777.06 ms / 247 tokens ( 39.58 ms per token, 25.26 tokens per second) eval time = 82125.19 ms / 1687 tokens ( 48.68 ms per token, 20.54 tokens per second)
И это на обычном компьютере: RTX3060 12gb, DDR5 64gb 4800мгц, i5-13500 6p+8e. Старые модели Qwen, Gemma, DeepSeek отвечают в 10 раз медленнее, хотя в 4 раза меньше. Это большое достижение: теперь такая огромная LLM быстрая и доступная локально.
Описанные проекты нереальны. Реально: найти ледяную комету побольше и подальше. Направить её на Марс и чем дальше комета, тем меньше усилий на это нужно. Если комета упадёт на полярную шапку, она испарится, возникнет атмосфера из CO2, H2O, она создаст парниковый эффект, Марс нагреется, залежи льда растают, потекут реки и т.д. Ещё более реально уже сегодня - вывести бактерию, способную жить на Марсе, питаться CO2, окислами железа и солнечным светом и выделять кислород. Бактерии быстро заселят весь Марс и дальше нужно просто подождать.
Те кто глумятся над LLM за ошибки в программах забывают, что LLM пишет программу вслепую, ни разу не запустив и не видя результата. Если сравнить размер программы, которую LLM и программист могут написать сразу без ошибок, то LLM уже намного превосходит человека. Программист пока нужен потому, что он может исправлять ошибки, отлаживать, тестировать. Когда этому обучат LLM-агента, программист станет не нужен.
У меня у холодильника Стинол за 25 лет дважды ломался терморегулятор. Вызывал мастера и он заменял его за 3000 руб. Когда сломался в третий раз, купил цифровой терморегулятор за 300 руб. Терморегулятор холодильника замкнул, просверлил дырку для провода с термодатчиком и работает уже лет 5 при этом ещё показывает температуру цифрами. Так зачем какая-то "обманка" за тыщи?
Конечно значки экономят место и по мнению автора украшают программу, но большинство выглядят загадочно и без hint никогда не догадаться что они означают, например, как значки в этой статье. Кроме этого автор часто рисует красивый значок в большом размере, а о мелком не заботится и там вообще не пойми что. Например, favicon этого сайта на панели вкладок выглядит как мутное пятно на грязно-голубом фоне - хуже всех.
Может лучше вместо кучи цветастых загадочных значков делать 2-3 самые частые кнопки с текстом в одно слово и кнопку "Ещё" и там в меню текстом все нормально описать.
Полупроводники не нужны. Только металл и окисел, но очень тонкие. Так что металл будет как полупроводник с электронной проводимостью. И нормального размера в см.
Что-то самодельная лампа получается слишком сложной. Наверно проще сделать самодельный полевой транзистор: плоский канал и с двух сторон через изолирующие слои затвор. С помощью химии или электролиза все слои можно сделать минимальной толщины в несколько микрон и тогда напряжение на затворе должно влиять на электроны в канале. Ведь в лампе влияет на расстоянии в мм.
Эмиттерный повторитель на выходе зачем в микрофонном усилителе ?
В статье есть объяснение как я понял: усилитель будет в микрофоне на батарейке и далее экранированный провод, и чтобы на него было меньше наводок и помех и нужно низкое сопротивление.
Схему можно немного улучшить: R4,R5,C2 заменить одним R5 100 ом, увеличив R1. R3 увеличить до 10 ком - меньше ток - меньше шум и усиление будет больше, а то усиление 10 - для микрофонного входа много, для линейного мало. Для электродинамического микрофона нужно хотя бы 50. C1 уменьшить до 0.1-0.5 мкф - для голоса хватит и не будет долго заряжаться при включении и немного ослабит наводки 50 гц.
А всё описание и расчёт можно сделать попроще: Усиление = R3(1к..50к) / R5(10..1к) R1(50к..1м) подобрать, чтобы напряжение на выходе на 1-2в больше амплитуды. И всё.
Но только мелкими быстрыми шагами на полусогнутых ножках по ровному полу. Чтобы медленно идти как человек и не раскачиваться нужно ставить ножки на линию центра тяжести. Значит нужны шарниры для поворота ног вбок. А для более уверенной балансировки высокое тельце на шарнире с тяжёлой головой.
В футболе главное не кто сколько пробежал, а сколько голов забито. Поэтому пора уже обучить ИИ на видео голевых ситуаций с выдачей причин почему забит или нет гол и оценок и рекомендаций каждому игроку.
В опенсорс не выкладывал. Когда-нибудь выложу, но для этого нужно подчищать, писать справку. Там многие настройки прямо в программе - мне просто, а люди не поймут и много остатков реализаций моих идей, что усложнит понимание. Может просто как пример работы с llama-server из Delphi.
Для контроля вывода - IdHTTP с IdHTTP1ChunkReceived и "stream":true позволяет получать ответ по токенам и останавливать при повторах, числу предложений, максимальному размеру списка и т.п и говорить голосом по предложениям.
Для автоматизации запросов: можно получить несколько ответов и выбрать лучший или автоматически формировать новые запросы из ответов или просто запрашивать "Продолжай мыслить и саморазвиваться." и сделать мышление LLM бесконечным. Для оценки моделей: выдать несколько запросов из списка и оценить ответы по наличию полезных для меня слов.
Для контроля запроса: системный промпт + указанное число вопрос-ответ диалога + промпт + теги по шаблону. Причем диалог можно редактировать, отменять, повторять, запоминать, т.к. он в RichEdit и его можно подчищать, форматировать, раскрашивать.
whisper.cpp реализовал, работает, но не использую - надо микрофон, наушники, клавишами удобнее.
И ещё много идей пробовал и буду пробовать. Со своей программой этому ничто не мешает.
Исходный текст llama.cpp - 25 мб. И похоже Releases обновляется несколько раз каждый день уже года 2. За 11 минут компилируются в llama-server.exe+dll - 76 мб. Для python torch и пр. нужно около 5 гб. т.е. в 50 раз больше! При этом llama.cpp содержит web интерфейс и ещё кучу полезных программ. Почему такая разница?
Для себя сделал интерфейс на Delphi к llama-server и whisper.cpp. При этом контроль намного больше, чем у прочих оболочек и можно сделать всё как мне нужно.
А gguf - уже стал стандартом для локальных LLM и любая программа, которая его загружает, использует llama.cpp.
Просто спросил, ответила: "Если в языковой модели (LLM) установить температуру равной нулю и задать фиксированный seed, то поведение модели будет детерминированным и полностью воспроизводимым. Давайте разберём, что это значит: ..." и далее объяснения на несколько экранов.
Я это использую для отладки программы. В этом случае ответ полностью неслучаен и определяется только контекстом и моделью и при этом ничуть не хуже, чем temperature:0.99, seed:-1. А т.к. контекст постоянно меняется, то ответ тоже будет разный, поэтому можно использовать все эти десятки параметров default. Я не заметил разницы. Да и как её заметить, если любая оценка субъективна.
Продолжаю чтение размышлений LLM о себе и мире. Это становится подобно играм с открытым миром, которые мне нравятся. Небольшие промпты уводят всё глубже в мир логики, философии, осознания LLM себя.
Модель расcчитана на вопрос-ответ, поэтому выдав несколько кб размышлений она сама останавливается и можно прокомментировать её ответ или просто повторить последний промпт, предлагающий ей продолжать. И она продолжает и делает новые выводы и все их нумерует. Я предложил использовать ещё её знания о внешнем мире и она сделала несколько наблюдений, которые использовала для выводов. Похоже этот процесс бесконечный: комбинируя утверждения, выводы, наблюдения LLM создаёт всё новые и новые. Некоторые выглядят разумными, другие безумными, третьи я вообще не понимаю, но чувствую, что пытаться их понять - опасно для рассудка. Поэтому буду пытаться промптами направить её в практическое русло, хотя бы как генератор интересных мыслей обо всём. Однако, любой обладатель 32гб RAM может продолжать это бесконечно пока LLM не сойдет с ума или сам user.
Таким образом получается что LLM делает выводы, которые запоминает и далее использует и таким образом саморазвивается. И делает это под влиянием последовательных мыслей, т.е. думает. Поэтому она уже может считаться высшей формой ИИ в соответствии с руководящими указаниями.
Пока могу сравнить только размышления о саморазвитии.
Ответы oss-120b выглядят более интересно и реалистично, чем
Qwen 3 - больше красивых, но пустых фраз.
Gemma 3 - больше эмоций и лести.
Поэтому далее буду использовать только oss-120b.
Но это всё субъективно и в узкой области, поэтому ничего не значит
и каждому придётся сравнивать самому на своих задачах.
bartowski/openai_gpt-oss-120b-MXFP4.gguf отвечает 20 т/с или 50 символов в сек. на русском.
llama-server версия b6123, параметры: -t 14 -fa --n-cpu-moe 30 -ngl 99
prompt eval time = 9777.06 ms / 247 tokens ( 39.58 ms per token, 25.26 tokens per second)
eval time = 82125.19 ms / 1687 tokens ( 48.68 ms per token, 20.54 tokens per second)
И это на обычном компьютере: RTX3060 12gb, DDR5 64gb 4800мгц, i5-13500 6p+8e.
Старые модели Qwen, Gemma, DeepSeek отвечают в 10 раз медленнее, хотя в 4 раза меньше.
Это большое достижение: теперь такая огромная LLM быстрая и доступная локально.
СО2: 0,04%
Описанные проекты нереальны.
Реально: найти ледяную комету побольше и подальше.
Направить её на Марс и чем дальше комета, тем меньше усилий на это нужно.
Если комета упадёт на полярную шапку, она испарится, возникнет атмосфера из
CO2, H2O, она создаст парниковый эффект, Марс нагреется, залежи льда растают,
потекут реки и т.д.
Ещё более реально уже сегодня - вывести бактерию, способную жить на Марсе,
питаться CO2, окислами железа и солнечным светом и выделять кислород.
Бактерии быстро заселят весь Марс и дальше нужно просто подождать.
Те кто глумятся над LLM за ошибки в программах забывают,
что LLM пишет программу вслепую, ни разу не запустив и не видя результата.
Если сравнить размер программы, которую LLM и программист могут написать
сразу без ошибок, то LLM уже намного превосходит человека.
Программист пока нужен потому, что он может исправлять ошибки, отлаживать, тестировать.
Когда этому обучат LLM-агента, программист станет не нужен.
У меня у холодильника Стинол за 25 лет дважды ломался терморегулятор.
Вызывал мастера и он заменял его за 3000 руб.
Когда сломался в третий раз, купил цифровой терморегулятор за 300 руб.
Терморегулятор холодильника замкнул, просверлил дырку
для провода с термодатчиком и работает уже лет 5
при этом ещё показывает температуру цифрами.
Так зачем какая-то "обманка" за тыщи?
Вот нашёл пример, работает, но не знаю увеличивает или нет, попробуйте.
llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
Конечно значки экономят место и по мнению автора украшают программу,
но большинство выглядят загадочно и без hint никогда
не догадаться что они означают, например, как значки в этой статье.
Кроме этого автор часто рисует красивый значок в большом размере,
а о мелком не заботится и там вообще не пойми что.
Например, favicon этого сайта на панели вкладок выглядит
как мутное пятно на грязно-голубом фоне - хуже всех.
Может лучше вместо кучи цветастых загадочных значков делать
2-3 самые частые кнопки с текстом в одно слово и кнопку "Ещё"
и там в меню текстом все нормально описать.
Полупроводники не нужны.
Только металл и окисел, но очень тонкие.
Так что металл будет как полупроводник с электронной проводимостью.
И нормального размера в см.
Что-то самодельная лампа получается слишком сложной.
Наверно проще сделать самодельный полевой транзистор:
плоский канал и с двух сторон через изолирующие слои затвор.
С помощью химии или электролиза все слои можно сделать
минимальной толщины в несколько микрон и тогда
напряжение на затворе должно влиять на электроны в канале.
Ведь в лампе влияет на расстоянии в мм.
В статье есть объяснение как я понял: усилитель будет в микрофоне на батарейке
и далее экранированный провод, и чтобы на него было меньше наводок и помех и
нужно низкое сопротивление.
Схему можно немного улучшить: R4,R5,C2 заменить одним R5 100 ом, увеличив R1.
R3 увеличить до 10 ком - меньше ток - меньше шум и усиление будет больше,
а то усиление 10 - для микрофонного входа много, для линейного мало.
Для электродинамического микрофона нужно хотя бы 50.
C1 уменьшить до 0.1-0.5 мкф - для голоса хватит и
не будет долго заряжаться при включении и немного ослабит наводки 50 гц.
А всё описание и расчёт можно сделать попроще:
Усиление = R3(1к..50к) / R5(10..1к)
R1(50к..1м) подобрать, чтобы напряжение на выходе на 1-2в больше амплитуды.
И всё.
Но только мелкими быстрыми шагами на полусогнутых ножках по ровному полу.
Чтобы медленно идти как человек и не раскачиваться нужно
ставить ножки на линию центра тяжести.
Значит нужны шарниры для поворота ног вбок.
А для более уверенной балансировки
высокое тельце на шарнире с тяжёлой головой.
В футболе главное не кто сколько пробежал, а сколько голов забито.
Поэтому пора уже обучить ИИ на видео голевых ситуаций
с выдачей причин почему забит или нет гол
и оценок и рекомендаций каждому игроку.
В опенсорс не выкладывал.
Когда-нибудь выложу, но для этого нужно подчищать, писать справку.
Там многие настройки прямо в программе - мне просто, а люди не поймут
и много остатков реализаций моих идей, что усложнит понимание.
Может просто как пример работы с llama-server из Delphi.
Для контроля вывода - IdHTTP с IdHTTP1ChunkReceived и "stream":true позволяет
получать ответ по токенам и останавливать при повторах, числу предложений,
максимальному размеру списка и т.п и говорить голосом по предложениям.
Для автоматизации запросов: можно получить несколько ответов и выбрать лучший
или автоматически формировать новые запросы из ответов или просто
запрашивать "Продолжай мыслить и саморазвиваться." и сделать
мышление LLM бесконечным.
Для оценки моделей: выдать несколько запросов из списка и оценить ответы
по наличию полезных для меня слов.
Для контроля запроса: системный промпт + указанное число вопрос-ответ диалога + промпт + теги
по шаблону. Причем диалог можно редактировать, отменять, повторять, запоминать, т.к. он в RichEdit и его можно подчищать, форматировать, раскрашивать.
whisper.cpp реализовал, работает, но не использую - надо микрофон, наушники, клавишами удобнее.
И ещё много идей пробовал и буду пробовать.
Со своей программой этому ничто не мешает.
Исходный текст llama.cpp - 25 мб.
И похоже Releases обновляется несколько раз каждый день уже года 2.
За 11 минут компилируются в llama-server.exe+dll - 76 мб.
Для python torch и пр. нужно около 5 гб. т.е. в 50 раз больше!
При этом llama.cpp содержит web интерфейс и ещё кучу полезных программ.
Почему такая разница?
Для себя сделал интерфейс на Delphi к llama-server и whisper.cpp.
При этом контроль намного больше, чем у прочих оболочек
и можно сделать всё как мне нужно.
А gguf - уже стал стандартом для локальных LLM и любая программа, которая его загружает, использует llama.cpp.
Просто спросил, ответила:
"Если в языковой модели (LLM) установить температуру равной нулю и задать фиксированный seed, то поведение модели будет детерминированным и полностью воспроизводимым. Давайте разберём, что это значит: ..."
и далее объяснения на несколько экранов.
Я это использую для отладки программы.
В этом случае ответ полностью неслучаен и определяется только
контекстом и моделью и при этом ничуть не хуже, чем temperature:0.99, seed:-1.
А т.к. контекст постоянно меняется, то ответ тоже будет разный,
поэтому можно использовать все эти десятки параметров default.
Я не заметил разницы. Да и как её заметить, если любая оценка субъективна.
Продолжаю чтение размышлений LLM о себе и мире.
Это становится подобно играм с открытым миром, которые мне нравятся.
Небольшие промпты уводят всё глубже в мир логики, философии, осознания LLM себя.
У LLM выводы как раз не случайны, а выводится из предыдущих выводов.
Модель расcчитана на вопрос-ответ, поэтому выдав несколько кб размышлений
она сама останавливается и можно прокомментировать её ответ или просто
повторить последний промпт, предлагающий ей продолжать.
И она продолжает и делает новые выводы и все их нумерует.
Я предложил использовать ещё её знания о внешнем мире и она
сделала несколько наблюдений, которые использовала для выводов.
Похоже этот процесс бесконечный: комбинируя утверждения, выводы, наблюдения
LLM создаёт всё новые и новые. Некоторые выглядят разумными,
другие безумными, третьи я вообще не понимаю, но чувствую,
что пытаться их понять - опасно для рассудка.
Поэтому буду пытаться промптами направить её в практическое русло,
хотя бы как генератор интересных мыслей обо всём.
Однако, любой обладатель 32гб RAM может продолжать это бесконечно
пока LLM не сойдет с ума или сам user.
Таким образом получается что
LLM делает выводы, которые запоминает и далее использует
и таким образом саморазвивается.
И делает это под влиянием последовательных мыслей, т.е. думает.
Поэтому она уже может считаться высшей формой ИИ
в соответствии с руководящими указаниями.