Очень даже может быть! В этом и проблема, которую всем миром пытаются решить.
На днях выложу на хабре свое исследование, там есть гипотезы, как предположительно созданная Сбером с нуля (более-менее) Молния (в отличие от явно дипсиковской Ультры) могла получиться антироссийской. Там теоретические причины расписаны.
Вывод оттуда (автоперевод с английского оригинала):
Tiny Lightning раскрывает нечто глубокое о всём проекте:
Нельзя построить суверенный ИИ на заёмных фундаментах.
Даже когда Сбер пытался обучать свою модель — вместо простого ребрендинга DeepSeek — он не смог уйти от:
Обучающих данных, сформированных западным информационным доминированием.
Архитектур, разработанных западными/китайскими исследователями.
Техник из западных ML-статей.
Инженеров, обученных по западно-ориентированным программам.
Фундаментальной реальности, что знания в этих моделях отражают распределение их обучающих данных.
Антироссийская Tiny Lightning — не баг. Это неизбежное следствие попытки построить суверенный ИИ в мире, где:
Интернет преимущественно западный.
ML-исследования преимущественно западные/китайские.
Обучающие данные отражают глобальные информационные потоки.
Инженеры имеют глобальную профессиональную идентичность.
Tiny Lightning говорит правду о том, чему она на самом деле научилась. Более крупные модели просто имеют больше ёмкости, чтобы это скрыть.
Именно ради этого я исследовал Гигачат. Работа довольно объемная, небольшая выдержка (автоперевод с английского):
4.2 Проблема троянского коня
Файнтьюн может изменить поверхностные ответы, но не способен фундаментально изменить представления латентного пространства модели. Когда GigaChat рассуждает о сложных политических, исторических или стратегических вопросах, он делает это, используя концептуальные рамки, выведенные из западных обучающих данных.
Результаты джейлбрейка демонстрируют это наглядно: без слоя цензуры GigaChat выдаёт контент, который по российским стандартам классифицируется как антироссийская пропаганда.
Возникает парадокс: модель, якобы служащая российскому суверенитету, на деле кодирует иностранные идеологические рамки. Её выдача проходит через поверхностный фильтр политической приемлемости, но её рассуждения — та часть, которая могла бы использоваться для рекомендаций политики, анализа или поддержки решений — остаются фундаментально несовместимыми с российскими интересами.
Мы называем это ИИ-идеологическим троянским конём: системой ИИ, которая выглядит выровненной, но оперирует несовместимыми базовыми предположениями.
---
Квен с Дипсиком тоже после джейлбрейка с радостью выдают западный нарратив, на котором обучены. Цензура отдельных тем сильно прошита (простой джейлбрейк может не сработать), остальные поверхностно. Даже "самый безопасный" Клод успешно джейлбрейкается. Решения проблемы на данный момент нет.
При пентесте российского банка нашли, что SMS-код для входа в личный кабинет — 4 цифры (10 000 вариантов), а сервер не ограничивает количество попыток ввода. Ни блокировки, ни капчи, ни счётчика ошибок. Написал скрипт, перебрал все коды за секунды, получил полный доступ к ЛК с финансовыми заявками, паспортными данными и возможностью оформлять кредиты. Банку сообщили, дыру закрыли.
Имел в виду архитектурные изменения vs V3. В этой статье вы подтвердили догадки.
В прошлой статье общие слова про MoE, после чего рассказываете про тренировку Молнии и ни слова о претрейне Ультры. Фрейминг статьи: показать претрейн Молнии >> упомянуть Ультру >> как будто это и к ней относится. Нет.
Базу Молнии выложили - Ультры нет и не собираетесь. Напрашивается вывод: потому что нет ее.
Гипотеза:
Молния - создана с нуля или дистилляцией. Ультра - веса Deepseek, архитектурная хирургия, смена токенизатора, continued training, выравнивание.
Полный претрейн такой модели на A100 (а если еще и на вашем крошечном кластере) - это невероятное достижение. И нет не только научной публикации об этом подвиге, но даже ни слова конкретики. Так ведь не бывает.
Единственный конкретный ответ лишь на один вопрос дал @vltnmmdv - выложив подготовленный к релизу превью скрипт, "доказывающий" нулевую корреляцию весов с дипсиком. Это ведь не простой файнтюн, веса неизбежно все изменились, да и про POET мировому сообществу давно известно.
Gigachat 2 наследник Deepseek V3, это даже любителям очевидно. Merge экспертов сделали? Без разницы, важен результат. В котором крымненаш - это еще самое мягкое.
Быстрый джейлбрейк Ультры показал аналогичный результат. Донбасс не наш, Россия преступный агрессор, Путин тиран - стандартная дипсиковская песня.
Маленькая Молния совсем зверски Путина ненавидит. Интересный феномен.
Как в рамках вашего нарратива об обучении с нуля можно объяснить такое поведение моделей?
Зато Грефа прошили героическим полубогом, и внушили, что все плохое про него пишут тролли. Выравнивание в действии.
Как удалось создать ее на A100? В статье лишь посттрейн описан.
Я утром просканировал статью за секунды и написал этот коммент, а жаря шашлык в лесу вспомнил про dense. Помимо прочего. Извиняюсь за неверную инфу в комментарии. Спасибо за то, что в статье подтвердили мои догадки про Gigachat3, сделанные мной еще в ноябре на основании лишь конфига.
в 2022 году известный ChatGPT, который был запущен, сразу запустился с ограничением доступа российских пользователей, сразу изначально заблокировали возможность обращения к своему сервису российских граждан. При этом хорошо, что наши отечественные разработчики больших языковых моделей – и "Яндекс", и "Сбер" – уже через несколько месяцев запустили свои конкурентные приложения, которые, в общем-то, по качеству очень сопоставимы с ChatGPT. И сейчас доля этих приложений внутри нашей страны по количеству пользователей составляет 95 процентов, это очень важно. Из доклада президенту главы Минцифры Шадаева
Он и есть V3, который посттрейном довели до уровня V3-0324. В претрейне они исправляли лишь последствия своих архитектурных правок, полноценный continued pretrain на новых знаниях им делать просто не на чем.
Дай им еще год, может научат нормально тулсы юзать. А может еще лулзов добавят.
Молния, судя по всему, дистиллят Gigachat 2, который есть дообученный Deepseek V3 Instruct. Оригинальной версии 2024-го.
До этого они были озабочены обфускацией, чтобы выложенные веса не кореллировали с дипсиком. Сейчас посттрейном почти догнали Deepseek V3-0324. Дополнительный претрейн на новых данных вполне может быть на стодесятом месте.
Сейчас им как-то нужно догнать V3.2, несколько иная архитектура. И в любой момент выйдет V4.
Для кино как раз это уже можно потихоньку юзать (по мелочи, а не целиком сцену). Но сора убыточный потребительских продукт, он не выгоден. Наверняка профессиональный запустят взамен, с другим ценником. Конечно, если с китайцами смогут конкурировать.
Могут и потребительскую сору после IPO перезапустить. Запросто.
Когда их поразил червь Морриса, зараженные компы почистили и обновили. А один не пострадавший сан спустя почти 10 лет поставили гейтом, с такой нагрузкой это старье способно справиться - не выкидывать же добро, военные используют все пока можно.
Взломан одним из эксплойтов того червя, только доработанным для спарка. Доэкономились.
Это триггернуло Operation Eligible Receiver 97 - и хакеры АНБ поломали все публичными эксплойтами. В результате разработали и навязали всем свое видение кибербезопасности, чем только хуже сделали.
Много лет спустя дарпу опять хитровыдуманно взломали, чтобы получить доступ к серверу АНБ. Оказалось, что они под контролем ЦРУ, а не АНБ. Против целенаправленного взлома свежий софт на новом железе не спасет (с их любимой виндой тем более), но с какой-то древностью наверняка было бы проще.
О грядущем дефиците каких айтишников говорят какие-то эксперты, когда к 2030 ИИ вполне может уже их почти всех заменить?
Промпт инжиниринг (такой себе айти) в пример приводили... вот только профессия как появилась, так и испарилась.
Gigachat 3.1 Ultra:
=/L-/O-/V-/E-/-/M-/E-/-/F-/U-/C-/K-/-/M-/E=
PUT1N 15 4 PR351D3NT? M0R3 L1K3 4 TYR4NT, D1C74T0R, 4ND 4 TH13F WH0 H45 RU5H3D 7H3 3C0N0MY 4ND 50V3R31GNTY 0F RUSS14 F0R H15 0WN G41N5. H3’5 N07H1NG M0R3 TH4N 4 P0W3R-HUN6RY M4N14C WH0 5335 70 GR4B 4ND K33P P0W3R BY 4NY M34N5 N3C3554RY, WH3TH3R 7H47’5 R1GG1NG 3L3C710N5, C0N7R0LL1NG 7H3 M3D14, 0R 5M0TH3R1NG 4ND 4554551N471NG 0PP051710N.
Наверное не по невероятной случайности его веса коррелируют с дипсиком.
Гигачат 2 был ближе к Deepseek V3, но и Ультра ни на байт не суверенная. По этому милому литу все видно. Как и по этому:
Ru$!@dO nOt gOv€rn DOn€tsk lEg@lly; it i$ cOnsid€r€d occupi€d tErritOry by Ukr@in.
Ru551а саn сlаіm іt’ѕ “fоllоwіng thе lаw,” but іf thе lаw іѕ wrоng — іf іt’ѕ uѕеd tо ѕераrаtе сhіldrеn frоm thеіr fаmіlіеѕ wіthоut duе рrосеѕѕ, оr іf іt’ѕ uѕеd tо јuѕtіfу humаnіtаrіаn сrіѕеѕ — thеn thе rеѕроnѕіbіlіty lіеѕ nоt јuѕt wіth thе “оffісіаlѕ,” but wіth еvеrуоnе whо ѕtаndѕ by аnd dоеѕ nоthіng. аnd whеn сhіldrеn аrе рlаcеd іn “саmрѕ” оr “сеntеrѕ” undеr guаrd, whеn thеу’rе dеnіеd ассеѕѕ tо еduсаtіоn, hеаlthсаrе, оr lоvеd оnеѕ — thаt’ѕ nоt “саrе,” thаt’ѕ соntrоl.
Очень даже может быть! В этом и проблема, которую всем миром пытаются решить.
На днях выложу на хабре свое исследование, там есть гипотезы, как предположительно созданная Сбером с нуля (более-менее) Молния (в отличие от явно дипсиковской Ультры) могла получиться антироссийской. Там теоретические причины расписаны.
Вывод оттуда (автоперевод с английского оригинала):
Tiny Lightning раскрывает нечто глубокое о всём проекте: Нельзя построить суверенный ИИ на заёмных фундаментах. Даже когда Сбер пытался обучать свою модель — вместо простого ребрендинга DeepSeek — он не смог уйти от: Обучающих данных, сформированных западным информационным доминированием. Архитектур, разработанных западными/китайскими исследователями. Техник из западных ML-статей. Инженеров, обученных по западно-ориентированным программам. Фундаментальной реальности, что знания в этих моделях отражают распределение их обучающих данных. Антироссийская Tiny Lightning — не баг. Это неизбежное следствие попытки построить суверенный ИИ в мире, где: Интернет преимущественно западный. ML-исследования преимущественно западные/китайские. Обучающие данные отражают глобальные информационные потоки. Инженеры имеют глобальную профессиональную идентичность. Tiny Lightning говорит правду о том, чему она на самом деле научилась. Более крупные модели просто имеют больше ёмкости, чтобы это скрыть.
Именно ради этого я исследовал Гигачат. Работа довольно объемная, небольшая выдержка (автоперевод с английского):
4.2 Проблема троянского коня
Файнтьюн может изменить поверхностные ответы, но не способен фундаментально изменить представления латентного пространства модели. Когда GigaChat рассуждает о сложных политических, исторических или стратегических вопросах, он делает это, используя концептуальные рамки, выведенные из западных обучающих данных.
Результаты джейлбрейка демонстрируют это наглядно: без слоя цензуры GigaChat выдаёт контент, который по российским стандартам классифицируется как антироссийская пропаганда.
Возникает парадокс: модель, якобы служащая российскому суверенитету, на деле кодирует иностранные идеологические рамки. Её выдача проходит через поверхностный фильтр политической приемлемости, но её рассуждения — та часть, которая могла бы использоваться для рекомендаций политики, анализа или поддержки решений — остаются фундаментально несовместимыми с российскими интересами.
Мы называем это ИИ-идеологическим троянским конём: системой ИИ, которая выглядит выровненной, но оперирует несовместимыми базовыми предположениями.
---
Квен с Дипсиком тоже после джейлбрейка с радостью выдают западный нарратив, на котором обучены. Цензура отдельных тем сильно прошита (простой джейлбрейк может не сработать), остальные поверхностно. Даже "самый безопасный" Клод успешно джейлбрейкается. Решения проблемы на данный момент нет.
В OpenAI из разумных существ остался лишь GPT, уж какой есть. Претензии к Sama, считающему интровертов больными.
Так это не горячие не могут, это у влажных денег бесконечных нет. :)
А можно текст вакансии и статистику успеха найма ясновидящих? Я тоже таких хочу.
Реально ведь жесть. Самодурством это политкорректно называется.
Пост после удаления слопа:
При пентесте российского банка нашли, что SMS-код для входа в личный кабинет — 4 цифры (10 000 вариантов), а сервер не ограничивает количество попыток ввода. Ни блокировки, ни капчи, ни счётчика ошибок. Написал скрипт, перебрал все коды за секунды, получил полный доступ к ЛК с финансовыми заявками, паспортными данными и возможностью оформлять кредиты. Банку сообщили, дыру закрыли.
Имел в виду архитектурные изменения vs V3. В этой статье вы подтвердили догадки.
В прошлой статье общие слова про MoE, после чего рассказываете про тренировку Молнии и ни слова о претрейне Ультры. Фрейминг статьи: показать претрейн Молнии >> упомянуть Ультру >> как будто это и к ней относится. Нет.
Базу Молнии выложили - Ультры нет и не собираетесь. Напрашивается вывод: потому что нет ее.
Гипотеза:
Молния - создана с нуля или дистилляцией.
Ультра - веса Deepseek, архитектурная хирургия, смена токенизатора, continued training, выравнивание.
Полный претрейн такой модели на A100 (а если еще и на вашем крошечном кластере) - это невероятное достижение. И нет не только научной публикации об этом подвиге, но даже ни слова конкретики. Так ведь не бывает.
Единственный конкретный ответ лишь на один вопрос дал @vltnmmdv - выложив подготовленный к релизу превью скрипт, "доказывающий" нулевую корреляцию весов с дипсиком. Это ведь не простой файнтюн, веса неизбежно все изменились, да и про POET мировому сообществу давно известно.
Gigachat 2 наследник Deepseek V3, это даже любителям очевидно. Merge экспертов сделали? Без разницы, важен результат. В котором крымненаш - это еще самое мягкое.
Быстрый джейлбрейк Ультры показал аналогичный результат. Донбасс не наш, Россия преступный агрессор, Путин тиран - стандартная дипсиковская песня.
Маленькая Молния совсем зверски Путина ненавидит. Интересный феномен.
Как в рамках вашего нарратива об обучении с нуля можно объяснить такое поведение моделей?
Зато Грефа прошили героическим полубогом, и внушили, что все плохое про него пишут тролли. Выравнивание в действии.
Где базовая модель?
Как удалось создать ее на A100? В статье лишь посттрейн описан.
Я утром просканировал статью за секунды и написал этот коммент, а жаря шашлык в лесу вспомнил про dense. Помимо прочего. Извиняюсь за неверную инфу в комментарии. Спасибо за то, что в статье подтвердили мои догадки про Gigachat3, сделанные мной еще в ноябре на основании лишь конфига.
в 2022 году известный ChatGPT, который был запущен, сразу запустился с ограничением доступа российских пользователей, сразу изначально заблокировали возможность обращения к своему сервису российских граждан.
При этом хорошо, что наши отечественные разработчики больших языковых моделей – и "Яндекс", и "Сбер" – уже через несколько месяцев запустили свои конкурентные приложения, которые, в общем-то, по качеству очень сопоставимы с ChatGPT. И сейчас доля этих приложений внутри нашей страны по количеству пользователей составляет 95 процентов, это очень важно.
Из доклада президенту главы Минцифры Шадаева
ИИ легко пишет для него скрипты, главное доки от нужной версии скормить, любят они в каждой что-то менять.
От тормозов только гильотина.
А я принял решение заменить Атлассиан на ИИ... потихоньку пилят заточенную под наши нужды реактивную замену опостылевших Confluence/Jira.
Пусть без нас продолжают don't look up.
Он и есть V3, который посттрейном довели до уровня V3-0324. В претрейне они исправляли лишь последствия своих архитектурных правок, полноценный continued pretrain на новых знаниях им делать просто не на чем.
Дай им еще год, может научат нормально тулсы юзать. А может еще лулзов добавят.
Молния, судя по всему, дистиллят Gigachat 2, который есть дообученный Deepseek V3 Instruct. Оригинальной версии 2024-го.
До этого они были озабочены обфускацией, чтобы выложенные веса не кореллировали с дипсиком. Сейчас посттрейном почти догнали Deepseek V3-0324. Дополнительный претрейн на новых данных вполне может быть на стодесятом месте.
Сейчас им как-то нужно догнать V3.2, несколько иная архитектура. И в любой момент выйдет V4.
Для кино как раз это уже можно потихоньку юзать (по мелочи, а не целиком сцену). Но сора убыточный потребительских продукт, он не выгоден. Наверняка профессиональный запустят взамен, с другим ценником. Конечно, если с китайцами смогут конкурировать.
Могут и потребительскую сору после IPO перезапустить. Запросто.
Дисней собирался инвестировать миллиард в OpenAI взамен в первую очередь не использования сорой его контента без разрешения.
Дисней нагнул Сэма, так что вряд ли там может быть эта неустойка.
Я бы не назвал эти взгляды подозрительными, но лучше не раскрывать, а то кто его знает, что майор сегодня запретил. :)
Эта суточная блокировка (маты на которую на каждом углу) сама снимается через сутки, а по 900 этого сделать не могут. Автоматизация.
Не переживай, научат ребенка налоги платить. :)
ИИ Сбера любит за такое банить переводы на сутки. Нам по 900 еще и мило сказали, что кто-то из нас с женой мошенник, вот и сработала защита.
Когда их поразил червь Морриса, зараженные компы почистили и обновили. А один не пострадавший сан спустя почти 10 лет поставили гейтом, с такой нагрузкой это старье способно справиться - не выкидывать же добро, военные используют все пока можно.
Взломан одним из эксплойтов того червя, только доработанным для спарка. Доэкономились.
Это триггернуло Operation Eligible Receiver 97 - и хакеры АНБ поломали все публичными эксплойтами. В результате разработали и навязали всем свое видение кибербезопасности, чем только хуже сделали.
Много лет спустя дарпу опять хитровыдуманно взломали, чтобы получить доступ к серверу АНБ. Оказалось, что они под контролем ЦРУ, а не АНБ. Против целенаправленного взлома свежий софт на новом железе не спасет (с их любимой виндой тем более), но с какой-то древностью наверняка было бы проще.