Вы всерьез полагаете что пулемет с лентой сильно ограничен в боезапасе по сравнению с боевым лазером ? Если вы, конечно, не пуляете в белый свет как в копеечку! Вопрос в обнаружении цели. Если вы ее сумели обнаружить на дистанции до 1.5-2 км, никаких принципиальных преимуществ у лазера перед 20мм пушкой - нету. Ни в реально располагаемом боезапасе, ни в производительности по поражению целей. Еще раз - попасть в цель != поразить ее. Чтобы дрон упал - вам придется его сопровождать и греть, пока конструкция не потеряет устойчивость от нагрева. Вот если бы вы смогли уменьшить расходимость, да поднять плотность энергии на зеркалах на пару порядков - тогда да. Тогда была бы убер-пушка с недостижимой для пулемета скорострельностью и скоростью полета снаряда к цели. Но природа мудра, и ограничивает наши желания физическими законами. Поэтому, извините, нет...
Шта-а?! Вы видели сколько секунд они сбивали дрон в демонстрационном ролике! Там плотность энергии не такая, чтобы "хоп - и дырка". Нет - они греют конструкцию, пока не произойдет потеря прочности от нагрева. И вот это нихрена не быстрее полета снаряда к цели на этой дистанции. Понятно, что приятно думать о лазере как о средстве поражения со скоростью поражающего элемента 300 тыс км.сек. Но на достигнутых плотностях энергии - это нифига не так. Упреждение вам не нужно - зато нужно сопровождать цель, облучая ее в непрерывном режиме. И точно также дроны этот лазер перегрузят как они перегружают существующие зенитные системы...
Требование "сделать новое приложение при значительных изменениях" - абсолютно нереалистично в энтерпрайзе, IMHO - и будет источником дикого оверхеда в репозиториях, пайплайнах, и проч...
Я бы предложил не усложнять себе жизнь без причины, и продолжать пользоваться либо SemVer, либо просто инкрементальными номерами билдов (это когда приложение уже который год 0.1.X, и X>200 :-)
А разработчикам объяснять смысл версионирования, а не правила. Ведь смысл версионирования в чем - если у нас на проде есть версия X.Y.Z, а нас просят откатить до A.B.C - то надо или внимательно читать changelog (или git diff), или:
Отличие только в последнем компоненте - откатывать можно без проблем, оно не упадет.
Отличие в средней цифре - смотреть changelog, ибо там может быть что-то необратимое (а-ля миграция в БД), а может быть - и нет. Протестировать новую конфигурацию надо бы, но скорее для собственного успокоения.
Отличие в major-версии - гарантированно сломается все вокруг. Если очень надо - то это целый проект с селективным даунгрейдом соседних сервисов и обязательным тщательным тестированием совместимости.
И, соответственно, разработчик должен в своей голове прокручивать эти сценарии, и решать что он поменял, и какую condensed-информацию он доносит изменением версии. Если не уверен - озвучивать на дейлике, и пусть команда решает...
Знаете такие буквы в азбуке "Р - распил", "О - откат" ? Просто в каких-то странах это делается напрямую, а в некоторых - через постройку вот таких странных штук. Проблема в том, что никто не объяснил: a) нахрена ? b) что делать с физическими пределами типа дифракции ? c) чем энергетическое оружие для данного применения лучше материального, если главное преимущество - скорость полета 300 тыс км.сек - мы в атмосфере реализовать все-равно не можем на располагаемых дистанциях ?
Даже СОИ было как-то реалистичнее на бумаге. Там все-таки вакуум, и пулять собирались на сотни километров по сотням целей...
Ну, кроме шуток - 60-ричная система исключительно удобна своей делимостью (ибо 60 - удвоенное произведение простых до пяти). Делится на 2,3,4,5,6,10,12,15,30 - и дает сравнительно небольшие погрешности при делении на 7 и 8. Что исторически покрывало потребности человека в делении интервалов времени для бытовых и производственных нужд...
А зачем ? Если я знаю что автобус на остановку придет в 14:32, и мне до нее идти 11 минут, а одеваться еще 5 - значит я должен быть в коридоре в 14:16, и если сейчас 13:58 - значит у меня есть еще 18 минут писать комментарии на хабр. :-) Проводить эти рутинные вычисления представляя циферблат - все равно что решать уравнения, представляя в уме счеты. Имхо числа элементарно удобнее и экономнее в обращении.
Ну как бы я вообще считаю, что указать "14:21" - намного лучше всех этих "без четверти два, четверть на два", и т.д... Я, щука, даже глядя на аналоговые часы - никогда не думаю о четвертях или половинах. Моя голова думает: "э-э, 14 этак 20-23". То есть стрелки вводят некую неопределенность, но я продолжаю думать в часах и минутах, а не в частях циферблата!
Интересно, что если эти дети из школы пойдут в родную американскую армию, то их там будут ОТУЧАТЬ от am/pm и "четверть первого" - а будут заставлять пользоваться нормальной 24-часовой системой времени: "fourteen twenty-one hours, fourteen zero-five hours, и т.д."...
Спасибо, очень содержательно. Я не вижу смысла спорить по каждой букве, просто поясню - почему я считаю эксперимент начатый с "хорошим текстом" показательным. Если мы просто ставим задачу генерации текста языковой модели - то в моей голове это эквивалент натравливания декодера на шум. В шуме нет никакой закодированной информации - поэтому то что мы получаем в результате - является дистилированной информацией, выученной моделью в процессе обучения. Мне кажется что это не показатель, так как и в человеческом разуме "as-is" писательский импульс отсутствует (доказательством чему является масса не представляющих никакой ценности работ в самиздате). Однако, когда мы даем пример хорошего яркого текста - я ожидаю как доказательство capability модели - что она сможет сказать: "ой, а оно хорошо!", и хотя бы не шибко портить его своими правками. Потому что если есть этот внутренний храповик - то я могу пытаться усложнять систему, строить конвейеры агентов, тратить больше ресурсов - постепенно добиваясь чтобы конечный результат генерации текста был "хорошим" - даже если каждая индивидуальная стадия конвейера его производящая - ненадежна и "хорошо" получается только малая часть того что она производит.
А когда мы видим что модель не отличает внутри себя хорошее от дурного (а люди почему-то это делают - не все и не всегда, но все-же) - то это полная и окончательная катастрофа. И, соответственно, я скорее настроен ждать более совершенных моделей, нежели пытаться заставлять текущую технологию пытаться в генерацию текстов (если нужен именно хороший текст, а не просто мусор - дабы контент-план выполнить...). Ну потому что можно сколько угодно строить самолет из соломы и пальмовых листьев, и даже весело и с гиканьем катать его по полю на мускульной тяге... Но вообще-то нужен двигатель внутреннего сгорания и алюминий, чтобы это стало не забавой, а инструментом!
Этот эксперимент можно провести на любом языке. Русский отличается от английского только тем, что на этапе вывода могут появиться дополнительные странности в виде мелких несогласований падежей и родов. Эти ошибки я игнорирую - если бы дело было в этом - мы бы их поправили элементарной вычиткой.
В результате эксперимента вы получаете некоторое представление о том, что внутри ЛЛМ кажется ей "хорошим" текстом. И, к сожалению, результатом является унылое, невыразительное, плоское нечто. Моя ближайшая аналогия - сцены из фильма "Плезантвиль", где двое живых людей попадают в ч/б США сериал 50-х годов. И там очень красиво показано, что ч/б герои не живут жизнь, а старательно изображают ее. Типа муж каждое утро "ходит на работу", но понятия не имеет что такое "работа" на самом деле... И это не лечится стилизацией а-ля: "Напиши рассказ в стиле (О.Генри, М.Твена, Конан-Дойла, и т.д.)". И это не лечится advanced prompting где мы просим модель сначала написать характерные черты и литературные приемы определенного писателя, потом написать как именно она собирается применить их при создании текста, и только потом писать текст. То есть, нет - она прекрасно знает характеристики писателей, и прекрасно вам фантазирует как она сейчас их применит к тексту. А на выходе все-равно - та же субстанция, и того же цвета...
В качестве прикола - ЛЛМ имеют тенденцию использовать лифт как телепорт. Два абзаца вверх - герой ехал в институт на трамвае, два абзаца вниз - зашел в лифт на работе, вышел дома на лестничной площадке. Мне кажется, что виновато мультимодальное обучение на видеоматериалах, где режиссеры выкидывают из видеоряда подразумеваемые события, а у моделей нет целостной картины мира чтобы это понять. Поэтому ей что в трамвай человека засунуть, что в лифт - все одно - окажется в точке назначения!...
С разбиениями тоже нетривиально. Если оставлять в контексте только план - то он перестает понимать тонкие связи между соседними главами. Ну потому что при работе над главой три - он видит только краткое содержание глав два и четыре... А если кормить всем текстом - то ум заходит за разум. Получается, что надо делать как-бы управление контекстом - чтобы сюжетно важные и связанные части текста были представлены полно, а несущественные редуцированы до краткого содержания и общего плана.
Но это уже совершенно нетривиальная система (не просто кусок текста в контекстном окне), а RAG или графовое представление - а потом еще его поди разверни обратно в линейный текст.
И это еще как-то работает пока повествование линейное. Как только мы добавляем переключения из одного места событий в другое, или нелинейный сюжет - оно совсем разваливается... :-(
С одной стороны, это прекрасная идея. С другой - авторы и популяризаторы этих книг забывают главный принцип: для успешных переговоров надо чтобы ДВЕ стороны хотели договориться. Если же единственной альтернативой переговоров выступает продолжение переговоров - то или договаривающиеся стороны должны быть чрезвычайно альтруистичны и обладать исключительным эмоциональным интеллектом, либо происходящее будет описываться формулой: "А Васька слушает - да ест!".
Очень важно для успешных переговоров - правильно формулировать свою позицию (и выполнить угрозу если ваши справедливые и разумные требования будут проигнорированы).
Характерный пример из Кристофера Раули ("Драконы войны"):
"...Наш король должен теперь попросить, чтобы великие звери земли и воздуха возвратились в свои земли. Мы не можем допускать дальнейшее хищническое истребление наших лосей и оленей. Лоси бегут с горы Ульмо. Олени в панике. В лесу царит ужас. Посему наш король послал меня, чтобы передать вам его требование. Вы должны тотчас же покинуть эти земли, а если вы откажетесь выполнять его справедливое распоряжение, мы вас убьем."
«Типичный пример дипломатии эльфов, – подумал Релкин, – целиком, включая формулировку заявления. Так, чтобы возразить и не думали».
Хтоническую хтонь, творящуюся в глубине моделей при обработке художественного текста, можно почувствовать простым экспериментом:
Возьмите хороший фрагмент текста известного вам автора (чтобы там было действие, какие-то живые описания, эмоции, и т.д.)
Подайте его в LLM с промптом: "Начинающий автор прислал фрагмент произведения в литературный журнал. Напиши, что у него получилось хорошо, а что - нужно доработать?"
Следующий промпт: "Как опытный автор и редактор, подготовь окончательный вариант текста с учетом сделанных замечаний"
Насладитесь, в какой кусок дерьма будет превращен отличный изначальный текст...
И пока этот тест LLM не сможет удовлетворительно пройти - ни о какой генерации текстов самостоятельно речи идти не может! Максимум - техническая работа и рерайт... Даже в программировании ИИ помогает больше...
Вангую, что в попытке удержать дефицит бюджета, правительство нажало на тормоз с доп.расходами. Ситуация может стать несколько легче в декабре-феврале (т.к. начнется новый бюджетный год, и перечислят новые авансы по госзаказу). Но всякий разумный человек должен понимать, что в будущем году деньги кончатся раньше, и соответственно - неплатежи тоже начнутся раньше (и их будет больше, чем в уходящем году)...
Во-первых, с 2014 года все бизнесмены вокруг заметили, что с каждым годом работать надо заметно больше, чтобы просто сохранять достигнутый уровень производства и чтобы семья кушала примерно столько и того же качества, как в прошлом году.
Во-вторых, все эти рассуждения о трудностях - формально правильные, но игнорируют слона в комнате - и потому смешные. На самом деле - проблемой является то, что ресурсы сжигаются в военном производстве. То есть, если вчера граждане были сыты, пьяны, и хотели себе микрофон чтобы выделиться из толпы - то теперь те же граждане конкурируют с себе подобными за еду и коммунальные услуги. Причем до трети из них вместо производительной деятельности - либо изготовляют орудия убийства соседей, либо их используют. Соседи, разумеется отвечают в том же духе - однако результаты их усилий ничтожны по сравнению с тем, что мы сами с собой делаем.
В третьих, настоящий кризис начнется тогда, когда вам перестанут платить ваши контрагенты. А вы перестанете платить своим - потому что вам нечем. Кто прошел 2008 - тот помнит... Тогда государство заливало проблемы деньгами, и хотя банкротства были - через полгода ритмичные платежи восстановились. Сейчас резервов нет - заливать нечем...
С одной стороны, да. С другой стороны - если посмотреть на реальные исторические события - даже если власть пыталась по каким-то своим причинам заменить язык - это у нее не очень-то выходило.
У нас это известное "онемечивание" при Павле, но русский язык никуда не делся (а вот императору повезло меньше...). Если взять западных славян - вот хотя бы посмотреть на Словаков, которые не имели национального государства чуть не до конца 1 мировой войны. То венгерские феодалы пытались всем принудительно мадьярский вместо словацкого навязать (причем всерьез - вплоть до запрета учить в школах и молиться на славянских наречиях). Потом в рамках Австро-Венгрии - после буржуазной революции, мадьярам стало не до того, но новая власть хотела всех онемечить. В итоге, язык оказывается удивильно живучей сущностью. Пока есть достаточное количество людей, чтобы дети получали нечто как первый язык - похоже, они его уже не забывают...
А политика - да, всегда тут рядом стояла. Начиная от "мокроступов" 19 века, и заканчивая потугами запретить заимствование иностранных слов в вывесках сейчас... :-(
Я не возражаю по цифрам, потому что во-первых, действительно не моя область, а во-вторых, мой результат не зависит от того 4 тысячи слов у нас активный словарный запас, или 40 тысяч. Четыре тысячи слов закодировать двусложными словами было бы еще проще! Соответственно, мы видим что не комбинаторика является ограничением словообразования - а что-то другое. И мое предположение в данном случае - помехоустойчивость.
Относительно межславянского языка - у меня остаются серьезные сомнения. В принципе, кое-кто считает словацкий язык вполне себе естественным славянским интерлингвом (просто в силу его очень поздней кодификации и массы заимствований от соседей). Но даже если предположить что вы письменность как-то кодифицировали, то что делать с произношением ? Одни "пшекают" и "цекают", другие - нет... Да, я понимаю что когда-то по уверениям лингвистов мы имели праславянский язык, и от черного моря до белого была единая языковая среда праславянских народов. Но потом произошло падение кратких гласных - и у каждого они выпали по-своему, и дальше пошла локальная оптимизация языков под местные условия...
И уж совсем у меня глаза на лоб лезут от различий типа "вонять/пахнуть" (с противоположными значениями в соседних языках), или "черствый/свежий", или "год/час/година"... Я не знаю, как можно было этого добиться!
С одной стороны, не могу не согласиться - до эпохи индустриализации и развития дешевых методов связи и путешествий - человечество действительно жило в изолированных группах.
С другой стороны - уже несколько поколений людей живет в обстановке, когда все более-менее со всеми общаются. Но при этом, живые языки не проявляют тенденции к конвергенции (да, заимствуются слова, иногда фразы или стиль общения - но фундаментально все остается примерно как было). Нет даже попыток создания условных "венгерско-словацкого" или "чешско-польского" языков. Скорее, люди на границе оказываются двуязычными, но при этом продолжают четко различать оба известных им языка, и в зависимости от обстоятельств - используют или тот, или этот.
Щука! Не верьте заявлениям руководства компаний! Там такие конфликты интересов, что даже приближаться опасно! Мы делали для заказчика (топ-20 на рынке) автономную агентную систему для решения его специфических задач. И она, скажем так - не то чтобы совсем не работала, но мне было за нее периодически стыдно. И вот под конец года приходит к нам наше руководство, и руководство заказчика - и ультимативно требует записать видео - как наша система успешно все решает. И мы что-то вякаем про то, что LLM там ошибается, тут ошибается - и до конца конвейер агентов обычно не доходит....
"Но оно же не каждый раз ошибается!" - говорит нам мудрое начальство - "Вот вы разбейте процесс на шаги, и запускайте каждый шаг несколько раз пока не сработает, а как сработает - пишите видеоотчет. Потом отдайте файлы в маркетинг, они знают что с этим делать...". И, блдж, это в присутствии заказчика и при его полной поддержке! Сказать что я офигел - это ничего не сказать...
Гм. Интересные возражения. Однако по крайней мере часть из них не кажется мне разумной.
Помехоустойчивость - просто обязана быть частью языка из соображений выживания индивида и общества. Конечно, если вы пользуетесь языком для обсуждения вопроса типа сколько чертей поместится на кончике иглы - то наверное не так важно, правильно ли вы поняли мысль и аргументацию оппонента или нет. А вот если вы используете язык для координации важных для общества работ, или в стрессовой обстановке (например - когда кто-то с кем-то воюет) - недостаточная помехоустойчивость языка может привести к плохим последствиям. И менее удачный язык будет вытеснен либо через порабощение/ассимиляцию, либо через прямую замену популяции приехавшими всадниками на лошадках...
Существование промежуточных звуков между гласными и согласными никак не отменяет разложение сигнала по гармоническим функциям (и спектральные плотности энергии). Предел с одной стороны - чистый синус (музыкальный тон), предел с другой стороны - дельта-импульс с бесконечным спектром. А дальше - pick your poison при устройстве языка. Хочешь - возьми гласные и согласные. Хочешь - приправляй их чем-то средним. Все-равно передать мощно, далеко, и много бит информации - одновременно не получится.
Я утверждаю, что в паре с любым естественным распространенным языком (русский, эсперанто), (итальянский, эсперанто), (немецкий, эсперанто) - естественный язык будет лучше покрывать потребности популяции в общении и лучше соответствовать фронтиру "понятность-эффективность". То есть, выбирая между естественным образом оптимизированным для данных социальных, исторических и географических условий языком, и "чудом-юдом" из башни лингвистов - человек всегда выберет естественный язык. А преимущества условно-всеобщих языков возникают только при условии что достаточно большая популяция людей (с разными родными языками) на всеобщем уже говорят - а именно этого никогда не будет. Более того, даже если представить что вы мановением волшебной палочки сумели внедрить всеобщий язык - он немедленно начнет опять разъезжаться на языковые ветви и диалекты в силу локальной оптимизации под условия (+случайные мутации языка). Вон - австрийцы, баварцы, и кантоны в Швейцарии говорят вроде на одном изначальном языке - немецком. Однако же, периодически друг-друга не понимают...
Вы всерьез полагаете что пулемет с лентой сильно ограничен в боезапасе по сравнению с боевым лазером ? Если вы, конечно, не пуляете в белый свет как в копеечку! Вопрос в обнаружении цели. Если вы ее сумели обнаружить на дистанции до 1.5-2 км, никаких принципиальных преимуществ у лазера перед 20мм пушкой - нету. Ни в реально располагаемом боезапасе, ни в производительности по поражению целей. Еще раз - попасть в цель != поразить ее. Чтобы дрон упал - вам придется его сопровождать и греть, пока конструкция не потеряет устойчивость от нагрева. Вот если бы вы смогли уменьшить расходимость, да поднять плотность энергии на зеркалах на пару порядков - тогда да. Тогда была бы убер-пушка с недостижимой для пулемета скорострельностью и скоростью полета снаряда к цели. Но природа мудра, и ограничивает наши желания физическими законами. Поэтому, извините, нет...
Шта-а?! Вы видели сколько секунд они сбивали дрон в демонстрационном ролике! Там плотность энергии не такая, чтобы "хоп - и дырка". Нет - они греют конструкцию, пока не произойдет потеря прочности от нагрева. И вот это нихрена не быстрее полета снаряда к цели на этой дистанции. Понятно, что приятно думать о лазере как о средстве поражения со скоростью поражающего элемента 300 тыс км.сек. Но на достигнутых плотностях энергии - это нифига не так. Упреждение вам не нужно - зато нужно сопровождать цель, облучая ее в непрерывном режиме. И точно также дроны этот лазер перегрузят как они перегружают существующие зенитные системы...
Требование "сделать новое приложение при значительных изменениях" - абсолютно нереалистично в энтерпрайзе, IMHO - и будет источником дикого оверхеда в репозиториях, пайплайнах, и проч...
Я бы предложил не усложнять себе жизнь без причины, и продолжать пользоваться либо SemVer, либо просто инкрементальными номерами билдов (это когда приложение уже который год 0.1.X, и X>200 :-)
А разработчикам объяснять смысл версионирования, а не правила. Ведь смысл версионирования в чем - если у нас на проде есть версия X.Y.Z, а нас просят откатить до A.B.C - то надо или внимательно читать changelog (или git diff), или:
Отличие только в последнем компоненте - откатывать можно без проблем, оно не упадет.
Отличие в средней цифре - смотреть changelog, ибо там может быть что-то необратимое (а-ля миграция в БД), а может быть - и нет. Протестировать новую конфигурацию надо бы, но скорее для собственного успокоения.
Отличие в major-версии - гарантированно сломается все вокруг. Если очень надо - то это целый проект с селективным даунгрейдом соседних сервисов и обязательным тщательным тестированием совместимости.
И, соответственно, разработчик должен в своей голове прокручивать эти сценарии, и решать что он поменял, и какую condensed-информацию он доносит изменением версии. Если не уверен - озвучивать на дейлике, и пусть команда решает...
Знаете такие буквы в азбуке "Р - распил", "О - откат" ? Просто в каких-то странах это делается напрямую, а в некоторых - через постройку вот таких странных штук. Проблема в том, что никто не объяснил: a) нахрена ? b) что делать с физическими пределами типа дифракции ? c) чем энергетическое оружие для данного применения лучше материального, если главное преимущество - скорость полета 300 тыс км.сек - мы в атмосфере реализовать все-равно не можем на располагаемых дистанциях ?
Даже СОИ было как-то реалистичнее на бумаге. Там все-таки вакуум, и пулять собирались на сотни километров по сотням целей...
Ну, кроме шуток - 60-ричная система исключительно удобна своей делимостью (ибо 60 - удвоенное произведение простых до пяти). Делится на 2,3,4,5,6,10,12,15,30 - и дает сравнительно небольшие погрешности при делении на 7 и 8. Что исторически покрывало потребности человека в делении интервалов времени для бытовых и производственных нужд...
А зачем ? Если я знаю что автобус на остановку придет в 14:32, и мне до нее идти 11 минут, а одеваться еще 5 - значит я должен быть в коридоре в 14:16, и если сейчас 13:58 - значит у меня есть еще 18 минут писать комментарии на хабр. :-) Проводить эти рутинные вычисления представляя циферблат - все равно что решать уравнения, представляя в уме счеты. Имхо числа элементарно удобнее и экономнее в обращении.
Ну как бы я вообще считаю, что указать "14:21" - намного лучше всех этих "без четверти два, четверть на два", и т.д... Я, щука, даже глядя на аналоговые часы - никогда не думаю о четвертях или половинах. Моя голова думает: "э-э, 14 этак 20-23". То есть стрелки вводят некую неопределенность, но я продолжаю думать в часах и минутах, а не в частях циферблата!
Интересно, что если эти дети из школы пойдут в родную американскую армию, то их там будут ОТУЧАТЬ от am/pm и "четверть первого" - а будут заставлять пользоваться нормальной 24-часовой системой времени: "fourteen twenty-one hours, fourteen zero-five hours, и т.д."...
Спасибо, очень содержательно. Я не вижу смысла спорить по каждой букве, просто поясню - почему я считаю эксперимент начатый с "хорошим текстом" показательным. Если мы просто ставим задачу генерации текста языковой модели - то в моей голове это эквивалент натравливания декодера на шум. В шуме нет никакой закодированной информации - поэтому то что мы получаем в результате - является дистилированной информацией, выученной моделью в процессе обучения. Мне кажется что это не показатель, так как и в человеческом разуме "as-is" писательский импульс отсутствует (доказательством чему является масса не представляющих никакой ценности работ в самиздате). Однако, когда мы даем пример хорошего яркого текста - я ожидаю как доказательство capability модели - что она сможет сказать: "ой, а оно хорошо!", и хотя бы не шибко портить его своими правками. Потому что если есть этот внутренний храповик - то я могу пытаться усложнять систему, строить конвейеры агентов, тратить больше ресурсов - постепенно добиваясь чтобы конечный результат генерации текста был "хорошим" - даже если каждая индивидуальная стадия конвейера его производящая - ненадежна и "хорошо" получается только малая часть того что она производит.
А когда мы видим что модель не отличает внутри себя хорошее от дурного (а люди почему-то это делают - не все и не всегда, но все-же) - то это полная и окончательная катастрофа. И, соответственно, я скорее настроен ждать более совершенных моделей, нежели пытаться заставлять текущую технологию пытаться в генерацию текстов (если нужен именно хороший текст, а не просто мусор - дабы контент-план выполнить...). Ну потому что можно сколько угодно строить самолет из соломы и пальмовых листьев, и даже весело и с гиканьем катать его по полю на мускульной тяге... Но вообще-то нужен двигатель внутреннего сгорания и алюминий, чтобы это стало не забавой, а инструментом!
Этот эксперимент можно провести на любом языке. Русский отличается от английского только тем, что на этапе вывода могут появиться дополнительные странности в виде мелких несогласований падежей и родов. Эти ошибки я игнорирую - если бы дело было в этом - мы бы их поправили элементарной вычиткой.
В результате эксперимента вы получаете некоторое представление о том, что внутри ЛЛМ кажется ей "хорошим" текстом. И, к сожалению, результатом является унылое, невыразительное, плоское нечто. Моя ближайшая аналогия - сцены из фильма "Плезантвиль", где двое живых людей попадают в ч/б США сериал 50-х годов. И там очень красиво показано, что ч/б герои не живут жизнь, а старательно изображают ее. Типа муж каждое утро "ходит на работу", но понятия не имеет что такое "работа" на самом деле... И это не лечится стилизацией а-ля: "Напиши рассказ в стиле (О.Генри, М.Твена, Конан-Дойла, и т.д.)". И это не лечится advanced prompting где мы просим модель сначала написать характерные черты и литературные приемы определенного писателя, потом написать как именно она собирается применить их при создании текста, и только потом писать текст. То есть, нет - она прекрасно знает характеристики писателей, и прекрасно вам фантазирует как она сейчас их применит к тексту. А на выходе все-равно - та же субстанция, и того же цвета...
В качестве прикола - ЛЛМ имеют тенденцию использовать лифт как телепорт. Два абзаца вверх - герой ехал в институт на трамвае, два абзаца вниз - зашел в лифт на работе, вышел дома на лестничной площадке. Мне кажется, что виновато мультимодальное обучение на видеоматериалах, где режиссеры выкидывают из видеоряда подразумеваемые события, а у моделей нет целостной картины мира чтобы это понять. Поэтому ей что в трамвай человека засунуть, что в лифт - все одно - окажется в точке назначения!...
С разбиениями тоже нетривиально. Если оставлять в контексте только план - то он перестает понимать тонкие связи между соседними главами. Ну потому что при работе над главой три - он видит только краткое содержание глав два и четыре... А если кормить всем текстом - то ум заходит за разум. Получается, что надо делать как-бы управление контекстом - чтобы сюжетно важные и связанные части текста были представлены полно, а несущественные редуцированы до краткого содержания и общего плана.
Но это уже совершенно нетривиальная система (не просто кусок текста в контекстном окне), а RAG или графовое представление - а потом еще его поди разверни обратно в линейный текст.
И это еще как-то работает пока повествование линейное. Как только мы добавляем переключения из одного места событий в другое, или нелинейный сюжет - оно совсем разваливается... :-(
С одной стороны, это прекрасная идея. С другой - авторы и популяризаторы этих книг забывают главный принцип: для успешных переговоров надо чтобы ДВЕ стороны хотели договориться. Если же единственной альтернативой переговоров выступает продолжение переговоров - то или договаривающиеся стороны должны быть чрезвычайно альтруистичны и обладать исключительным эмоциональным интеллектом, либо происходящее будет описываться формулой: "А Васька слушает - да ест!".
Очень важно для успешных переговоров - правильно формулировать свою позицию (и выполнить угрозу если ваши справедливые и разумные требования будут проигнорированы).
Характерный пример из Кристофера Раули ("Драконы войны"):
"...Наш король должен теперь попросить, чтобы великие звери земли и воздуха возвратились в свои земли. Мы не можем допускать дальнейшее хищническое истребление наших лосей и оленей. Лоси бегут с горы Ульмо. Олени в панике. В лесу царит ужас. Посему наш король послал меня, чтобы передать вам его требование. Вы должны тотчас же покинуть эти земли, а если вы откажетесь выполнять его справедливое распоряжение, мы вас убьем."
«Типичный пример дипломатии эльфов, – подумал Релкин, – целиком, включая формулировку заявления. Так, чтобы возразить и не думали».
Хтоническую хтонь, творящуюся в глубине моделей при обработке художественного текста, можно почувствовать простым экспериментом:
Возьмите хороший фрагмент текста известного вам автора (чтобы там было действие, какие-то живые описания, эмоции, и т.д.)
Подайте его в LLM с промптом: "Начинающий автор прислал фрагмент произведения в литературный журнал. Напиши, что у него получилось хорошо, а что - нужно доработать?"
Следующий промпт: "Как опытный автор и редактор, подготовь окончательный вариант текста с учетом сделанных замечаний"
Насладитесь, в какой кусок дерьма будет превращен отличный изначальный текст...
И пока этот тест LLM не сможет удовлетворительно пройти - ни о какой генерации текстов самостоятельно речи идти не может! Максимум - техническая работа и рерайт... Даже в программировании ИИ помогает больше...
Вангую, что в попытке удержать дефицит бюджета, правительство нажало на тормоз с доп.расходами. Ситуация может стать несколько легче в декабре-феврале (т.к. начнется новый бюджетный год, и перечислят новые авансы по госзаказу). Но всякий разумный человек должен понимать, что в будущем году деньги кончатся раньше, и соответственно - неплатежи тоже начнутся раньше (и их будет больше, чем в уходящем году)...
Во-первых, с 2014 года все бизнесмены вокруг заметили, что с каждым годом работать надо заметно больше, чтобы просто сохранять достигнутый уровень производства и чтобы семья кушала примерно столько и того же качества, как в прошлом году.
Во-вторых, все эти рассуждения о трудностях - формально правильные, но игнорируют слона в комнате - и потому смешные. На самом деле - проблемой является то, что ресурсы сжигаются в военном производстве. То есть, если вчера граждане были сыты, пьяны, и хотели себе микрофон чтобы выделиться из толпы - то теперь те же граждане конкурируют с себе подобными за еду и коммунальные услуги. Причем до трети из них вместо производительной деятельности - либо изготовляют орудия убийства соседей, либо их используют. Соседи, разумеется отвечают в том же духе - однако результаты их усилий ничтожны по сравнению с тем, что мы сами с собой делаем.
В третьих, настоящий кризис начнется тогда, когда вам перестанут платить ваши контрагенты. А вы перестанете платить своим - потому что вам нечем. Кто прошел 2008 - тот помнит... Тогда государство заливало проблемы деньгами, и хотя банкротства были - через полгода ритмичные платежи восстановились. Сейчас резервов нет - заливать нечем...
С одной стороны, да. С другой стороны - если посмотреть на реальные исторические события - даже если власть пыталась по каким-то своим причинам заменить язык - это у нее не очень-то выходило.
У нас это известное "онемечивание" при Павле, но русский язык никуда не делся (а вот императору повезло меньше...). Если взять западных славян - вот хотя бы посмотреть на Словаков, которые не имели национального государства чуть не до конца 1 мировой войны. То венгерские феодалы пытались всем принудительно мадьярский вместо словацкого навязать (причем всерьез - вплоть до запрета учить в школах и молиться на славянских наречиях). Потом в рамках Австро-Венгрии - после буржуазной революции, мадьярам стало не до того, но новая власть хотела всех онемечить. В итоге, язык оказывается удивильно живучей сущностью. Пока есть достаточное количество людей, чтобы дети получали нечто как первый язык - похоже, они его уже не забывают...
А политика - да, всегда тут рядом стояла. Начиная от "мокроступов" 19 века, и заканчивая потугами запретить заимствование иностранных слов в вывесках сейчас... :-(
Я не возражаю по цифрам, потому что во-первых, действительно не моя область, а во-вторых, мой результат не зависит от того 4 тысячи слов у нас активный словарный запас, или 40 тысяч. Четыре тысячи слов закодировать двусложными словами было бы еще проще! Соответственно, мы видим что не комбинаторика является ограничением словообразования - а что-то другое. И мое предположение в данном случае - помехоустойчивость.
Относительно межславянского языка - у меня остаются серьезные сомнения. В принципе, кое-кто считает словацкий язык вполне себе естественным славянским интерлингвом (просто в силу его очень поздней кодификации и массы заимствований от соседей). Но даже если предположить что вы письменность как-то кодифицировали, то что делать с произношением ? Одни "пшекают" и "цекают", другие - нет... Да, я понимаю что когда-то по уверениям лингвистов мы имели праславянский язык, и от черного моря до белого была единая языковая среда праславянских народов. Но потом произошло падение кратких гласных - и у каждого они выпали по-своему, и дальше пошла локальная оптимизация языков под местные условия...
И уж совсем у меня глаза на лоб лезут от различий типа "вонять/пахнуть" (с противоположными значениями в соседних языках), или "черствый/свежий", или "год/час/година"... Я не знаю, как можно было этого добиться!
Э-э, может быть. Укажете на противоречние более конкретно ?
С одной стороны, не могу не согласиться - до эпохи индустриализации и развития дешевых методов связи и путешествий - человечество действительно жило в изолированных группах.
С другой стороны - уже несколько поколений людей живет в обстановке, когда все более-менее со всеми общаются. Но при этом, живые языки не проявляют тенденции к конвергенции (да, заимствуются слова, иногда фразы или стиль общения - но фундаментально все остается примерно как было). Нет даже попыток создания условных "венгерско-словацкого" или "чешско-польского" языков. Скорее, люди на границе оказываются двуязычными, но при этом продолжают четко различать оба известных им языка, и в зависимости от обстоятельств - используют или тот, или этот.
Щука! Не верьте заявлениям руководства компаний! Там такие конфликты интересов, что даже приближаться опасно! Мы делали для заказчика (топ-20 на рынке) автономную агентную систему для решения его специфических задач. И она, скажем так - не то чтобы совсем не работала, но мне было за нее периодически стыдно. И вот под конец года приходит к нам наше руководство, и руководство заказчика - и ультимативно требует записать видео - как наша система успешно все решает. И мы что-то вякаем про то, что LLM там ошибается, тут ошибается - и до конца конвейер агентов обычно не доходит....
"Но оно же не каждый раз ошибается!" - говорит нам мудрое начальство - "Вот вы разбейте процесс на шаги, и запускайте каждый шаг несколько раз пока не сработает, а как сработает - пишите видеоотчет. Потом отдайте файлы в маркетинг, они знают что с этим делать...". И, блдж, это в присутствии заказчика и при его полной поддержке! Сказать что я офигел - это ничего не сказать...
Гм. Интересные возражения. Однако по крайней мере часть из них не кажется мне разумной.
Помехоустойчивость - просто обязана быть частью языка из соображений выживания индивида и общества. Конечно, если вы пользуетесь языком для обсуждения вопроса типа сколько чертей поместится на кончике иглы - то наверное не так важно, правильно ли вы поняли мысль и аргументацию оппонента или нет. А вот если вы используете язык для координации важных для общества работ, или в стрессовой обстановке (например - когда кто-то с кем-то воюет) - недостаточная помехоустойчивость языка может привести к плохим последствиям. И менее удачный язык будет вытеснен либо через порабощение/ассимиляцию, либо через прямую замену популяции приехавшими всадниками на лошадках...
Существование промежуточных звуков между гласными и согласными никак не отменяет разложение сигнала по гармоническим функциям (и спектральные плотности энергии). Предел с одной стороны - чистый синус (музыкальный тон), предел с другой стороны - дельта-импульс с бесконечным спектром. А дальше - pick your poison при устройстве языка. Хочешь - возьми гласные и согласные. Хочешь - приправляй их чем-то средним. Все-равно передать мощно, далеко, и много бит информации - одновременно не получится.
Я утверждаю, что в паре с любым естественным распространенным языком (русский, эсперанто), (итальянский, эсперанто), (немецкий, эсперанто) - естественный язык будет лучше покрывать потребности популяции в общении и лучше соответствовать фронтиру "понятность-эффективность". То есть, выбирая между естественным образом оптимизированным для данных социальных, исторических и географических условий языком, и "чудом-юдом" из башни лингвистов - человек всегда выберет естественный язык. А преимущества условно-всеобщих языков возникают только при условии что достаточно большая популяция людей (с разными родными языками) на всеобщем уже говорят - а именно этого никогда не будет. Более того, даже если представить что вы мановением волшебной палочки сумели внедрить всеобщий язык - он немедленно начнет опять разъезжаться на языковые ветви и диалекты в силу локальной оптимизации под условия (+случайные мутации языка). Вон - австрийцы, баварцы, и кантоны в Швейцарии говорят вроде на одном изначальном языке - немецком. Однако же, периодически друг-друга не понимают...