Ну, с тем что символы (могут) отражать факты согласен (вслед за ранним Витгенштейном). А с фактом понятно, может иметь место, может не иметь, а все остальное будет тем же самым.
То что "все вокруг физика" - это так, но это не очень полезно для практики. (Мат?) аппарат физического описания настолько эмерджентных явлений пока недоступен.
Поэтому математика все же про модели, как единицы описания явления. например аксиоматика Пеано - модель счета различимых объектов, а ChatGPT - натурального языка.
Касаемо универсализма вычислений, я считаю (и писал) что Тьюрингова машина должна иметь вероятностный характер для значений ячеек и временную координату. В ванильном (символьном) виде она счётна. И является универсальной для счетных систем (к слову трансформеры Тьюринг-полны).
Короче говоря, я согласен с тезисом про карту, которая не территория, но полезна. Так и (статистик) Дж. Бокс говорил, "все модели неверны, но некоторые полезны".
Отличная статья, спасибо. Но как же долго вы вели к эволюционной эпистемологии Поппера, я заждался :)
Если не рассматривать математику как науку, а только как язык описания наблюдений, как русский или английский или как у эскимосов (50 видов снега), то проблематика по-моему снимается.
Лично для себя пришёл давно к выводу, что математика - это этакая википедия с языком запросов и автоматическими следствиями из её содержимого. Как и википедия, может быть неточной (как дата саентист утверждаю)).
Насчёт упора в одну только физику... достаточно узко. Наблюдения бывают не только в физике, и нынешняя физика не в состоянии объяснить (ладно ассиметрию) наличие Wikipedia.org. А вот матмодель её жизненного цикла построить можно.
Резюмирую. Математика имхо это универсальный символьный язык описания наблюдений и обмена ими. Прогностическую силу в нем имеют только калиброванные модели (как трансформеры учат). Как у Поппера: tentative theories - error elimination - more theories... - less errors.
Ну... делайте как хорошо, а как плохо не делайте :)
В целом спасибо за изложение, прочёл с интересом. Вероятностями конечно правильнее выражать мнения о будущем, все корпоративно-сценарные методы на этом и построены.
Беды начинаются когда хотят знать много: узкий интервал, но не хотят платить за него потерей вероятности. Талеб конечно предостерегает, но не всем доходчива концепция толстых хвостов (что за хвосты и что с ними не так?..).
и как бы то ни было, горизонт прогнозирования тоже величина переменная, сегодня один, завтра другой. и в разных сферах экономики и жизни он тоже разный, где-то чистый риск как в покере, а где-то гарантированный доход, как в офисе. вобщем знать среду тоже важно, кроме калибровки своих убеждений.
ну идея почти реализована в graph rag. да и онтология не вещь в себе, да и подвижная. если бы она давала инсайты дальше чем обычная LLM, кто знает.
в целом Википедия чем не онтология? LLM её знает. но в частных случаях было бы неплохо её иметь, если бы у неё была прогностическая сила, а это не каждой онтологии под силу.
МСБ тоже нужна аналитика, только её им обычно дают готовую, по сайтам её легко добыть, по маркетплэйсам. Даже Хабр по статьям даёт какую-никакую аналитику.
Крупному бизнесу доступна не только кастомная аналитика и BI, а ещё и всякий data science.
Проблема "стандартной" аналитики, в том числе BI, что она как бухучет, "посмертная". Предиктивная же даже не всякому крупному бизнесу доступна, как и прескриптивная.
Жалко нет аналога PMBoK для аналитики. Есть хорошие книги, Дэвенпорт, Андерсон... но это книги. DMBOK/BABOK/SWEBOK все не о том.
а я вот соглашусь насчёт преобразования Лапласа, и причины две. была такая сетка, NeuralODE, и неплохо перформила, и с другой стороны, преобразование Лапласа сводит диффуры к рациональным многочленам.
Короче говоря Лапласом можно извлекать структуру процессов
Когда-то думал над игровой реализацией градиентного спуска. То есть нейроны играют в игру, и может быть (в зависимости от функции выигрыша) равновесие Нэша (по теореме о неподвижной точке). То есть улучшая любой нейрон, мы бы ухудшили лосс, увеличили его.
Вся проблема в выборе функции "положения" нейрона. Я не подобрал) возможно это можно сделать другой сеткой или RL, или например KAN. Вобщем, поле для экспериментов есть, времени нет.
Некоторые модели хорошо понимают что в отданных чанках нет ответа на вопрос, особенно если их зампромптить на такой ответ: "если в указанной информации ответа нет, явно сообщи об этом числом 0".
Если есть похожие к запросу, но почему-то неревантные, значит надо улучшать retrieval.
С хорошими метаданными я такое ещё в 2018 делал на intent + NER, LLM ещё не было. Просто большой SQL-builder получился, и работал без проскальзываний, в синтаксисе уж точно. А join'ы делались кратчайшим путем в графе таблиц, без всяких пришлёпок.
Вопрос вполне естественный, ответ диаграммой.
LLM только очень большая будет неплохим SQL-билдером. Но в целом вся движуха мне по душе, очень давно жду.
Кто хочет попробовать RAG в этой задаче, посмотрите vanna.ai. Сам не пробовал, но выглядит рабочей штукой. Но и там все упирается в хорошую мету.
Ну, с тем что символы (могут) отражать факты согласен (вслед за ранним Витгенштейном). А с фактом понятно, может иметь место, может не иметь, а все остальное будет тем же самым.
То что "все вокруг физика" - это так, но это не очень полезно для практики. (Мат?) аппарат физического описания настолько эмерджентных явлений пока недоступен.
Поэтому математика все же про модели, как единицы описания явления. например аксиоматика Пеано - модель счета различимых объектов, а ChatGPT - натурального языка.
Касаемо универсализма вычислений, я считаю (и писал) что Тьюрингова машина должна иметь вероятностный характер для значений ячеек и временную координату. В ванильном (символьном) виде она счётна. И является универсальной для счетных систем (к слову трансформеры Тьюринг-полны).
Короче говоря, я согласен с тезисом про карту, которая не территория, но полезна. Так и (статистик) Дж. Бокс говорил, "все модели неверны, но некоторые полезны".
Отличная статья, спасибо. Но как же долго вы вели к эволюционной эпистемологии Поппера, я заждался :)
Если не рассматривать математику как науку, а только как язык описания наблюдений, как русский или английский или как у эскимосов (50 видов снега), то проблематика по-моему снимается.
Лично для себя пришёл давно к выводу, что математика - это этакая википедия с языком запросов и автоматическими следствиями из её содержимого. Как и википедия, может быть неточной (как дата саентист утверждаю)).
Насчёт упора в одну только физику... достаточно узко. Наблюдения бывают не только в физике, и нынешняя физика не в состоянии объяснить (ладно ассиметрию) наличие Wikipedia.org. А вот матмодель её жизненного цикла построить можно.
Резюмирую. Математика имхо это универсальный символьный язык описания наблюдений и обмена ими. Прогностическую силу в нем имеют только калиброванные модели (как трансформеры учат). Как у Поппера: tentative theories - error elimination - more theories... - less errors.
по мне так код вполне понятный. как вводная история очень даже неплохо.
да уже нашёл, segformer, жалко что не instance segmentation
спасибо! доступно.
но задача классификации сейчас не самая полезная в CV. есть ли трансформеры для сегментации? ещё бы желательно претренированные
Ну... делайте как хорошо, а как плохо не делайте :)
В целом спасибо за изложение, прочёл с интересом. Вероятностями конечно правильнее выражать мнения о будущем, все корпоративно-сценарные методы на этом и построены.
Беды начинаются когда хотят знать много: узкий интервал, но не хотят платить за него потерей вероятности. Талеб конечно предостерегает, но не всем доходчива концепция толстых хвостов (что за хвосты и что с ними не так?..).
и как бы то ни было, горизонт прогнозирования тоже величина переменная, сегодня один, завтра другой. и в разных сферах экономики и жизни он тоже разный, где-то чистый риск как в покере, а где-то гарантированный доход, как в офисе. вобщем знать среду тоже важно, кроме калибровки своих убеждений.
посмотрите outlines. ollama его поддерживает из коробки.
про plutus не знал, надо смотреть
ну идея почти реализована в graph rag. да и онтология не вещь в себе, да и подвижная. если бы она давала инсайты дальше чем обычная LLM, кто знает.
в целом Википедия чем не онтология? LLM её знает. но в частных случаях было бы неплохо её иметь, если бы у неё была прогностическая сила, а это не каждой онтологии под силу.
вобщем тоже думал о чем-то схожем :)
есть такая "теорема о полноте excel": любой бизнес-процесс можно описать достаточно жирной экселиной)
опережающие метрики часто прокси, но можно да.
сложно в аналитике говорить обо всем сразу :)
как в тексте написали, модель бизнеса must have
МСБ тоже нужна аналитика, только её им обычно дают готовую, по сайтам её легко добыть, по маркетплэйсам. Даже Хабр по статьям даёт какую-никакую аналитику.
Крупному бизнесу доступна не только кастомная аналитика и BI, а ещё и всякий data science.
Проблема "стандартной" аналитики, в том числе BI, что она как бухучет, "посмертная". Предиктивная же даже не всякому крупному бизнесу доступна, как и прескриптивная.
Жалко нет аналога PMBoK для аналитики. Есть хорошие книги, Дэвенпорт, Андерсон... но это книги. DMBOK/BABOK/SWEBOK все не о том.
Спасибо за материал, идея очень интересная. Но, как активный пользователь ванильного CRISP-DM многие годы, скажу что тут
схожего мало
более современно
достаточно узкий круг проектов
Попробовать что-то такое надо, посмотреть.
которая в пределе - дифф.ур.
а я вот соглашусь насчёт преобразования Лапласа, и причины две. была такая сетка, NeuralODE, и неплохо перформила, и с другой стороны, преобразование Лапласа сводит диффуры к рациональным многочленам.
Короче говоря Лапласом можно извлекать структуру процессов
Когда-то думал над игровой реализацией градиентного спуска. То есть нейроны играют в игру, и может быть (в зависимости от функции выигрыша) равновесие Нэша (по теореме о неподвижной точке). То есть улучшая любой нейрон, мы бы ухудшили лосс, увеличили его.
Вся проблема в выборе функции "положения" нейрона. Я не подобрал) возможно это можно сделать другой сеткой или RL, или например KAN. Вобщем, поле для экспериментов есть, времени нет.
спасибо! на форсайт-сессиях, бывает, вначале проводят затравочный футуристический доклад - вот там "генИИ" точно может быть полезен.
а вообще вот буквально на днях генерил 50 возможных событий в ряде отраслей, специально без RAG - поискать лебедей и прочее. очень неплохо.
ну и наконец - с трендом на агенты - весь форсайт можно было бы отдать ИИ, а потом оценивать =)
а за идею про ИИ в форсайте большое спасибо.
предположу, речь идёт о zero-shot классификаторах
Некоторые модели хорошо понимают что в отданных чанках нет ответа на вопрос, особенно если их зампромптить на такой ответ: "если в указанной информации ответа нет, явно сообщи об этом числом 0".
Если есть похожие к запросу, но почему-то неревантные, значит надо улучшать retrieval.
Огонь! я делал чуть проще на малых текстах. промпт "изложи следующую историю в виде mermaid-диаграммы: текст", и это работает.
только работает это на не очень длинных саммари. но зато можно спросить про хронологию второй мировой например. не суть.
чтобы не зависеть от длины контекста, по идее можно RAG какой, предварительно обогатив поисковый запрос через LLM.
Статья понравилась, спасибо
С хорошими метаданными я такое ещё в 2018 делал на intent + NER, LLM ещё не было. Просто большой SQL-builder получился, и работал без проскальзываний, в синтаксисе уж точно. А join'ы делались кратчайшим путем в графе таблиц, без всяких пришлёпок.
Вопрос вполне естественный, ответ диаграммой.
LLM только очень большая будет неплохим SQL-билдером. Но в целом вся движуха мне по душе, очень давно жду.
Кто хочет попробовать RAG в этой задаче, посмотрите vanna.ai. Сам не пробовал, но выглядит рабочей штукой. Но и там все упирается в хорошую мету.