Когда-то думал над игровой реализацией градиентного спуска. То есть нейроны играют в игру, и может быть (в зависимости от функции выигрыша) равновесие Нэша (по теореме о неподвижной точке). То есть улучшая любой нейрон, мы бы ухудшили лосс, увеличили его.
Вся проблема в выборе функции "положения" нейрона. Я не подобрал) возможно это можно сделать другой сеткой или RL, или например KAN. Вобщем, поле для экспериментов есть, времени нет.
Некоторые модели хорошо понимают что в отданных чанках нет ответа на вопрос, особенно если их зампромптить на такой ответ: "если в указанной информации ответа нет, явно сообщи об этом числом 0".
Если есть похожие к запросу, но почему-то неревантные, значит надо улучшать retrieval.
С хорошими метаданными я такое ещё в 2018 делал на intent + NER, LLM ещё не было. Просто большой SQL-builder получился, и работал без проскальзываний, в синтаксисе уж точно. А join'ы делались кратчайшим путем в графе таблиц, без всяких пришлёпок.
Вопрос вполне естественный, ответ диаграммой.
LLM только очень большая будет неплохим SQL-билдером. Но в целом вся движуха мне по душе, очень давно жду.
Кто хочет попробовать RAG в этой задаче, посмотрите vanna.ai. Сам не пробовал, но выглядит рабочей штукой. Но и там все упирается в хорошую мету.
Заряжаю в self hosted llm (saiga nemo) "Изложи следующий текст в виде mermaid диаграммы: Михаил пошёл на рыбалку и накопал себе тысячу червей", копирую-вставляю в ванильный obsidian - и все работает. Очень сложные подправляю все же руками.
Статья, если не привязываться к инструментам, хороша. А инструменты вкусовщина.
Извините за оффтоп, пишу из "депрессивного" Новокузнецка. Как у нас поступили с транспортом, никому не пожелаю. Поменяли все маршруты, уже три+ года полгорода не знает как из А доехать в Б. На линиях постоянно не хватает водителей, люди 30-40 минут ждут автобус по утрам.
Все остальное в Новокузнецке вполне себе не "депрессивное". Не все благоухает, но жить комфортно (лично мне, а я жил ещё в Москве и в Академе Новосибирска).
Смотрите, регуляризация - это наложение условий на веса модели через добавку в лосс. Почему в такой постановке работает - потому что это изменяет ландшафт лосс-функции, делая ее более оптимизируемой, и, следовательно с лучшим оптимумом. Об этом загляните в UDL book, https://udlbook.github.io/udlbook/
И еще чуть сложнее - регуляризация это внесение inductive bias в том числе, продвижение модели ближе к задаче (не очень точно выражено, но как-то так). Соответственно с ним перфоманс модели лучше, ее обобщающая способность.
Это очень здорово! А есть в формате статьи? Интересны детали, как кластеризовали, как на сферу укладывали, как обратно разворачивали. И как графы в этом поучаствовали.
Вообще я для подобного использовал всегда VAE. Но тут похоже вы придумали что-то лучше
Ну... Ничего нового. Посмотрите скажем на visiology. Более того... Дашборд можно составлять (и нужно) из сохраненных запросов.
text2sql простая задача без всяких data science при наличии метаданных к базе (просто появляется sql builder), просто на одних только ближайших или intent+ner.
Хотя направление мысли мне нравится. Если будет open source продукт chat with data, типа visGPT без OpenAI и self-hosted... прямо джва (четыре по факту) года жду
Я не то чтобы гарантирую... Но в целом разница вот в чем. В одном случае энергию добывают, а во втором расходуют. Первое всегда было сложнее.
Плюсом к электросеньору то, что его работа не умопомрачительно уникальна, ее можно алгоритмизировать и дополнить (техническим) кругозором. Это делают large language models все лучше и лучше.
Научное изобретение, прорыв для цивилизации, алгоритмизировать наверное нельзя
У архитектуры конечно же роль больше - потому что процедуры by design решают одну и ту же задачу, а архитектуры - разные. У Microsoft даже была архитектура neural architecture search. Перформила вполне до трансформеров.
В принципе трансформеры перформят потому attention - он человекоподобен (размечает кто?..). На физических задачах скажем, есть свои ноу-хау, как и в тех же экономических.
Ваша находка так или иначе впечатлила - кодирование архитектуры с некоторыми свойствами. Нет уверенности, однако, что только архитектура достаточна для перфоманса, я об этом.
В продолжение (топологической) мысли - процедуру было бы идеально переложить в теорию узлов и зацеплений, которая различает только количество путей из одной точки в другую. То есть оптимизатор мог бы разветвляться на разные траектории. Это не то чтобы из разряда фантазий, скорее некоторая намётка.
Вкратце: рельеф лосс-функции - результат архитектуры, но ввиду наших слабых вычислительных возможностей, имело бы смысл иметь топологические инварианты именно рельефа функции потерь, и идеально если бы они содержательно вязались бы с инвариантами архитектур
Когда-то думал над игровой реализацией градиентного спуска. То есть нейроны играют в игру, и может быть (в зависимости от функции выигрыша) равновесие Нэша (по теореме о неподвижной точке). То есть улучшая любой нейрон, мы бы ухудшили лосс, увеличили его.
Вся проблема в выборе функции "положения" нейрона. Я не подобрал) возможно это можно сделать другой сеткой или RL, или например KAN. Вобщем, поле для экспериментов есть, времени нет.
спасибо! на форсайт-сессиях, бывает, вначале проводят затравочный футуристический доклад - вот там "генИИ" точно может быть полезен.
а вообще вот буквально на днях генерил 50 возможных событий в ряде отраслей, специально без RAG - поискать лебедей и прочее. очень неплохо.
ну и наконец - с трендом на агенты - весь форсайт можно было бы отдать ИИ, а потом оценивать =)
а за идею про ИИ в форсайте большое спасибо.
предположу, речь идёт о zero-shot классификаторах
Некоторые модели хорошо понимают что в отданных чанках нет ответа на вопрос, особенно если их зампромптить на такой ответ: "если в указанной информации ответа нет, явно сообщи об этом числом 0".
Если есть похожие к запросу, но почему-то неревантные, значит надо улучшать retrieval.
Огонь! я делал чуть проще на малых текстах. промпт "изложи следующую историю в виде mermaid-диаграммы: текст", и это работает.
только работает это на не очень длинных саммари. но зато можно спросить про хронологию второй мировой например. не суть.
чтобы не зависеть от длины контекста, по идее можно RAG какой, предварительно обогатив поисковый запрос через LLM.
Статья понравилась, спасибо
С хорошими метаданными я такое ещё в 2018 делал на intent + NER, LLM ещё не было. Просто большой SQL-builder получился, и работал без проскальзываний, в синтаксисе уж точно. А join'ы делались кратчайшим путем в графе таблиц, без всяких пришлёпок.
Вопрос вполне естественный, ответ диаграммой.
LLM только очень большая будет неплохим SQL-билдером. Но в целом вся движуха мне по душе, очень давно жду.
Кто хочет попробовать RAG в этой задаче, посмотрите vanna.ai. Сам не пробовал, но выглядит рабочей штукой. Но и там все упирается в хорошую мету.
В большинстве ваших инженерных трудностей поможет tabpfnv2, прямо очень рекомендую присмотреться.
Заряжаю в self hosted llm (saiga nemo) "Изложи следующий текст в виде mermaid диаграммы: Михаил пошёл на рыбалку и накопал себе тысячу червей", копирую-вставляю в ванильный obsidian - и все работает. Очень сложные подправляю все же руками.
Статья, если не привязываться к инструментам, хороша. А инструменты вкусовщина.
В Новокузнецке провел молодость, и я его понимаю. Кемерово, ощущение что застрял в нулевых. Проработал там год.
Что касается Академа Нского, там я прожил долго, лет 8. Хорошее, я бы даже сказал сказочное место. Но потом семейные обстоятельства вернули.
Извините за оффтоп, пишу из "депрессивного" Новокузнецка. Как у нас поступили с транспортом, никому не пожелаю. Поменяли все маршруты, уже три+ года полгорода не знает как из А доехать в Б. На линиях постоянно не хватает водителей, люди 30-40 минут ждут автобус по утрам.
Все остальное в Новокузнецке вполне себе не "депрессивное". Не все благоухает, но жить комфортно (лично мне, а я жил ещё в Москве и в Академе Новосибирска).
Смотрите, регуляризация - это наложение условий на веса модели через добавку в лосс. Почему в такой постановке работает - потому что это изменяет ландшафт лосс-функции, делая ее более оптимизируемой, и, следовательно с лучшим оптимумом. Об этом загляните в UDL book, https://udlbook.github.io/udlbook/
И еще чуть сложнее - регуляризация это внесение inductive bias в том числе, продвижение модели ближе к задаче (не очень точно выражено, но как-то так). Соответственно с ним перфоманс модели лучше, ее обобщающая способность.
Очень интересно про tda для весов сети, так как сам экспериментировал недавно с этим, дошел до идеи сам.
А у вас ничего кроме идеи и не нашел.
Попробуйте вложения от dinov2, будете приятно удивлены. Без шуток
Это очень здорово! А есть в формате статьи? Интересны детали, как кластеризовали, как на сферу укладывали, как обратно разворачивали. И как графы в этом поучаствовали.
Вообще я для подобного использовал всегда VAE. Но тут похоже вы придумали что-то лучше
Идея крутая. В кода примера есть две ошибки, strtree.StringTree, и recall_score наверное должно быть.
Ну... Ничего нового. Посмотрите скажем на visiology. Более того... Дашборд можно составлять (и нужно) из сохраненных запросов.
text2sql простая задача без всяких data science при наличии метаданных к базе (просто появляется sql builder), просто на одних только ближайших или intent+ner.
Хотя направление мысли мне нравится. Если будет open source продукт chat with data, типа visGPT без OpenAI и self-hosted... прямо джва (четыре по факту) года жду
Можно вам предложить присмотреться к
https://www.marqo.ai/
?
Я не то чтобы гарантирую... Но в целом разница вот в чем. В одном случае энергию добывают, а во втором расходуют. Первое всегда было сложнее.
Плюсом к электросеньору то, что его работа не умопомрачительно уникальна, ее можно алгоритмизировать и дополнить (техническим) кругозором. Это делают large language models все лучше и лучше.
Научное изобретение, прорыв для цивилизации, алгоритмизировать наверное нельзя
У архитектуры конечно же роль больше - потому что процедуры by design решают одну и ту же задачу, а архитектуры - разные. У Microsoft даже была архитектура neural architecture search. Перформила вполне до трансформеров.
В принципе трансформеры перформят потому attention - он человекоподобен (размечает кто?..). На физических задачах скажем, есть свои ноу-хау, как и в тех же экономических.
Ваша находка так или иначе впечатлила - кодирование архитектуры с некоторыми свойствами. Нет уверенности, однако, что только архитектура достаточна для перфоманса, я об этом.
В продолжение (топологической) мысли - процедуру было бы идеально переложить в теорию узлов и зацеплений, которая различает только количество путей из одной точки в другую. То есть оптимизатор мог бы разветвляться на разные траектории. Это не то чтобы из разряда фантазий, скорее некоторая намётка.
Вкратце: рельеф лосс-функции - результат архитектуры, но ввиду наших слабых вычислительных возможностей, имело бы смысл иметь топологические инварианты именно рельефа функции потерь, и идеально если бы они содержательно вязались бы с инвариантами архитектур
Сходимость зависит не только от архитектуры, но и от процедуры.
Кстати, уверен вам будет интересно ознакомиться с концепцией ограниченной машины Больцмана