Я когда начал заниматься темой статистического анализа производительности СУБД был удивлен и поражён практически полным отсутствием работ по этой теме. Все на уровне алхимии и ремесла , в лучшем случае.
А ведь все DBA имеют высшее техническое образование , но как выяснилось очень быстро забывают математику - медиана , мода, корреляция , дисперсия - как тарабарщина какая то . А ведь это основа математического анализа наблюдений . Мне и сейчас самый частый вопрос , после очередного вебинара по поводу текущих результатов исследований - а зачем всё это нужно. Я уже и реагировать перестал.
С одной стороны грустно - поговорить и обсудить не с кем. С другой - приоритет в исследованиях . По крайней мере прикольно видеть в ответах всяких gpt цитаты на свои статьи 😎
Я всегда вспоминаю классику "Волк с Уолл-стрит" , что ответил главный герой на предложение джуна по поводу торговли по сигналам и как на самом деле зарабатывают на биржах.
Отличный фильм "The Big Short" - как врут сигналы, рейтинговые агенства и вообще все в финансах.
Ну и конечно же "Margin Call" - о том , чем в 100% заканчиваются все эти игры.
Но поколение непуганых мальчиков подрастает постоянно - поэтому технический анализ и статьи о том, что можно предсказать биржу - вечны.
Всегда будет те, кто покупает сигналы и очередные выигрышные стратегии.
P.S. мне хватило , когда я увидел двойные фигуры в противоположных направлениях в условиях полного отсутствия новостей . Т.е. явно было принято решение двинуть рынок в нужном направлении. Я понятливый. Я понял , что мне на биржах делать нечего. Пусть лосей другие ловят. А я буду иногда наблюдать, со стороны 😉
В общем , на текущий момент нет никакой технической возможности средствами LLM отделить достоверные данные от ложных. Я правильно понимаю ?
Причина , очень проста - для принятия решения нужно быть вне алгоритма и обладать знаниями в других областях . Т.е. нужен эксперт - человек который для начала поймёт что либо вопрос который был задан LLM , либо ответ который LLM сгенерировала некорректно .
Но, я наверное повторяюсь сорри, даже в этом случае - если ответа на вопрос нет в интернете LLM полностью бесполезна и только эксперт с экспертом в ходе прямого обсуждения смогут найти решение .
Разумеется. Осталось дело за малым - объяснить это LLM и реализовать алгоритмически. Но эти алгоритмы , все , предполагаю как в известном меме про журналиста и ученого, называют интеллектом - ну вот пусть применит интеллект ;-)
Как по мне, так действительно нет какой-то "универсальной метрики производительности".
но ВСЕ языковые модели, которые я пока тестировал начинают пытаться выкручиваться , объяснять и видывать тексты. Что лично мне особенно раздражает - цитаты из моих статей .
В общем, не понимаю. Ну да ладно, далекая от меня тема.
Вот когда LLM научатся так отвечать , тогда и сделают первый шаг к тому, что бы заслужить первый намек и оправдать второе слово в словосочетании "искусственный интеллект".
Пока они лишь воду льют очень замечательно , с языковыми моделями у человека никаких шансов. Это факт.
В чем приницпиальное отличие нагуглить фигню в Интернете или получить ее через чатбота (ибо он на ней же обучался)?
Принципиально ничем. Разница только во вложенных бюджетах в алгоритм поисковика и LLM. Если на входе фигня, то на выходе тоже получится фигня. И не важно сколько ресурсов вложено в обработку.
А если результат не отличается - зачем платить больше ?
А в интернете , по некоторым тема вообще в принципе ничего кроме фигни нет.
Что значит "самый общий характер"?
Это значить - между "что делать" и "и как делать" - иногда марафон триатлон.
Он вполне может помочь со списком, что стоит потестировать. И даже написать заготовки тестов, которые вы под себя затюните.
Что тестировать я и так знаю - производительность СУБД PostgreSQL. Вопрос - как тестировать. Какие сценарии и как обрабатывать результаты и вопрос вопросов - какие цифры и почему считать результатом. И никакая LLM на эти вопросы не ответит, просто потому, что в интернете нет статей на эту тему. Ну , вернее пока нет. А когда появится, лично мне уже эта информация не особо и интересна будет, я дальше пойду.
Может быть станет понятнее, если приведете пример "тупикового пути",
Пожалуйста - все три варианта имеют аномалии которые проявляются на разных сценариях нагрузочного тестирования. Но никакая языковая модель об этом знать не может.
Другие боты дадут такой же результат. Другому взяться просто неоткуда
Обратите внимание на пункт 4. Я не спрашивал "как мониторить", зачем он мне это говорит ?
Другие боты выдадут такие же ответы, кто-то больше кто то меньше.
Потому, что они понятия не знают, что перечисленные варианты расчетов тупиковые и имеют аномалии.
P.S. Просто тема статистического анализа производительности СУБД мне довольно близка , я держу руку на пульсе. Уверен, по другим темам требующим исследования а не статистического анализа мегатон текстов в интернете ситуация аналогичная. Так, что пусть кто хочет называет это интеллектом. Для меня языковые модели лишь очень сложные продвинутые поисковики. Может быть когда нибудь от них будет польза именно в исследованиях нового, но пока нет.
истинность утверждений на определённом ресурсе неоднозначна и проверить её с помощью рассуждения (т.е. без экспериментов и простого наблюдения) нельзя, но есть огромное альтернативных ресурсов?
Вы точно уверены, что есть альтернативные ресурсы по всем темам кроме самых общих (и то совсем не факт , как подготовлена информация на общих ресурсах, а подготовлена она специально обученными специалистами для формирования нужных общественных мнений)?
Я знаю одну тему, ну просто потому, что долго ей занимаюсь.
Нет альтернативных ресурсов , я не нашел, по крайней мере. Вполне допускаю , что кто-то работает над темой и никому не говорит, в отличии например от меня.
Ну и как ИИ проверит что информация которую он нашел - корректна ?
Вот такая ситуация , кто-то решил заниматься темой "анализ производительности СУБД PostgreSQL", интересно же , задал вопрос доступным чат-ботам , получил массу информации и ответов и начал собственные исследования по данной теме, опираясь на полученную информацию.
Учитывая , что ответы ИИ носят самый общий характер и не содержат конкретных решений , пройдет очень много времени пока новый исследователь поймет, что информация которая опубликована в интернете устарела и все это время он шел по тупиковому пути.
Т.е. в данном случай ИИ не помог, а навредил.
Проблема грязных данных и отсутствие данных в интернете это очень серьезная проблема для языковых моделей. Это же базовая логика - из ложной посылки, любой вывод ложен. Как установить истинность начального тезиса ? Да еще и в интернете .
Я не специалист по LLM , поэтому не берусь судить - как будет решаться.
Вполне возможно , лет через 10-15 никто и не вспомнит об этом ажиотаже.
Вы сами же в предыдущем комментарии к статье "Как протестировать производительность СУБД перед миграцией: опыт K2Тех" задаёте дополнительные вопросы авторам
У меня очень большие подозрения , что статья сгенерирована LLM. И автор лишььэ разместил статью а целях рекламы или kpi.
Сколько дней прошло и тишина . Люди, тем более авторы заинтересованные в обсуждении , обычно реагируют быстрее.
Закинул в deepseek ваш вопрос, дописал, что он должен уточнять вопрос, если он ему не понятен
А deep seek и не говорит, что вопрос(как рассчитать производительность ) непонятен . Все ему/ей понятно. Льет поток воды и цитат весьма уверенно и бодро.
Повторюсь , как студент с шпорами и бомбами.
Это вполне объяснимо , алгоритм ведь не может знать или не знать или не понимать - он просто засыпает потоком статистически обработанной информации. Алгоритм в принципе не может знать , что 80-90% из его ответа уже давно устарело. И тот кто если будет заниматься темой анализа производительности потеряет кучу времени и пойдёт по ложному пути.
И это одна из серьёзных проблем языковых моделей - грязные данные в интернете .
С живыми авторами можно пообщаться , с цитатами из из статей - нет.
У меня, например, сразу возникла куча уточняющих вопросов
Потому, что вы человек и реальный интеллект , а не алгоритм который назвали " искусственный интеллект".
Вы способны рассуждать , логически сопоставлять , искать аналогии и логические связи, а не статистически обрабатывать мегатонны , вообще говоря очень грязной , информации из интернета .
Не видите противоречий?
Нет, потому, что не считаю эти алгоритмы интеллектуальными и не жду в результате, хоть что то отдалено напоминающее реального интеллекта.
P.S. Боты кстати , вполне себе пытаются изобразить интеллект и ответить на вопрос .
1)Не нужно лить воду и цитировать мои статьи , с хабра в том числе .
2)Нужна формула , не текст ни о чем для наполнения курсовика , а конкретный ответ на - как рассчитать, какая формула , как получается цифра .
Если будет , ответ который я не раз уже встречал , скорее всего , что то типа "отношение *** будем считать производительностью СУБД" , я скажу , что эта методика уже давно устарела потому, что возникают аномалии. Но нейросеть об этом не знает, потому, что статьи в интернете с описанием аномалии , я не публиковал пока.
Т.е. вопрос вопросов - почему интеллектом называют алгоритм , который не способен рассуждать ?
эксперт ещё вопросы сложные задавать, находить несоответствия, не соглашаться.
— Так вот, — говорит Морковьева. — Нам нужно нарисовать семь красных линий. Все они должны быть строго перпендикулярны, и кроме того, некоторые нужно нарисовать зеленым цветом, а еще некоторые — прозрачным. Как вы считаете, это реально?
— Нет, — говорит Петров.
— Давайте не будем торопиться с ответом, Петров, — говорит Сидоряхин. — Задача поставлена, и ее нужно решить. Вы же профессионал, Петров. Не давайте нам повода считать, что вы не профессионал.
— Видите ли, — объясняет Петров, — термин «красная линия» подразумевает, что цвет линии — красный. Нарисовать красную линию зеленым цветом не то, чтобы невозможно, но очень близко к невозможному…
— Петров, ну что значит «невозможно»? — спрашивает Сидоряхин.
— Я просто обрисовываю ситуацию. Возможно, есть люди, страдающие дальтонизмом, для которых действительно не будет иметь значения цвет линии, но я не уверен, что целевая аудитория вашего проекта состоит исключительно из таких людей.
— То есть, в принципе, это возможно, мы правильно вас понимаем, Петров? — спрашивает Морковьева.
Петров осознает, что переборщил с образностью.
— Скажем проще, — говорит он. — Линию, как таковую, можно нарисовать совершенно любым цветом. Но чтобы получилась красная линия, следует использовать только красный цвет.
— Петров, вы нас не путайте, пожалуйста. Только что вы говорили, что это возможно.
Ответы языковых моделей нужно проверять вручную , на предмет корректности и актуальности .
Вопрос - а зачем тогда они(LLM) нужны , если потом все равно потребуется участие эксперта/экспертов ? Может быть , проще дешевле и быстрее- сразу к техническому эксперту обратиться ? Если конечно , не как в известной короткометражке про 7 красных перпендикулярных линиях .
Ну , за исключением , написания курсовиков, дипломов , инструкций и статей для закрытия KPI или генерации трафика на интернет ресурсах (например на хабре). Тут конечно, ии - вне конкуренции.
По вашему , то, что называют "Большие языковые модели" можно назвать "интеллектом" ?
У меня любимое развлечение было - задать вопрос , ответ на который точно не опубликован в интернете и наблюдать как бот льет воду и выкручивается как студент на экзамене , вместо того, что честно сказать , как человек - я не знаю, ответа в интернете нет.
Есть и более изощренное издевательство - задать вопрос и точно знать , что ответ будет неверным, потому, что информация в статьях в интернете устарела , но ии об этом не знает, потому, что не может получит информацию о информации, он просто не погружен в тему вопроса . Например, то, что автор давно забросил ресурс и статья устарела и давно не актуальна , хотя и индексируется . Т.е. до способности рассуждать, то чем собственно и характеризуется интеллект , ии еще очень далеко.
Просто для иллюстрации тренда
Я когда начал заниматься темой статистического анализа производительности СУБД был удивлен и поражён практически полным отсутствием работ по этой теме. Все на уровне алхимии и ремесла , в лучшем случае.
А ведь все DBA имеют высшее техническое образование , но как выяснилось очень быстро забывают математику - медиана , мода, корреляция , дисперсия - как тарабарщина какая то . А ведь это основа математического анализа наблюдений . Мне и сейчас самый частый вопрос , после очередного вебинара по поводу текущих результатов исследований - а зачем всё это нужно. Я уже и реагировать перестал.
С одной стороны грустно - поговорить и обсудить не с кем. С другой - приоритет в исследованиях . По крайней мере прикольно видеть в ответах всяких gpt цитаты на свои статьи 😎
Добрый день, просьба уточнить - доступна ли в PPEM история ожиданий на уровне SQL-выражений, DB , Cluster ?
Не известные патерны типа "двойная вершина" или "двойное дно" , а падение и затем рост на ≈200пунктов .
По моему ДоуДжонс был, но могу ошибаться , все таки больше 20 лет прошло. В общем , мне хватило чтобы переосмыслить и бросить эти игры пока не поздно.
Я всегда вспоминаю классику "Волк с Уолл-стрит" , что ответил главный герой на предложение джуна по поводу торговли по сигналам и как на самом деле зарабатывают на биржах.
Отличный фильм "The Big Short" - как врут сигналы, рейтинговые агенства и вообще все в финансах.
Ну и конечно же "Margin Call" - о том , чем в 100% заканчиваются все эти игры.
Но поколение непуганых мальчиков подрастает постоянно - поэтому технический анализ и статьи о том, что можно предсказать биржу - вечны.
Всегда будет те, кто покупает сигналы и очередные выигрышные стратегии.
P.S. мне хватило , когда я увидел двойные фигуры в противоположных направлениях в условиях полного отсутствия новостей . Т.е. явно было принято решение двинуть рынок в нужном направлении. Я понятливый. Я понял , что мне на биржах делать нечего. Пусть лосей другие ловят. А я буду иногда наблюдать, со стороны 😉
Исследование: обучение на сгенерированных данных может привести к коллапсу большой языковой модели / Хабр
Интересно, а LLM уже используют в качестве источников обучения статьи сгенерированные LLM ?
В общем , на текущий момент нет никакой технической возможности средствами LLM отделить достоверные данные от ложных. Я правильно понимаю ?
Причина , очень проста - для принятия решения нужно быть вне алгоритма и обладать знаниями в других областях . Т.е. нужен эксперт - человек который для начала поймёт что либо вопрос который был задан LLM , либо ответ который LLM сгенерировала некорректно .
Но, я наверное повторяюсь сорри, даже в этом случае - если ответа на вопрос нет в интернете LLM полностью бесполезна и только эксперт с экспертом в ходе прямого обсуждения смогут найти решение .
Так , получается ?
Разумеется. Осталось дело за малым - объяснить это LLM и реализовать алгоритмически. Но эти алгоритмы , все , предполагаю как в известном меме про журналиста и ученого, называют интеллектом - ну вот пусть применит интеллект ;-)
но ВСЕ языковые модели, которые я пока тестировал начинают пытаться выкручиваться , объяснять и видывать тексты. Что лично мне особенно раздражает - цитаты из моих статей .
Вот когда LLM научатся так отвечать , тогда и сделают первый шаг к тому, что бы заслужить первый намек и оправдать второе слово в словосочетании "искусственный интеллект".
Пока они лишь воду льют очень замечательно , с языковыми моделями у человека никаких шансов. Это факт.
Принципиально ничем. Разница только во вложенных бюджетах в алгоритм поисковика и LLM. Если на входе фигня, то на выходе тоже получится фигня. И не важно сколько ресурсов вложено в обработку.
А если результат не отличается - зачем платить больше ?
А в интернете , по некоторым тема вообще в принципе ничего кроме фигни нет.
Это значить - между "что делать" и "и как делать" - иногда марафон триатлон.
Что тестировать я и так знаю - производительность СУБД PostgreSQL. Вопрос - как тестировать. Какие сценарии и как обрабатывать результаты и вопрос вопросов - какие цифры и почему считать результатом. И никакая LLM на эти вопросы не ответит, просто потому, что в интернете нет статей на эту тему. Ну , вернее пока нет. А когда появится, лично мне уже эта информация не особо и интересна будет, я дальше пойду.
Пожалуйста - все три варианта имеют аномалии которые проявляются на разных сценариях нагрузочного тестирования. Но никакая языковая модель об этом знать не может.
Обратите внимание на пункт 4. Я не спрашивал "как мониторить", зачем он мне это говорит ?
Другие боты выдадут такие же ответы, кто-то больше кто то меньше.
Потому, что они понятия не знают, что перечисленные варианты расчетов тупиковые и имеют аномалии.
P.S. Просто тема статистического анализа производительности СУБД мне довольно близка , я держу руку на пульсе. Уверен, по другим темам требующим исследования а не статистического анализа мегатон текстов в интернете ситуация аналогичная. Так, что пусть кто хочет называет это интеллектом. Для меня языковые модели лишь очень сложные продвинутые поисковики. Может быть когда нибудь от них будет польза именно в исследованиях нового, но пока нет.
Вы точно уверены, что есть альтернативные ресурсы по всем темам кроме самых общих (и то совсем не факт , как подготовлена информация на общих ресурсах, а подготовлена она специально обученными специалистами для формирования нужных общественных мнений)?
Я знаю одну тему, ну просто потому, что долго ей занимаюсь.
Нет альтернативных ресурсов , я не нашел, по крайней мере. Вполне допускаю , что кто-то работает над темой и никому не говорит, в отличии например от меня.
Ну и как ИИ проверит что информация которую он нашел - корректна ?
Вот такая ситуация , кто-то решил заниматься темой "анализ производительности СУБД PostgreSQL", интересно же , задал вопрос доступным чат-ботам , получил массу информации и ответов и начал собственные исследования по данной теме, опираясь на полученную информацию.
Учитывая , что ответы ИИ носят самый общий характер и не содержат конкретных решений , пройдет очень много времени пока новый исследователь поймет, что информация которая опубликована в интернете устарела и все это время он шел по тупиковому пути.
Т.е. в данном случай ИИ не помог, а навредил.
Проблема грязных данных и отсутствие данных в интернете это очень серьезная проблема для языковых моделей. Это же базовая логика - из ложной посылки, любой вывод ложен. Как установить истинность начального тезиса ? Да еще и в интернете .
Я не специалист по LLM , поэтому не берусь судить - как будет решаться.
Вполне возможно , лет через 10-15 никто и не вспомнит об этом ажиотаже.
Поживем, увидим.
У меня очень большие подозрения , что статья сгенерирована LLM. И автор лишььэ разместил статью а целях рекламы или kpi.
Сколько дней прошло и тишина . Люди, тем более авторы заинтересованные в обсуждении , обычно реагируют быстрее.
А deep seek и не говорит, что вопрос(как рассчитать производительность ) непонятен . Все ему/ей понятно. Льет поток воды и цитат весьма уверенно и бодро.
Повторюсь , как студент с шпорами и бомбами.
Это вполне объяснимо , алгоритм ведь не может знать или не знать или не понимать - он просто засыпает потоком статистически обработанной информации. Алгоритм в принципе не может знать , что 80-90% из его ответа уже давно устарело. И тот кто если будет заниматься темой анализа производительности потеряет кучу времени и пойдёт по ложному пути.
И это одна из серьёзных проблем языковых моделей - грязные данные в интернете .
С живыми авторами можно пообщаться , с цитатами из из статей - нет.
Потому, что вы человек и реальный интеллект , а не алгоритм который назвали " искусственный интеллект".
Вы способны рассуждать , логически сопоставлять , искать аналогии и логические связи, а не статистически обрабатывать мегатонны , вообще говоря очень грязной , информации из интернета .
Нет, потому, что не считаю эти алгоритмы интеллектуальными и не жду в результате, хоть что то отдалено напоминающее реального интеллекта.
P.S. Боты кстати , вполне себе пытаются изобразить интеллект и ответить на вопрос .
Пожалуйста .
"Как рассчитать производительность СУБД PostgreSQL".
Вопрос с подковырками .
1)Не нужно лить воду и цитировать мои статьи , с хабра в том числе .
2)Нужна формула , не текст ни о чем для наполнения курсовика , а конкретный ответ на - как рассчитать, какая формула , как получается цифра .
Если будет , ответ который я не раз уже встречал , скорее всего , что то типа "отношение *** будем считать производительностью СУБД" , я скажу , что эта методика уже давно устарела потому, что возникают аномалии. Но нейросеть об этом не знает, потому, что статьи в интернете с описанием аномалии , я не публиковал пока.
Т.е. вопрос вопросов - почему интеллектом называют алгоритм , который не способен рассуждать ?
Короткометражка
https://rutube.ru/video/1f1274ea1e072da04bd5c775f0b5321c/?r=a
Первоисточник
https://alex-aka-jj.livejournal.com/66984.html
и абсолютно не понимает, что такое шутка ирония сарказм и гротеск.
Какой практический смысл в этом ответе ?
На что были потрачены мегатонны бюджетов , время и работа специалистов?
На то, что бы придумать абсолютно бессмысленный ответ на вопрос , с которым справится школьник ?
А если в интернете нет фактов ?
Или факты искажены?
— Так вот, — говорит Морковьева. — Нам нужно нарисовать семь красных линий. Все они должны быть строго перпендикулярны, и кроме того, некоторые нужно нарисовать зеленым цветом, а еще некоторые — прозрачным. Как вы считаете, это реально?
— Нет, — говорит Петров.
— Давайте не будем торопиться с ответом, Петров, — говорит Сидоряхин. — Задача поставлена, и ее нужно решить. Вы же профессионал, Петров. Не давайте нам повода считать, что вы не профессионал.
— Видите ли, — объясняет Петров, — термин «красная линия» подразумевает, что цвет линии — красный. Нарисовать красную линию зеленым цветом не то, чтобы невозможно, но очень близко к невозможному…
— Петров, ну что значит «невозможно»? — спрашивает Сидоряхин.
— Я просто обрисовываю ситуацию. Возможно, есть люди, страдающие дальтонизмом, для которых действительно не будет иметь значения цвет линии, но я не уверен, что целевая аудитория вашего проекта состоит исключительно из таких людей.
— То есть, в принципе, это возможно, мы правильно вас понимаем, Петров? — спрашивает Морковьева.
Петров осознает, что переборщил с образностью.
— Скажем проще, — говорит он. — Линию, как таковую, можно нарисовать совершенно любым цветом. Но чтобы получилась красная линия, следует использовать только красный цвет.
— Петров, вы нас не путайте, пожалуйста. Только что вы говорили, что это возможно.
Дополню.
Ответы языковых моделей нужно проверять вручную , на предмет корректности и актуальности .
Вопрос - а зачем тогда они(LLM) нужны , если потом все равно потребуется участие эксперта/экспертов ? Может быть , проще дешевле и быстрее- сразу к техническому эксперту обратиться ? Если конечно , не как в известной короткометражке про 7 красных перпендикулярных линиях .
Ну , за исключением , написания курсовиков, дипломов , инструкций и статей для закрытия KPI или генерации трафика на интернет ресурсах (например на хабре). Тут конечно, ии - вне конкуренции.
По вашему , то, что называют "Большие языковые модели" можно назвать "интеллектом" ?
У меня любимое развлечение было - задать вопрос , ответ на который точно не опубликован в интернете и наблюдать как бот льет воду и выкручивается как студент на экзамене , вместо того, что честно сказать , как человек - я не знаю, ответа в интернете нет.
Есть и более изощренное издевательство - задать вопрос и точно знать , что ответ будет неверным, потому, что информация в статьях в интернете устарела , но ии об этом не знает, потому, что не может получит информацию о информации, он просто не погружен в тему вопроса . Например, то, что автор давно забросил ресурс и статья устарела и давно не актуальна , хотя и индексируется . Т.е. до способности рассуждать, то чем собственно и характеризуется интеллект , ии еще очень далеко.
Поживём , увидим.
Хм, уже давным давно, всё , что мне нужно перенес на рутуб, и посему вообще не переживаю и не в курсе всеобщего стона.
Ну вот вам еще , за ностальгию про те времен
https://rutube.ru/video/c10be3c3b248e43a454ecf18aa7f6c29/?r=wd
ЭХ.... Хорошее было время... Питер... ФИДО ....