Добрый день! Поздравляю с началом погружения в необъятную и полную противоречий и подводных камней область моделирования нефтедобычи статистическими методами дата-сайнс. К статье и к применённому методу возникло очень много вопросов и комментариев, я озвучу только некоторые из них и буду рад, если вы прокомментируете.
0) В каком ПО была сделана главная картинка к статье?
1) Количество признаков у вас включает определённое количество скважин. Если есть скважин больше или меньше, модель придётся переобучать?
2) Если поменять местами столбцы со скважинами, нужно ли переобучать модель?
3) Среди признаков у вас отсутствуют геологические признаки как класс. Как вы считаете, это нормально?
4) Учитывая количество данных, на которых обучалась и тестировалась модель, вместо «модель слабо чувствительна к местоположению» правильнее будет говорить, что «модель очень сильно чувствительна к тем нескольким входным данным, которые использовались для её обучения».
Алексей! Я привел формулу из википедии, куда уж примитивнее. В этой формуле интерполяционная функция методом IDW определяется именно так, двояко. Еще раз, по вики, IDW определяется как ОБЕ эти формулы вместе с where. Вы говорите, как я и подозревал, что первое условие — это «определение», а второе условие — это «доопределение», по-вашему «вовсе не идентичное». Интересно, если бы там три было условия, как бы вы третье назвали, «додоопределение»?
P.S. Мы все эти статьи пишем, чтобы попытаться систематизировать, упростить и объяснить. Но во все эти статьи вы приходите с комментариями, суть которых в том, чтобы показать, что всё гораздо сложнее — то есть действуете в противоположном нашему направлении. Я уже говорил, понятно, что вам, как фрилансеру, нужно себя зарекомендовать. Может быть уже хватит? Оставьте нас уже с нашими заблуждениями и примитивными представлениями? С удовольствием загляну в вашу статью на тему интерполяции.
1) Вы меня с кем-то путаете, и автора статьи тоже. Где в формулах в статье хоть что-то сказано про сетку? Разве где-то в статье говорится о переходе от точечных замеров к сетке? Что для ваших двух значений является независимой переменной?
2) Почему на вашей картинке серые доверительные интервалы схлопываются в точку там, где по оси X расположены красные квадраты, и почему схлопнутая точка доверительного интервала нулевой длины магическим образом совпадает с красным квадратом?
Так значение 3.0 для этих двух величин 2.95 и 3.05 — это интерполяция или аппроксимация?
По моему мнению это ни то ни другое, это просто третье число. По определению, оно не совпадает ни с тем, ни с другим, потому что число X по определению совпадает только с самим собой. Значение — это и есть значение, то есть просто число, оно совпадает только с самим собой. Интерполяций на двух ваших числах 2.95 и 3.05 нельзя сделать ни одной, потому что для интерполяции функции нужна независимая переменная и зависимая, а вы мне сообщили почему-то только видимо два значения зависимой переменной.
Теперь мои вопросы:
1) Какое отношение кригинг имеет к регулярной и нерегулярной сетке?
2) Почему на вашей картинке серые доверительные интервалы схлопываются в точку там, где по оси X расположены красные квадраты, и почему схлопнутая точка доверительного интервала нулевой длины магическим образом совпадает с красным квадратом?
Не я первый перешел на язык типа «что-то забрезжило в сознании», я пытаюсь подстраиваться под стиль того, с кем общаюсь. Но с вами общаться сложно. Когда вам задаёшь конкретный вопрос, который вроде бы должен читателям что-то прояснить, вы уходите в сторону и пускаетесь в усложняющие рассуждения.
Где-то в статье сказано, что все интерполяторы в заданных точках дают исходные значения? В статье сказано, что естественно это потребовать, с прицелом на те интерполяторы, которые рассматриваются ниже. Метод обратных расстояний имеет выколотую точку, но чему равен предел при стремлении к выколотой точке? А кригинг, я всё-таки хочу у вас узнать, даёт-таки исходные значения в исходных точках?
P.S. К сожалению, если посмотреть со стороны, то токсичность появляется у статей в этом блоге только в комментариях, и по удивительному совпадению, в ваших.
Алексей! Раз уж мы на более личное общение переходим… Вы спрашиваете «теперь понятно?», но по факту делаете всё, чтобы было не понятно. У вас и у моих коллег, которые эту статью написали — противоположные цели. Вы, видимо, фрилансер, и поэтому намеренно всё усложняете, набивая себе цену; показываете, как всё сложно, и как с этой сложностью умеете справляться именно вы. Мои коллеги написали эту статью наоборот, чтобы показать, что в основе всего этого лежат простые вещи. Я как преподаватель, полностью разделяю этот подход — сначала надо разобраться в простых вещах, а только потом переходить на более сложные.
Есть простая математическая постановка задачи интерполяции. Есть конкретный математический метод: метод обратных квадратов расстояний. Да, он принудительно в точке имеющихся значений присваивает заданное значение, и об этом в статье написано — но ведь и предел при приближении к точке сходится туда же! Есть конкретный математический метод: кригинг. Он потому и называется точным интерполятором, что воспроизводит переданные в него значения точно. А вы вместо этого начинаете разводить наукообразную демагогию на тему того, как всё на самом деле сложно. Мы знаем, что всё сложно — но пытаемся объяснить простые вещи, которые лежат в основе!
Автор рассказывает не о том, как данные для нейронных сетей готовить, а о том, как интерполировать по-разному можно неизвестные данные между известными точками.
Давайте я попробую ещё раз, последний. Вы берете цитату из статьи:
интерполяция в точку с уже известным значением должна давать это самое значение
Отвечаете на неё:
конечно, выше подразумевается доверительный интервал
Рискну ответить за автора (вы ведь тоже беретесь утверждать, что подразумевает автор!): никакого доверительного интервала не подразумевается. Упомянутые в статье интерполяторы обязаны воспроизводить значения hard-data точно, никак не интерпретируя погрешности приборов и так далее. Можно узнать ваш ответ на два простых вопроса, которые я упомянул сообщением выше?
Поэтому и множество стохастических моделей
Представьте себе гипотетический вариант, при котором используемые приборы имеют погрешность, которой можно принебречь. Раз вы пишете «поэтому» — получается, тогда множество стохастических моделей и не нужно использовать?
Конечно нет! Множество стохастических моделей нужно использовать не потому, что приборы врут, а потому что кригинг сглаживает!
Я, честно говоря, перестал вас понимать. Есть утверждение о том, что процедура интерполяции всего поля в точках известных нам должна воспроизводить известные нам значения. Вы не согласны с тем, что кригинг или метод обратных расстояний это делает? Или вы не согласны с таким требованием вообще и считаете его излишним?
Конечно, выше подразумевается доверительный интервал
Насколько я понял, подразумевается именно то, что написано: интерполятор в точках известных значений должен выдавать именно известные значения, без какого-либо доверительного интервала.
Вопрос правильный!
1) У нас есть и такое ПО, которое продаётся вовне, конкурирует на открытом рынке, и да, хочется, чтобы оно покупалось не просто потому что дешевле, чем у расслабившихся на олигопольном рынке конкурентов, а потому что лучше. И оно покупается теми, кому не обязательно к применению.
2) У нас есть такое ПО, которое не продается (пока) вовне, но и для него любовь пользователей тоже важна. У нас такой подход: мы с самого начала вокруг разработки ПО пытаемся сформировать целевую активную группу пользователей, которые будут нам говорить, что мы сделали удобно, а что неудобно. Если у них горят глаза, они могут генерировать предложения, которые нам самим и в голову не пришли бы. Если мы будем делать невоодущевляющее ПО, у группы активных пользователей глаза потухнут, пройдет любовь и завянут помидоры, а без любви, из-под палки, редко рождаются ценные идеи и предложения. Так что любовь пользователей нужна для вовлечения в процесс.
3) Банальную вещь скажу, но любовь пользователей — это мощная нематериальная мотивация, которая реально работает. Очень многим людям важно понимать, что они делают полезный продукт, который будет облегчать инженерам жизнь.
Насколько я знаю, пласты АС, БС месторождений-гигантов Западной Сибири (Приобское и т.д.) лежат выше Баженовской свиты Ю0. С чем связано ваше утверждение?
Идея хорошая, годная, вирусная. Но цикл в качестве иллюстрации функционального программирования или функции, изменяющие массив, да и вообще массив — не самый удачный, как мне кажется, пример.
0) В каком ПО была сделана главная картинка к статье?
1) Количество признаков у вас включает определённое количество скважин. Если есть скважин больше или меньше, модель придётся переобучать?
2) Если поменять местами столбцы со скважинами, нужно ли переобучать модель?
3) Среди признаков у вас отсутствуют геологические признаки как класс. Как вы считаете, это нормально?
4) Учитывая количество данных, на которых обучалась и тестировалась модель, вместо «модель слабо чувствительна к местоположению» правильнее будет говорить, что «модель очень сильно чувствительна к тем нескольким входным данным, которые использовались для её обучения».
P.S. Мы все эти статьи пишем, чтобы попытаться систематизировать, упростить и объяснить. Но во все эти статьи вы приходите с комментариями, суть которых в том, чтобы показать, что всё гораздо сложнее — то есть действуете в противоположном нашему направлении. Я уже говорил, понятно, что вам, как фрилансеру, нужно себя зарекомендовать. Может быть уже хватит? Оставьте нас уже с нашими заблуждениями и примитивными представлениями? С удовольствием загляну в вашу статью на тему интерполяции.
Давайте я сделаю вид, что ничего в этой теме не понимаю, и схожу хотя бы в вики на тему IDW. Что я там увижу?
Как же так, вы же говорите, что он не определён в точке? Скажете «не определён, а доопределён»?
2) Почему на вашей картинке серые доверительные интервалы схлопываются в точку там, где по оси X расположены красные квадраты, и почему схлопнутая точка доверительного интервала нулевой длины магическим образом совпадает с красным квадратом?
По моему мнению это ни то ни другое, это просто третье число. По определению, оно не совпадает ни с тем, ни с другим, потому что число X по определению совпадает только с самим собой. Значение — это и есть значение, то есть просто число, оно совпадает только с самим собой. Интерполяций на двух ваших числах 2.95 и 3.05 нельзя сделать ни одной, потому что для интерполяции функции нужна независимая переменная и зависимая, а вы мне сообщили почему-то только видимо два значения зависимой переменной.
Теперь мои вопросы:
1) Какое отношение кригинг имеет к регулярной и нерегулярной сетке?
2) Почему на вашей картинке серые доверительные интервалы схлопываются в точку там, где по оси X расположены красные квадраты, и почему схлопнутая точка доверительного интервала нулевой длины магическим образом совпадает с красным квадратом?
Где-то в статье сказано, что все интерполяторы в заданных точках дают исходные значения? В статье сказано, что естественно это потребовать, с прицелом на те интерполяторы, которые рассматриваются ниже. Метод обратных расстояний имеет выколотую точку, но чему равен предел при стремлении к выколотой точке? А кригинг, я всё-таки хочу у вас узнать, даёт-таки исходные значения в исходных точках?
P.S. К сожалению, если посмотреть со стороны, то токсичность появляется у статей в этом блоге только в комментариях, и по удивительному совпадению, в ваших.
Есть простая математическая постановка задачи интерполяции. Есть конкретный математический метод: метод обратных квадратов расстояний. Да, он принудительно в точке имеющихся значений присваивает заданное значение, и об этом в статье написано — но ведь и предел при приближении к точке сходится туда же! Есть конкретный математический метод: кригинг. Он потому и называется точным интерполятором, что воспроизводит переданные в него значения точно. А вы вместо этого начинаете разводить наукообразную демагогию на тему того, как всё на самом деле сложно. Мы знаем, что всё сложно — но пытаемся объяснить простые вещи, которые лежат в основе!
Отвечаете на неё:
Рискну ответить за автора (вы ведь тоже беретесь утверждать, что подразумевает автор!): никакого доверительного интервала не подразумевается. Упомянутые в статье интерполяторы обязаны воспроизводить значения hard-data точно, никак не интерпретируя погрешности приборов и так далее. Можно узнать ваш ответ на два простых вопроса, которые я упомянул сообщением выше?
Представьте себе гипотетический вариант, при котором используемые приборы имеют погрешность, которой можно принебречь. Раз вы пишете «поэтому» — получается, тогда множество стохастических моделей и не нужно использовать?
Конечно нет! Множество стохастических моделей нужно использовать не потому, что приборы врут, а потому что кригинг сглаживает!
Насколько я понял, подразумевается именно то, что написано: интерполятор в точках известных значений должен выдавать именно известные значения, без какого-либо доверительного интервала.
1) У нас есть и такое ПО, которое продаётся вовне, конкурирует на открытом рынке, и да, хочется, чтобы оно покупалось не просто потому что дешевле, чем у расслабившихся на олигопольном рынке конкурентов, а потому что лучше. И оно покупается теми, кому не обязательно к применению.
2) У нас есть такое ПО, которое не продается (пока) вовне, но и для него любовь пользователей тоже важна. У нас такой подход: мы с самого начала вокруг разработки ПО пытаемся сформировать целевую активную группу пользователей, которые будут нам говорить, что мы сделали удобно, а что неудобно. Если у них горят глаза, они могут генерировать предложения, которые нам самим и в голову не пришли бы. Если мы будем делать невоодущевляющее ПО, у группы активных пользователей глаза потухнут, пройдет любовь и завянут помидоры, а без любви, из-под палки, редко рождаются ценные идеи и предложения. Так что любовь пользователей нужна для вовлечения в процесс.
3) Банальную вещь скажу, но любовь пользователей — это мощная нематериальная мотивация, которая реально работает. Очень многим людям важно понимать, что они делают полезный продукт, который будет облегчать инженерам жизнь.