Pull to refresh

Comments 23

MVA не слишком статичен для такой системы? Пробовали ли вы микросети с адаптивным скрытым состоянием на PyTorch). Есть ли у вас возможность прогнать сторонние модели на вашем датасете?

Спасибо за первый коммент )

1 - для инерционной системы и поиска причин вполне достаточно, с задачей справились

2 - нет, не пробовали, принципиально использовала специализированное ПО без программирования

3 - данные — внутренняя коммерческая тайна, поэтому снова нет )

3 - данные — внутренняя коммерческая тайна, поэтому снова нет )

Так никто же не говорит отдавать ваши данные наружу. Берете стороннюю модель. разворачиваете у себя в контуре и тестируете. Или на это нет денег?

Думаю, тут проблема в том, что потребуется много итераций настроек. Я готов отправлять код и получать логи. Но думаю, сотрудники не увидят смысла в дополнительной работе. ))

Звучит просто - берете и разворачиваете в контуре, но фактически - комплекс работ для того, чтобы просто потестить чужую модель при уже решенной задаче...

Фактически да, вход в ИИ очень дорогой, и ради тестов покупать оборудование на полмиллиарда мало кто может себе позволить.

Но можно же использовать и другие подходы - медленные, не требующие оборудования, но медленные. Типа запуск через mmap - за неделю напишет. И данные не уходят. Или может вообще на cpu, если оперативки хватает. Это еще смотря какие задачи. Для задачи типа "на входе сказка про колобка или сказка про курочку рябу, когда сказка про колобка пиши 1, а когда про курочку тогда пиши 0" хватит и тупых моделек 1b которые уже на телефонах запускают, а под кодогенерацию только mmap и огромные модели.

Солидная статья.

Химизм процесса примерно понятен. Детали ПО понятно по NDA.

А как же биологические методы? Полиэтилен какие- нибудь микробы едят?

Зацепило слово реактор. На Курской АЭС были проблемы. Охлаждение а это 60 проц энергии теплая вода. Завелись бактерии что забивали все выходные и входные трубы с водой.

Завезли мелкую тропическую рыбешку. За два года сожрала что не нужно. Но размножилась... Завезли родственников Пираньи. Тоже восстановила баланс

Ну понимаете.. Эти зубастые начала жрать бланкет реакторов.

Полиэтилен кто-то из живых ест?

Если бы полиэтилен так легко ел кто-нибудь из живых - то было бы как в старом фантастическом рассказе "Мутант 59" ))
Задача стояла не в области быстрой чистки, но в минимизации скорости обрастания в процессе эксплуатации производственной линии.

“Пруфы, Джонни?”

Возможно, что только Билли сможет дать ответ )

3 - данные — внутренняя коммерческая тайна, поэтому снова нет 

Может старый открытый датасет есть?

В целом спасибо за комментарии и конструктив, обсудим с коллегами эту возможность.

Спасибо, в целом интересно, но местами есть недосказанность существенная.

Данные мы тянули из заводской MES-системы. Она непрерывно записывает все производственные параметры и хранит их за много лет.
...В итоге датасет по пилотному кейсу: 77 технологических параметров, 547 дней работы

  • Почему 547 дней, если данные есть за много лет?

  • Чтобы модель обучилась, данные должны были меняться, но по идее на производстве должно быть более-менее фиксировано в относительно узких пределах. Вы ведь не специально меняли параметры, а брали историю реального производства. Так почему они менялись в истории?

  • обрастание труб как-то измеряется постоянно?

  • трубы обрастают везде одинаково, или в разных местах по-разному? Может ли при изменении параметров в одном месте усилиться обрастание, а в другом уменьшиться?

Реакторы приходилось останавливать на чистку каждые 3-5 месяца.
… Запустили опытный пробег: 45 дней непрерывной работы без остановки на чистку. Это было начало.

А как вы поняли, что это начало чего-то большего? Обрастание было меньше, чем раньше за такой же срок или что? Что показали эти 45 дней?

И хотелось бы каких-то подробностей по итоговой модели (насколько это возможно). Например:

  • Зависят ли оптимальные параметры от степени обрастания? Например: сначала ставим такую температуру, а по мере обрастания поднимаем.

  • Параметры получаются статические, монотонно изменяющиеся в одну сторону, или, например, выгодно варьировать параметры туда-сюда в течение суток/дней?

  • Какие-то наблюдения, что раньше все думали так, а оказалось вот так вот, и это всех удивило.

  • Судя по всему, модель уже несколько лет в работе. Она после первого "прохода" потом переобучалась по данным следующих лет? Сильно ли что-то изменилось?

Спасибо за комментарий, верно подмечено - не все мы можем раскрыть в рамках поста. Часть моментов прокомментирую.

1- Почему 547 дней - взяли несколько относительно устойчивых периодов работы, но с различным временем (или скоростью) обрастания

2 - Как понять что труба обрастает - через косвенный показатель, который измеряется по методике и в точках, определенных лицензиаром процесса - коэффициент теплопередачи

3 - 45 суток было достаточно, чтобы понять, что скорость обрастания (читай - падение коэффициента теплопередачи) замедлилась

Насколько я понимаю, ключ к успеху - это накопленная big data, которую надо научиться анализировать (перед тем, как затевать новые испытания или изменения).

Извините, не понял. СОВСЕМ не хочу никого обидеть, но это - Сибур так "цифровизируется"? Помогают студенты второго курса или третьего?.. Которым профессор из Томска читает лекции про PCA и PLS?

Откуда столько высокомерия? Как по-вашему это должно делаться? У нас есть какие-то другие кадры, которые сразу знают, как надо?

Спасибо за поддержку!
Видимо, не совсем удалось сделать доступной информацию в посте, почему нам понадобилось доп. обучение...

Life can be much broader once you discover one simple fact, and that is: Everything around you that you call life was made up by people that were no smarter than you. And you can change it. You can influence it. You can build your own things that other people can use.

https://youtu.be/kYfNvmF0Bqw - Steve Jobs Secrets of Life

При всем уважении… Обучать технологов науке о данных - благородная задача. Собрать и почистить данные - прекрасная, сложная, но очень полезная затея.
Но по существу проекта вопросов больше чем ответов! И видно, что в комманде не хватало дата сайентиста…
Почему только PCA/PLS, табличные же данные, попробовали бы деревья/сети, посмотрели бы на feature importance, может было бы полезно.
Попробовали бы поиграть c feature interactions, ведь наверняка, совместые эффекты присутствуют!
Думали ли про PIML или гибридные модели с физическими ограничениями?
Я уж не говорю контроль переобучение, метрики (до и после), стабильность моделей, и т.п.

Очевидно, бритву Оккама никто не отменял, и если все работает, то и прекрасно. Но сам проект выглядит как-то уж слишком наивно.

итого: я во всём этом комментарии вижу проблему коммуникации и сотрудничества. И LLMки будут наращивать отрыв до тех пор, пока мы не понизим барьеры по этим двум параметрам и не наладим коммуникацию между нами на отличном уровне. "Кто подскажет, куда дальше? У кого спросить? С кем начать работу можно?" Об этом есть и в самой статье:

У меня здесь курс лекций на конференции медиков, рассказываю им про сокращение размерности данных для практических исследований». И тут мы поняли: тот же мат-аппарат, те же методы, а задачи совсем другие. Медики, фармакологи, биологи — все работают с тем же инструментом.

Потому у меня вывод в виде вопроса такой: не знали, куда дальше тыкаться, или уперлись в неподвижность рынка труда (вакансия, поиск, найм) или (не похоже, судя по трудо(!)затратам) не было легкого к использованию бюджета? Ибо верно:

И видно, что в команде не хватало дата сайентиста

Спасибо за комментарий. Проблема коммуникаций и сотрудничества - глобальная во всех сферах, и только на стыке разных дисциплин мы можем найти новое (или хорошо забытое старое )) )
Что касается дата сайнтиста - позволю себе цитату в контексте того, что мы решали конкретную задачу на производстве в относительно сжатые сроки - "Мы исходили из того, что технологу проще объяснить математику, чем математику объяснить химию. Технолог уже понимает, как устроен реактор ..."

Согласен со всем, да, и с последним тоже :)

Sign up to leave a comment.

Information

Website
sibur.digital
Registered
Employees
1,001–5,000 employees
Location
Россия