Последние годы преподавания, распознав появления этих «около ИИ-проблем» (наряду с кучей других), пришел к некоторым эффективным практикам, про что есть статья и короткий доклад.
TLDR:
теоретически: уход от схоластики, «лекций и библиотек», задрачивания тестами (и прочего бихевиоризма c programmed learning), к constructionist learning с виртуальными лабораториями в броузере и интерактивными редактируемыми материалами, и целью учащихся — сделать самим «образовательный контент» в процессе своего понимания.
технически: code-server, программирование в броузере, юпитер-ноутбуки, симуляторы, разборы научных статей. ИИ можно использовать, он только разгрузит преподавателя.
Простите, а как это сделано? Камера отдает видеопоток по Firewire, а какое устройство его пишет? Я для такого использовал ноутбуки с dvgrab/gstreamer, а тут что-то явно проще.
Все материалы докладов (видео-слайды-тезисы) → https://0x1.tv/Category:OSDAY-2025 Плюс на круглом столе были вполне общехабровые темы про «ИИ который все[х] [не]заменит», и тяжелым трудом 💪👷 сделана из видео 🎬 «иллюстрированная эмопьеса» 🎭👥🌆 → https://0x1.tv/20250620A
У них опенсорс под Apache PL, т.е. вроде даже энфорсить ограничения на собственные сборки им нельзя, но есть какая-то EULA на стейбл-версии, что их нельзя использовать коммерчески (дурацкий подход, ну типа чтобы не поднимали массово сервисы, сбрасывая техподдержку на них). Есть ли ограничения как-то зашитые в обычном бинаре, надо посмотреть, постараюсь (если раскурю клиентапи, попробую больше сотни пользователей завести).
Ну вендорские утверждения что у них лучше я проскипаю, но с некстклаудом я так много поел ..., залипания всякие, пхп-проблемы, база-проблемы (особенно если масштабировать, кластера там выстраивать, знаю мучающихся с пг-кластером для некстклауда), … Я экспериментирую с личными данными, всякое тяжелое (фотки-видео) переношу на OCIS, его удобно поднять на любой тачке с кучей дисков, пробросить порт, и получить собственное большое хранилище. Напрямую их пока сравнивать не знаю как, часть у меня (часть личной ноуледж бейс, которую я шарю через публикацию министатей) у меня до сих пор в некстклауд, но тяжелое-личное перекидываю постепенно. Пока из проблем только какие-то странности в квотах на некие OCIS space ловил, но в целом «работает и каши не просит». Я думаю, вы можете очень быстро поднять и попробовать OCIS параллельно с NextCloud и сравнить на ваших сценариях.
«Зачем 2, когда есть 2 в одном?» — хреново и даже непривычно реализованная фича, не равно «два в одном», тем более с чатами — это конкуренция за клиент-внимание-пользовательский опыт, пользователи не будут держать еще один чат клиент на мобильных и десктопах, «боливар не вынесет двоих» (скайп вот слился). Насчет чатов в наших случаях, я понял, что бесполезно пытаться пока вытащить людей из телеграмма, и чтобы все не пропало, написал выкачивалку групповых чатов, чтобы хранить (в том же OCIS) и читать нормально в VSCode глазами (или нейросетями) переписку в markdown-файлах.
Никакой возни с PHP, базами, зависимостями и все таким. Пока из минусов — мобильный клиент owncloud хуже работает с автозагрузкой (фотки и т.п.) — некстклаудный индемпотентен, и умеет делить на подпапки по датам, надо бы как-то им это втолковать. Насчет опенсорсности у меня сходу не удалось скомпилить (подозрение, что часть гошных модулей в приватных репах гитхаба), но может это что-то временное, я не разбирался еще.
Идея как-то лочится на некстклауд для чатов только потому, что уже есть ключевой файлообмен на нем, как-то сомнительна — не лучше ли просто на том же SSO поднять WebRTC для звонков от jitsi и какой-нибудь рокетчат? Такое решение например будет работать, если сменить Nextcloud для файлообмена на Owncloud Infinity Scale (они таки переписали старое PHPшное на GO, и выглядит это перспективно).
Все-таки надо исправить удивительно сжигающий глаза тег «opensourse», который держат специально, как honeypot для ловли безграмотных копирайтеров. Кстати тут есть даже тег oseduconf, с некоторыми отчетами даже десятилетней давности, хотя не все отчеты ловятся по этому тегу. Ну и сама статья, скорее малоинформативный формальный пресс-релиз («ИИ, напиши пресс-релиз по аннотациям к конфе» → «ФИО рассказал о… заслушали доклад… goto 10»), стала бы полезной, если просто расставить ссылки с таймкодами на, например, вк-трансляцию (на рутуб как-то совсем зашквар) на все упомянутые доклады.
В российском продакт-менеджменте под CustDev’ом чаще всего понимается другое значение. «Кастдевом» у нас чаще всего называют этап «глубинных интервью»
« — Да, те, кто работают на западную аудиторию и общаются с продуктовым коммьюнити давно знают, что термин CusDev существует только в России)) Проблема только в том, что Россия поставляет 0,01% единорогов на мировой рынок бизнеса (если не меньше). Поэтому трижды подумайте о пользе кастдева))
— после того как я 10 лет проработала в компаниях, где был целый отдел кастомер девелопмент, который адаптировал (дорабатывал) наш продукт под нужды конкретного крупного заказчика, была крайне удивлена, что кастдевом называют интервью)
Ну, конечно, после релокации народу там стало поменьше, но там несравненное с ни кем из перепаковщиков количество специалистов по виртуализации, контейнерам, ядру. И очень прочное тестирование, включая перформанс тестинг. Гипервизор KVM с патчами, контейнеры свои (но с глубоким пониманием), за сторадж не поручусь, но остальное на мировом уровне.
«Р-» и прочая росплатформа — это виртуоззо. Совсем неплохо, по сравнению с перелейбелингами опенсорсных OpenStack/OpenNebula/Proxmox/OVirt (все остальные импортозамещения).
Был опыт использования на одной миниконференции, когда для удаленных докладов орги решили использовать это.
Наблюдалось (на нескольких броузерах, в течении нескольких дней)
«фриз видео» всех участников, кроме того, кого прибивают гвоздями в режиме «закрепить участника» — но тогда нельзя шарить экран. Т.е. тупой режим «экран» плюс «голова» обычно приводил к зависшему виде «головы».
a насчет шаринга экрана… по сравнению скажем, с Jitsi, где окно шаринга экрана докладчика можно сделать на весь экран, и даже больше (если использовать функцию pop-out-video современных броузеров), здесь верстка забита гвоздями (сайдбары со всех сторон, панели, какой-то неубираемый мусор), на видео экрана остается меньше половины площади, может даже меньше
что-то как-то хуже было со звуком, чем в jitsi, но не уверен (странный зал, странное оборудование, надо проверить, может можно вырулить настройками).
Ну, long story short → я вижу эффективное техдокументирование близким к LaTeX-процессу, где есть код и предпросмотр, между ними легко перепрыгивать, код может «включать» другой код и шаблоны. Разве что заменить LaTeX-разметку (которая не для людей) на Markdown, а PDF-предпросмотр (кому теперь нужны страницы) на HTML-предпросмотр. Вот как это выглядит за 30 секунд.
Я это сделал на Pandoc, но контрибуция в Haskell-сорсы для меня мучительна, а экстеншны не всегда удобно там подключаются... Но в целом, реализуемо (там масса тонкостей, как обрабатывать формулы, как...).
Не хочу вас сейчас в это толкать (вдруг я склоняю вас к NIH-переизобретению-велосипедов), но может когда-нибудь... Ну разве что сейчас на уровне архитектуры наверно надо подумать о подключении экстеншнов, и опциональной информации «в исходном файле этот обьект был на такой строчке такого файла» и может, тут как-то форсить на мировом уровне для маркдауна спецификацию стандартного способа как «включать другие файлы».
Сорри за ночной невнятный вопрос от любителя (пробовал когда-то давно детские датасеты на скоринг именно всякими *бустами, обещаю поотлаживать на свежую голову ваши примеры, но там вроде скоринга нет), но пока пытаюсь понять качественно, что у вас произошло (поправьте если совсем неправ).
Т.е. кто-то пробовал обычный градбустинг на «исходном датасете», и получил видимо что-то ниже roc_auc ~ 0.6 (и наверно сильно ниже, раз те метрики что у вас как бы успех), что наверно было мало (не в курсе «стандартов по скорингу», но как раз недавно видел статью про что-то похожее на проде, причем с совсем небольшим количеством атрибутов и там гордились AUC ~ 0.82-0.86).
С классификацией того исходного же датасета нейронками наверно тоже было не лучше (раз понадобились графы).
Вы подтащили всевозможные связи «объектов» (родственные, коллеги, что у вас там), жадно, на три рукопожатия, и вроде как «информация о метках» обучающего датасета как-то передалась-связалась с ними (ну что вроде логично, банкротятся семьями, фейл компании фейлит работников и т.п.).
Т.е. вроде как получается, что улучшение метрик физически произошло только за счет того, что вот часть этих «подтянутых и зараженных близостью к дефолту» попали именно на тестовый датасет? Насколько вы улучшили данные по сравнению с тем же исходным бустингом на исходном датасете? Может можно было просто какие-то атрибуты типа «близость к банкроту» ввести и в тот же бустинг тоже улучшился бы без нейросетей и вот этих библиотек?
Посмотрел, пока непонятно, это только «изоморфная конвертация» или все таки будет «техписательство» Наверное проект еще молодой, заброшу ожидания того, кто использует pandoc-пайплайны для технического документирования (может когда-нибудь получится, или сразу напишете, что это против вижена проекта):
синхронизация исходников с результатом (что-то типа «source-pos» в pandoc)
включение одних документов в другие (типа разных include-фильтров pandoc, но если это будет из коробки — лучше).
Насколько я понял, вы на стороне телекома — но самому телекому прогнозы о банкростве без надобности — перестанет платить, ну и ладно, отключим. Наверное вы хотите на своих данных какой-то сервис для всяких кредитных организаций, чтобы по паспорту или инн (которые у вас есть и легко заматчить) выдавать ваше предсказание? Если так, то тут вроде возникает кроссбордерная передача ПД (персданных). Да и финмоделлерам из КО более интересно было бы не ваше предсказание, а вот ваши телекомфичи по пользователю, чтобы интегрировать в свою модель предсказаний.
Интересно, можно ли считать передачей ПД, если бы вы просто продавали что-то вроде обученной модели, которая отображала бы ПД (типа инн-паспорт-фио-др) в некие фичи.
Последние годы преподавания, распознав появления этих «около ИИ-проблем» (наряду с кучей других), пришел к некоторым эффективным практикам, про что есть статья и короткий доклад.
TLDR:
теоретически: уход от схоластики, «лекций и библиотек», задрачивания тестами (и прочего бихевиоризма c programmed learning), к constructionist learning с виртуальными лабораториями в броузере и интерактивными редактируемыми материалами, и целью учащихся — сделать самим «образовательный контент» в процессе своего понимания.
технически: code-server, программирование в броузере, юпитер-ноутбуки, симуляторы, разборы научных статей. ИИ можно использовать, он только разгрузит преподавателя.
Простите, а как это сделано? Камера отдает видеопоток по Firewire, а какое устройство его пишет? Я для такого использовал ноутбуки с dvgrab/gstreamer, а тут что-то явно проще.
Все материалы докладов (видео-слайды-тезисы) → https://0x1.tv/Category:OSDAY-2025
Плюс на круглом столе были вполне общехабровые темы про «ИИ который все[х] [не]заменит», и тяжелым трудом 💪👷 сделана из видео 🎬 «иллюстрированная эмопьеса» 🎭👥🌆 → https://0x1.tv/20250620A
У них опенсорс под Apache PL, т.е. вроде даже энфорсить ограничения на собственные сборки им нельзя, но есть какая-то EULA на стейбл-версии, что их нельзя использовать коммерчески (дурацкий подход, ну типа чтобы не поднимали массово сервисы, сбрасывая техподдержку на них). Есть ли ограничения как-то зашитые в обычном бинаре, надо посмотреть, постараюсь (если раскурю клиентапи, попробую больше сотни пользователей завести).
Ну вендорские утверждения что у них лучше я проскипаю, но с некстклаудом я так много поел ..., залипания всякие, пхп-проблемы, база-проблемы (особенно если масштабировать, кластера там выстраивать, знаю мучающихся с пг-кластером для некстклауда), … Я экспериментирую с личными данными, всякое тяжелое (фотки-видео) переношу на OCIS, его удобно поднять на любой тачке с кучей дисков, пробросить порт, и получить собственное большое хранилище. Напрямую их пока сравнивать не знаю как, часть у меня (часть личной ноуледж бейс, которую я шарю через публикацию министатей) у меня до сих пор в некстклауд, но тяжелое-личное перекидываю постепенно. Пока из проблем только какие-то странности в квотах на некие OCIS space ловил, но в целом «работает и каши не просит». Я думаю, вы можете очень быстро поднять и попробовать OCIS параллельно с NextCloud и сравнить на ваших сценариях.
«Зачем 2, когда есть 2 в одном?» — хреново и даже непривычно реализованная фича, не равно «два в одном», тем более с чатами — это конкуренция за клиент-внимание-пользовательский опыт, пользователи не будут держать еще один чат клиент на мобильных и десктопах, «боливар не вынесет двоих» (скайп вот слился). Насчет чатов в наших случаях, я понял, что бесполезно пытаться пока вытащить людей из телеграмма, и чтобы все не пропало, написал выкачивалку групповых чатов, чтобы хранить (в том же OCIS) и читать нормально в VSCode глазами (или нейросетями) переписку в markdown-файлах.
Да гошный он. Можно без докера, тупо скачиваете и запускаете бинарь
ocis server
(ну там сначала надоinit
сделать, чтобыпоявились конфиги
Никакой возни с PHP, базами, зависимостями и все таким. Пока из минусов — мобильный клиент owncloud хуже работает с автозагрузкой (фотки и т.п.) — некстклаудный индемпотентен, и умеет делить на подпапки по датам, надо бы как-то им это втолковать. Насчет опенсорсности у меня сходу не удалось скомпилить (подозрение, что часть гошных модулей в приватных репах гитхаба), но может это что-то временное, я не разбирался еще.
Идея как-то лочится на некстклауд для чатов только потому, что уже есть ключевой файлообмен на нем, как-то сомнительна — не лучше ли просто на том же SSO поднять WebRTC для звонков от jitsi и какой-нибудь рокетчат? Такое решение например будет работать, если сменить Nextcloud для файлообмена на Owncloud Infinity Scale (они таки переписали старое PHPшное на GO, и выглядит это перспективно).
По ссылке на конференцию там как и тут сухой анонс с строгой формой, и для тех кто не слышал об этой конфе может быть полезны материалы-тезисы-видео-обзоры прошлых лет, ну или хотя бы статья в википедии.
Что-то я в embox/platform не нашел «существующий темплейт riscv/minimal»...
Все-таки надо исправить удивительно сжигающий глаза тег «opensourse», который держат специально, как honeypot для ловли безграмотных копирайтеров. Кстати тут есть даже тег oseduconf, с некоторыми отчетами даже десятилетней давности, хотя не все отчеты ловятся по этому тегу. Ну и сама статья, скорее малоинформативный формальный пресс-релиз («ИИ, напиши пресс-релиз по аннотациям к конфе» → «ФИО рассказал о… заслушали доклад… goto 10»), стала бы полезной, если просто расставить ссылки с таймкодами на, например, вк-трансляцию (на рутуб как-то совсем зашквар) на все упомянутые доклады.
«аплифт +1.8 пунктов» — а насколько это круто, это заметное улучшение? Сколько там обычно «пунктовджини»?
«
— Да, те, кто работают на западную аудиторию и общаются с продуктовым коммьюнити давно знают, что термин CusDev существует только в России)) Проблема только в том, что Россия поставляет 0,01% единорогов на мировой рынок бизнеса (если не меньше). Поэтому трижды подумайте о пользе кастдева))
— после того как я 10 лет проработала в компаниях, где был целый отдел кастомер девелопмент, который адаптировал (дорабатывал) наш продукт под нужды конкретного крупного заказчика, была крайне удивлена, что кастдевом называют интервью)
— … забавно неудоумение продактов из ru-спикинг коммьюнити о том, почему так тяжело попасть на нормальную позицию в американские компании. Может быть потому, что на собеседовании западные коллеги не могут понять смысл половины из "модных" продуктовых слов, которые называют наши коллеги
»© (ProductCamp Russia&EE)
Ну, конечно, после релокации народу там стало поменьше, но там несравненное с ни кем из перепаковщиков количество специалистов по виртуализации, контейнерам, ядру. И очень прочное тестирование, включая перформанс тестинг. Гипервизор KVM с патчами, контейнеры свои (но с глубоким пониманием), за сторадж не поручусь, но остальное на мировом уровне.
«Р-» и прочая росплатформа — это виртуоззо. Совсем неплохо, по сравнению с перелейбелингами опенсорсных OpenStack/OpenNebula/Proxmox/OVirt (все остальные импортозамещения).
Был опыт использования на одной миниконференции, когда для удаленных докладов орги решили использовать это.
Наблюдалось (на нескольких броузерах, в течении нескольких дней)
«фриз видео» всех участников, кроме того, кого прибивают гвоздями в режиме «закрепить участника» — но тогда нельзя шарить экран. Т.е. тупой режим «экран» плюс «голова» обычно приводил к зависшему виде «головы».
a насчет шаринга экрана… по сравнению скажем, с Jitsi, где окно шаринга экрана докладчика можно сделать на весь экран, и даже больше (если использовать функцию pop-out-video современных броузеров), здесь верстка забита гвоздями (сайдбары со всех сторон, панели, какой-то неубираемый мусор), на видео экрана остается меньше половины площади, может даже меньше
что-то как-то хуже было со звуком, чем в jitsi, но не уверен (странный зал, странное оборудование, надо проверить, может можно вырулить настройками).
Ну, long story short → я вижу эффективное техдокументирование близким к LaTeX-процессу, где есть код и предпросмотр, между ними легко перепрыгивать, код может «включать» другой код и шаблоны. Разве что заменить LaTeX-разметку (которая не для людей) на Markdown, а PDF-предпросмотр (кому теперь нужны страницы) на HTML-предпросмотр. Вот как это выглядит за 30 секунд.
Я это сделал на Pandoc, но контрибуция в Haskell-сорсы для меня мучительна, а экстеншны не всегда удобно там подключаются... Но в целом, реализуемо (там масса тонкостей, как обрабатывать формулы, как...).
Не хочу вас сейчас в это толкать (вдруг я склоняю вас к NIH-переизобретению-велосипедов), но может когда-нибудь... Ну разве что сейчас на уровне архитектуры наверно надо подумать о подключении экстеншнов, и опциональной информации «в исходном файле этот обьект был на такой строчке такого файла» и может, тут как-то форсить на мировом уровне для маркдауна спецификацию стандартного способа как «включать другие файлы».
Сорри за ночной невнятный вопрос от любителя (пробовал когда-то давно детские датасеты на скоринг именно всякими *бустами, обещаю поотлаживать на свежую голову ваши примеры, но там вроде скоринга нет), но пока пытаюсь понять качественно, что у вас произошло (поправьте если совсем неправ).
Т.е. кто-то пробовал обычный градбустинг на «исходном датасете», и получил видимо что-то ниже roc_auc ~ 0.6 (и наверно сильно ниже, раз те метрики что у вас как бы успех), что наверно было мало (не в курсе «стандартов по скорингу», но как раз недавно видел статью про что-то похожее на проде, причем с совсем небольшим количеством атрибутов и там гордились AUC ~ 0.82-0.86).
С классификацией того исходного же датасета нейронками наверно тоже было не лучше (раз понадобились графы).
Вы подтащили всевозможные связи «объектов» (родственные, коллеги, что у вас там), жадно, на три рукопожатия, и вроде как «информация о метках» обучающего датасета как-то передалась-связалась с ними (ну что вроде логично, банкротятся семьями, фейл компании фейлит работников и т.п.).
Т.е. вроде как получается, что улучшение метрик физически произошло только за счет того, что вот часть этих «подтянутых и зараженных близостью к дефолту» попали именно на тестовый датасет? Насколько вы улучшили данные по сравнению с тем же исходным бустингом на исходном датасете? Может можно было просто какие-то атрибуты типа «близость к банкроту» ввести и в тот же бустинг тоже улучшился бы без нейросетей и вот этих библиотек?
Посмотрел, пока непонятно, это только «изоморфная конвертация» или все таки будет «техписательство»
Наверное проект еще молодой, заброшу ожидания того, кто использует pandoc-пайплайны для технического документирования (может когда-нибудь получится, или сразу напишете, что это против вижена проекта):
синхронизация исходников с результатом (что-то типа «source-pos» в pandoc)
включение одних документов в другие (типа разных include-фильтров pandoc, но если это будет из коробки — лучше).
подстановки шаблонов/cущностей...
…
и я так понял, плагинов не планируется?
Насколько я понял, вы на стороне телекома — но самому телекому прогнозы о банкростве без надобности — перестанет платить, ну и ладно, отключим. Наверное вы хотите на своих данных какой-то сервис для всяких кредитных организаций, чтобы по паспорту или инн (которые у вас есть и легко заматчить) выдавать ваше предсказание? Если так, то тут вроде возникает кроссбордерная передача ПД (персданных). Да и финмоделлерам из КО более интересно было бы не ваше предсказание, а вот ваши телекомфичи по пользователю, чтобы интегрировать в свою модель предсказаний.
Интересно, можно ли считать передачей ПД, если бы вы просто продавали что-то вроде обученной модели, которая отображала бы ПД (типа инн-паспорт-фио-др) в некие фичи.
Я при преподавании использую свою библиотеку «прозрачной визуализации отладки», https://github.com/belonesox/pyalgovisualizer (введение в разработку на ней тут → https://gitlab.ispras.ru/discopal/algo-visual/-/blob/master/contribution.md), вот короткий (10мин) доклад https://0x1.tv/20240629H (там идея, демо, и в частности — почему не manim не панацея), вот некоторые примеры → https://vimeo.com/showcase/10185384 (но смысл не в видеороликах, а в том, что студент в браузере может интерактивно разбираться в алгоритме).