Search
Write a publication
Pull to refresh
134
0
Стас Фомин @belonesox

Пользователь

Send message

Последние годы преподавания, распознав появления этих «около ИИ-проблем» (наряду с кучей других), пришел к некоторым эффективным практикам, про что есть статья и короткий доклад.

TLDR:

  • теоретически: уход от схоластики, «лекций и библиотек», задрачивания тестами (и прочего бихевиоризма c programmed learning), к constructionist learning с виртуальными лабораториями в броузере и интерактивными редактируемыми материалами, и целью учащихся — сделать самим «образовательный контент» в процессе своего понимания.

  • технически: code-server, программирование в броузере, юпитер-ноутбуки, симуляторы, разборы научных статей. ИИ можно использовать, он только разгрузит преподавателя.

Простите, а как это сделано? Камера отдает видеопоток по Firewire, а какое устройство его пишет? Я для такого использовал ноутбуки с dvgrab/gstreamer, а тут что-то явно проще.

Все материалы докладов (видео-слайды-тезисы) → https://0x1.tv/Category:OSDAY-2025
Плюс на круглом столе были вполне общехабровые темы про «ИИ который все[х] [не]заменит», и тяжелым трудом 💪👷 сделана из видео 🎬 «иллюстрированная эмопьеса» 🎭👥🌆 → https://0x1.tv/20250620A

У них опенсорс под Apache PL, т.е. вроде даже энфорсить ограничения на собственные сборки им нельзя, но есть какая-то EULA на стейбл-версии, что их нельзя использовать коммерчески (дурацкий подход, ну типа чтобы не поднимали массово сервисы, сбрасывая техподдержку на них). Есть ли ограничения как-то зашитые в обычном бинаре, надо посмотреть, постараюсь (если раскурю клиентапи, попробую больше сотни пользователей завести).

Ну вендорские утверждения что у них лучше я проскипаю, но с некстклаудом я так много поел ..., залипания всякие, пхп-проблемы, база-проблемы (особенно если масштабировать, кластера там выстраивать, знаю мучающихся с пг-кластером для некстклауда), … Я экспериментирую с личными данными, всякое тяжелое (фотки-видео) переношу на OCIS, его удобно поднять на любой тачке с кучей дисков, пробросить порт, и получить собственное большое хранилище. Напрямую их пока сравнивать не знаю как, часть у меня (часть личной ноуледж бейс, которую я шарю через публикацию министатей) у меня до сих пор в некстклауд, но тяжелое-личное перекидываю постепенно. Пока из проблем только какие-то странности в квотах на некие OCIS space ловил, но в целом «работает и каши не просит». Я думаю, вы можете очень быстро поднять и попробовать OCIS параллельно с NextCloud и сравнить на ваших сценариях.

«Зачем 2, когда есть 2 в одном?» — хреново и даже непривычно реализованная фича, не равно «два в одном», тем более с чатами — это конкуренция за клиент-внимание-пользовательский опыт, пользователи не будут держать еще один чат клиент на мобильных и десктопах, «боливар не вынесет двоих» (скайп вот слился). Насчет чатов в наших случаях, я понял, что бесполезно пытаться пока вытащить людей из телеграмма, и чтобы все не пропало, написал выкачивалку групповых чатов, чтобы хранить (в том же OCIS) и читать нормально в VSCode глазами (или нейросетями) переписку в markdown-файлах.

Да гошный он. Можно без докера, тупо скачиваете и запускаете бинарь ocis server (ну там сначала надо init сделать, чтобы
появились конфиги

$ tree .ocis
.ocis
├── config
│   ├── ocis.env
│   └── ocis.yaml

Никакой возни с PHP, базами, зависимостями и все таким. Пока из минусов — мобильный клиент owncloud хуже работает с автозагрузкой (фотки и т.п.) — некстклаудный индемпотентен, и умеет делить на подпапки по датам, надо бы как-то им это втолковать. Насчет опенсорсности у меня сходу не удалось скомпилить (подозрение, что часть гошных модулей в приватных репах гитхаба), но может это что-то временное, я не разбирался еще.

Идея как-то лочится на некстклауд для чатов только потому, что уже есть ключевой файлообмен на нем, как-то сомнительна — не лучше ли просто на том же SSO поднять WebRTC для звонков от jitsi и какой-нибудь рокетчат? Такое решение например будет работать, если сменить Nextcloud для файлообмена на Owncloud Infinity Scale (они таки переписали старое PHPшное на GO, и выглядит это перспективно).

По ссылке на конференцию там как и тут сухой анонс с строгой формой, и для тех кто не слышал об этой конфе может быть полезны материалы-тезисы-видео-обзоры прошлых лет, ну или хотя бы статья в википедии.

Что-то я в embox/platform не нашел «существующий темплейт riscv/minimal»...

Все-таки надо исправить удивительно сжигающий глаза тег «opensourse», который держат специально, как honeypot для ловли безграмотных копирайтеров. Кстати тут есть даже тег oseduconf, с некоторыми отчетами даже десятилетней давности, хотя не все отчеты ловятся по этому тегу. Ну и сама статья, скорее малоинформативный формальный пресс-релиз («ИИ, напиши пресс-релиз по аннотациям к конфе» → «ФИО рассказал о… заслушали доклад… goto 10»), стала бы полезной, если просто расставить ссылки с таймкодами на, например, вк-трансляцию (на рутуб как-то совсем зашквар) на все упомянутые доклады.

«аплифт +1.8 пунктов» — а насколько это круто, это заметное улучшение? Сколько там обычно «пунктовджини»?

В российском продакт-менеджменте под CustDev’ом чаще всего понимается другое значение. «Кастдевом» у нас чаще всего называют этап «глубинных интервью»

«
— Да, те, кто работают на западную аудиторию и общаются с продуктовым коммьюнити давно знают, что термин CusDev существует только в России)) Проблема только в том, что Россия поставляет 0,01% единорогов на мировой рынок бизнеса (если не меньше). Поэтому трижды подумайте о пользе кастдева))

— после того как я 10 лет проработала в компаниях, где был целый отдел кастомер девелопмент, который адаптировал (дорабатывал) наш продукт под нужды конкретного крупного заказчика, была крайне удивлена, что кастдевом называют интервью)

— … забавно неудоумение продактов из ru-спикинг коммьюнити о том, почему так тяжело попасть на нормальную позицию в американские компании. Может быть потому, что на собеседовании западные коллеги не могут понять смысл половины из "модных" продуктовых слов, которые называют наши коллеги
»© (ProductCamp Russia&EE)

Ну, конечно, после релокации народу там стало поменьше, но там несравненное с ни кем из перепаковщиков количество специалистов по виртуализации, контейнерам, ядру. И очень прочное тестирование, включая перформанс тестинг. Гипервизор KVM с патчами, контейнеры свои (но с глубоким пониманием), за сторадж не поручусь, но остальное на мировом уровне.

«Р-» и прочая росплатформа — это виртуоззо. Совсем неплохо, по сравнению с перелейбелингами опенсорсных OpenStack/OpenNebula/Proxmox/OVirt (все остальные импортозамещения).

Был опыт использования на одной миниконференции, когда для удаленных докладов орги решили использовать это.

Наблюдалось (на нескольких броузерах, в течении нескольких дней)

  • «фриз видео» всех участников, кроме того, кого прибивают гвоздями в режиме «закрепить участника» — но тогда нельзя шарить экран. Т.е. тупой режим «экран» плюс «голова» обычно приводил к зависшему виде «головы».

  • a насчет шаринга экрана… по сравнению скажем, с Jitsi, где окно шаринга экрана докладчика можно сделать на весь экран, и даже больше (если использовать функцию pop-out-video современных броузеров), здесь верстка забита гвоздями (сайдбары со всех сторон, панели, какой-то неубираемый мусор), на видео экрана остается меньше половины площади, может даже меньше

  • что-то как-то хуже было со звуком, чем в jitsi, но не уверен (странный зал, странное оборудование, надо проверить, может можно вырулить настройками).

Ну, long story short → я вижу эффективное техдокументирование близким к LaTeX-процессу, где есть код и предпросмотр, между ними легко перепрыгивать, код может «включать» другой код и шаблоны. Разве что заменить LaTeX-разметку (которая не для людей) на Markdown, а PDF-предпросмотр (кому теперь нужны страницы) на HTML-предпросмотр. Вот как это выглядит за 30 секунд.

Я это сделал на Pandoc, но контрибуция в Haskell-сорсы для меня мучительна, а экстеншны не всегда удобно там подключаются... Но в целом, реализуемо (там масса тонкостей, как обрабатывать формулы, как...).

Не хочу вас сейчас в это толкать (вдруг я склоняю вас к NIH-переизобретению-велосипедов), но может когда-нибудь... Ну разве что сейчас на уровне архитектуры наверно надо подумать о подключении экстеншнов, и опциональной информации «в исходном файле этот обьект был на такой строчке такого файла» и может, тут как-то форсить на мировом уровне для маркдауна спецификацию стандартного способа как «включать другие файлы».

Сорри за ночной невнятный вопрос от любителя (пробовал когда-то давно детские датасеты на скоринг именно всякими *бустами, обещаю поотлаживать на свежую голову ваши примеры, но там вроде скоринга нет), но пока пытаюсь понять качественно, что у вас произошло (поправьте если совсем неправ).

Т.е. кто-то пробовал обычный градбустинг на «исходном датасете», и получил видимо что-то ниже roc_auc ~ 0.6 (и наверно сильно ниже, раз те метрики что у вас как бы успех), что наверно было мало (не в курсе «стандартов по скорингу», но как раз недавно видел статью про что-то похожее на проде, причем с совсем небольшим количеством атрибутов и там гордились AUC ~ 0.82-0.86).

С классификацией того исходного же датасета нейронками наверно тоже было не лучше (раз понадобились графы).

Вы подтащили всевозможные связи «объектов» (родственные, коллеги, что у вас там), жадно, на три рукопожатия, и вроде как «информация о метках» обучающего датасета как-то передалась-связалась с ними (ну что вроде логично, банкротятся семьями, фейл компании фейлит работников и т.п.).

Т.е. вроде как получается, что улучшение метрик физически произошло только за счет того, что вот часть этих «подтянутых и зараженных близостью к дефолту» попали именно на тестовый датасет? Насколько вы улучшили данные по сравнению с тем же исходным бустингом на исходном датасете? Может можно было просто какие-то атрибуты типа «близость к банкроту» ввести и в тот же бустинг тоже улучшился бы без нейросетей и вот этих библиотек?

Посмотрел, пока непонятно, это только «изоморфная конвертация» или все таки будет «техписательство»
Наверное проект еще молодой, заброшу ожидания того, кто использует pandoc-пайплайны для технического документирования (может когда-нибудь получится, или сразу напишете, что это против вижена проекта):

  • синхронизация исходников с результатом (что-то типа «source-pos» в pandoc)

  • включение одних документов в другие (типа разных include-фильтров pandoc, но если это будет из коробки — лучше).

  • подстановки шаблонов/cущностей...

и я так понял, плагинов не планируется?

Насколько я понял, вы на стороне телекома — но самому телекому прогнозы о банкростве без надобности — перестанет платить, ну и ладно, отключим. Наверное вы хотите на своих данных какой-то сервис для всяких кредитных организаций, чтобы по паспорту или инн (которые у вас есть и легко заматчить) выдавать ваше предсказание? Если так, то тут вроде возникает кроссбордерная передача ПД (персданных). Да и финмоделлерам из КО более интересно было бы не ваше предсказание, а вот ваши телекомфичи по пользователю, чтобы интегрировать в свою модель предсказаний.

Интересно, можно ли считать передачей ПД, если бы вы просто продавали что-то вроде обученной модели, которая отображала бы ПД (типа инн-паспорт-фио-др) в некие фичи.

Я при преподавании использую свою библиотеку «прозрачной визуализации отладки», https://github.com/belonesox/pyalgovisualizer (введение в разработку на ней тут → https://gitlab.ispras.ru/discopal/algo-visual/-/blob/master/contribution.md), вот короткий (10мин) доклад https://0x1.tv/20240629H (там идея, демо, и в частности — почему не manim не панацея), вот некоторые примеры → https://vimeo.com/showcase/10185384 (но смысл не в видеороликах, а в том, что студент в браузере может интерактивно разбираться в алгоритме).

1
23 ...

Information

Rating
8,078-th
Location
Россия
Date of birth
Registered
Activity