Обновить
25
0

Пользователь

Отправить сообщение

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели11K

Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только), которые снижают шансы попасть в ML. Сегодня расскажу, как упорядочить инструменты data scientist'а, чтобы легко адаптироваться в специальности.

Введение

Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов.

Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах.

Узнаёте? Это частая реальность в области данных.

Вы не одиноки

Многие начинающие специалисты задают похожие вопросы:

Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат.

Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение?

Хорошая новость: для этих проблем уже есть решения.

На курсах об этом часто не говорят...

Подробный обзор Sipeed NanoKVM — IP KVM в любой компьютер

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели11K

Когда сервер завис или система не грузится, обычный удалённый доступ уже бесполезен. Нужен способ увидеть, что происходит прямо «на экране» машины, и управлять ею, будто сидишь перед ней с клавиатурой и мышью. Для этого и существует IP-KVM — коробочка, которая передаёт видео и управление компьютером по сети.

Sipeed делает свою версию такого устройства — компактную, открытую и недорогую. Она позволяет подключиться к компьютеру или серверу, даже если тот не загружается в операционную систему, и полностью им управлять, например, войти в BIOS, установить систему или просто перезапустить. По сути, это свой iLO или iDRAC, только без лишнего корпоративного веса и по доступной цене.

Протестируем эту железку далее в статье

Что такое MCP-сервер, и зачем он нужен

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели9.5K

Привет, Хабр! Меня зовут Андрей Слесаренко — frontend‑разработчик с опытом работы более 8 лет. Прошёл путь от джуна до тимлида, работал над разными высоко‑нагруженными проектами. В начале этого года начал активно использовать LLM‑агентов в повседневной работе — и за это время набил немало шишек.

В этой статье хочу поделиться своим опытом, где мои ожидания разошлись с результатом, а также рассказать об основных «шишках», которые я набил при работе с агентами.

Читать далее

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели19K

В прошлых статьях я разбирал основы апскейлинга дома и сходил с ума, вырезая закадровый смех из «Скуби-Ду». Тот опыт привёл меня к выводу: существующие инструменты, будь то плагины вроде NeatVideo или комбайны типа Topaz Video AI — это «чёрные ящики». У них ограниченный набор настроек, и они часто пасуют перед специфическими задачами старой анимации.

В этот раз я пошёл от обратного. Сразу снижу градус ожиданий: это любительский эксперимент. Мы сильно ограничены в мощности GPU (в наличии только RTX 4060 Ti), из-за чего натренировать реально точную, тяжелую нейросеть-универсала возможности нет.

Поэтому вместо гонки за идеальными метриками я сосредоточился на «неудобных» проблемах. Я написал симулятор уничтожения плёнки, чтобы научить легкую модель понимать физику конкретных дефектов: от сдвига эмульсии до химических ожогов.

Спойлер: на это ушло 2 месяца и 2 миллиона итераций. Получилась не «волшебная кнопка», а набор узкоспециализированных инструментов.

Читать далее

Страх и ненависть в подъезде. Видеоглазок из трубы и палок на raspberry pi

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

В последнее время в медиапространстве все больше новостей про умный дом и интегрируемые устройства. Я решил проверить, насколько сложно запилить собственный видеоглазок с блекджеком и жабами.
У нас есть: канализационная труба, бутлег raspberry pi, самая жалкая камера, которую только можно найти, много энтузиазма и опыт бекенд разработки. Думаю вы уже догадываетесь чем мы сейчас займемся...

Заглянуть в трубу

Spring MCP, лучший HTTP-клиент и поддержка MyBatis

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.8K

Amplicode 2025.3 — релиз про новые фичи для Spring Data JDBC, улучшения для HTTP-клиента Connekt (между прочим, убийца Postman), поддержку MyBatis и новые возможности по работе с инфраструктурой вокруг Kubernetes и Terraform.

Ниже — ключевые изменения по блокам.

Читать далее

Что умеет Nano Banana Pro и почему вы захотите научиться ей пользоваться

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Привет, меня зовут Пётр Толочков, я руковожу агентством кастомной разработки цифровых продуктов для бизнеса. 

В нашей команде есть полноценный ИИ-отдел, который тестирует новые технологии и ищет, как их применить в клиентских проектах. И мы не могли пройти мимо последней Nano banana.

С помощью новой модели мы сгенерировали фото на паспорт, составили схему приготовления блюда, получили рекомендации по доработке образа и стиля, реставрировали чёрно-белые фото.

В статье я поделюсь полным списком сценариев, который мы попробовали, и какой результат получили на выходе.

Читать далее

Patroni и логическая реплика в PostgreSQL: как не потерять данные при failover’е

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.8K

Если вы используете nofailover: true (а многие так и делают), Patroni не синхронизирует слоты логической репликации — и при переходе на реплику часть данных может исчезнуть навсегда. Рассказываем, почему и как фиксить.

Читать далее

Откуда берутся выключатели. Как мы разработали умные электроустановочные изделия AtlasDesign Smart

Время на прочтение15 мин
Охват и читатели12K

Салют, Хабр!

Я Иван, HW TPM Умного дома Sber — технический менеджер продукта в области хардвера. В этом году мы вместе с Systeme Electric (ex-Schneider Electric) выпустили линейку умных электроустановочных изделий AtlasDesign Smart: выключатели, розетки и термостаты тёплого пола. Это встраиваемые устройства с подключением по Zigbee-протоколу для тех, кто планирует масштабную автоматизацию своего дома.  

В этой статье хочу поделиться особенностями разработки и главными проблемами, с которыми пришлось столкнуться (всего мы насчитали 7). Расскажу, как мы уместили умную начинку в стандартный подрозетник, что даёт технология zero-crossing detection и почему дисплей умного термостата похож на бутерброд.

Читать далее

Настройка sing-box и Momo (TPROXY) на OpenWrt: быстрый и точный обход блокировок

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели12K

Статья объясняет, как настроить эффективное перенаправление трафика в sing-box на OpenWrt с использованием TPROXY. В отличие от решений вроде Podkop, метод позволяет гибко управлять трафиком, использовать сниффинг доменов, подключать внешние списки заблокированных сайтов и автоматически их обновлять.

Читать далее

Шпаргалка по настройке VPS на Debian/Ubuntu (2025)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели21K

Наконец-то я её доделал! Шпаргалка по настройке свежего Ubuntu/Debian VPS, которую начинал писать, когда ещё сам был новичком.

Вы только что купили сервер, а что дальше? Каждый раз я гуглил и пошагово делал одно и то же, тратил на это много времени, пока не собрал всё в одном месте. Теперь за 15–20 минут вы можете превратить «голый» VPS в безопасную и удобную машину.

Этот базовый минимум с чёткими командами и объяснениями. Никакого Ansible и сложностей — чистая ручная настройка. Подойдёт всем, кто только осваивает Linux, и каждый раз не знает, с чего начать.

Читать далее

Self-hosted связь со своей семьей

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели34K

Я сделал видеосвязь для семьи: один бинарник, домен, 200 рублей в месяц — и всё работает

Когда российское правительство начало блокировать звонки один за другим, я понял, что нужно что-то делать. Семья должна оставаться на связи — это не обсуждается. Но все популярные решения либо заблокированы, либо требуют VPN, либо сложны для установки, а также не дают полного контроля над данными.

Казалось бы, простая задача. Но оказалось, что даже в 2025 году создать полностью автономное решение для видеозвонков — это целое приключение.

Читать далее

Как оживить 10,000 мёртвых заметок с помощью Obsidian и Claude Code

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели13K

Как и многие, я люблю вести заметки. За годы накопилось более 10 000 — Evernote, Google Docs, голосовые записи. Каждый раз думаю: это пригодится. А потом забываю, что они вообще существуют.

Недавно я попробовал Claude Code — ИИ-ассистент от Anthropic, который работает в терминале и читает файлы на диске. Запустил его в папке с заметками — и мёртвые документы ожили. Расскажу как это работает и как настроить у себя.

Читать далее

Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!

Читать далее

Что такое LLMs.txt и LLMs-full.txt и как заставить AI знать документацию наизусть

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.9K

Мы привыкли к классическому набору любого сайта: robots.txt экономит ресурсы сервера, запрещая поисковикам сканировать мусорные страницы, а sitemap.xml, наоборот, скармливает поисковикам каждую доступную страницу для полной индексации.

Однако ситуация изменилась, когда сайты начали читать не только поисковые роботы, но и языковые модели. Для них существующие стандарты не подходят: sitemap избыточен и ресурсоёмок, а HTML-код создаёт слишком много шума.

Понадобился новый способ доставки актуального, очищенного контекста в сжатом виде специально для AI-агентов и языковых моделей.

В сентябре 2024 года Джереми Ховард (создатель fast.ai) предложил решение в виде стандарта /llms.txt. Давайте разберемся, как он работает, чем отличается от llms-full.txt, какую пользу из этого могут извлечь разработчики и как быстро добавить его поддержку в свой проект.

Читать далее

Postgresus 2.0: новая версия open source инструмента для резервного копирования PostgreSQL

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели13K

С момента первого релиза Postgresus прошло 6 месяцев. За это время проект получил 246 коммитов, новые функции, а также ~2.7 звёзд на GitHub и ~40к загрузок из Docker Hub. Сообщество проекта тоже подросло, сейчас в проекте числится 11 контрибьюторов, а группа в Telegram — 85 человек.

В этой статье я расскажу, что поменялось в проекте за полгода, какие новые возможности появились и какие планы дальше.

Читать далее

Очереди на PostgreSQL: антипаттерн или реальность жизни

Время на прочтение15 мин
Охват и читатели19K

Привет! Меня зовут Дима Кривопальцев, я тимлид бэкенд‑команды Яндекс Диска (Яндекс 360). Уже больше семи лет я занимаюсь разработкой высоконагруженных распределённых систем — и в статье расскажу об одной из них.

В Яндекс 360 есть сервисы с очень большими нагрузками — и по RPS, и по объёму хранимых данных, и по числу обрабатываемых асинхронных задач. Именно последняя часть — асинхронная обработка — будет в центре этого рассказа.

Тема может показаться немного провокационной: речь пойдёт об очередях поверх SQL‑баз, а в сообществе такое решение принято считать антипаттерном — и на это есть основания. На конференциях и в статьях обычно можно услышать скепсис: «Очередь на PostgreSQL? Не стоит даже пытаться». Действительно, подобных попыток было много, и почти все сталкивались с типовыми проблемами — от блокировок до деградации производительности.

Тем не менее, в реальности у многих крупных компаний всё равно есть свои очереди, построенные поверх SQL‑баз — как PostgreSQL, так и MySQL. Это решение встречается и в российских, и в зарубежных командах. Яндекс Диск здесь не исключение — у нас тоже есть своя реализация, о которой сегодня и пойдёт речь.

Читать далее

Как документировать GraphQL API: полное руководство для технических писателей

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели6.9K

GraphQL API — это мощно, но как его документировать, чтобы разработчики остались довольны? В этой статье — готовый план действий. Мы начнём со сравнения GraphQL и REST, затем покажем, как с помощью комментариев и примеров кода превратить схему в наглядное руководство. Вы узнаете, как улучшить GraphiQL Playground подсветкой синтаксиса и создать статический справочник, если Playground недоступен. В конце вас ждёт учебный репозиторий для тренировок на реальном API.

Читать далее

Глубокое погружение в архитектуру Kafka: от простых сценариев до геокластера

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели9.1K

Привет, Хабр! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие.

В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено. В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено.

Этот текст написан на основе моего доклада на конференции SaintHighload++ 2025 в Санкт Петербурге. Так что, если вы были там в качестве слушателя, информация не будет для вас новой. Впрочем, повтор полезного материала никогда не бывает лишним. Поехали!

Читать далее

(VLESS) VPN-клиент под Windows

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели41K

Недавно мне нужно было запустить VLESS-подписку под Windows, подружить её с рабочим VPN и всеми сопутствующими «прелестями». Попробовал v2rayN, Nekoray, Hiddify — и довольно быстро понял, что хочу написать собственный клиент.
Так появился singbox-launcher:
👉 https://github.com/Leadaxe/singbox-launcher

Ниже — немного подробностей, почему так и что получилось.

Читать далее
1
23 ...

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность