Обновить

Все потоки

Сначала показывать
Порог рейтинга
Уровень сложности

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели11K

Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только), которые снижают шансы попасть в ML. Сегодня расскажу, как упорядочить инструменты data scientist'а, чтобы легко адаптироваться в специальности.

Введение

Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов.

Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах.

Узнаёте? Это частая реальность в области данных.

Вы не одиноки

Многие начинающие специалисты задают похожие вопросы:

Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат.

Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение?

Хорошая новость: для этих проблем уже есть решения.

На курсах об этом часто не говорят...

Как информационная служба Хабра провела 2025 год

Время на прочтение11 мин
Охват и читатели9.3K

Добрый тёплый вечер, Хабр! Как быстро летит время. На календаре уже двадцатые числа декабря 2025 года, и совсем скоро Новый год. За последние 12 месяцев в мире нашлось большое количество технических инфоповодов и IT-событий, обновлений ПО, случалось появление новых технологий, произошло развитие электроники и масштабный приход ИИ-сервисов в нашу жизнь, включая различные вариации чат-ботов, бум нейросетей и ИИ-агентов. Большую часть этих событий постаралась запечатлеть команда информационной службы Хабра. А вы, как пользователи этого технического ресурса, оценивали и комментировали новости, переводы и лонгриды, а также помогали нам развиваться в этом году, комментируя, критикуя, оценивая публикации и присылая в ЛС сообщения об ошибках или неточностях в материале.

Читать далее

Обезличивание не по приказу — новый сезон подкаста Crosscheck

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели9.3K

Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.

Читать далее

Больше ядер, а не более быстрые ядра

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели12K

Команда Spring АйО подготовила перевод статьи в которой автор разбирает, где параллельные стримы действительно масштабируются, а где создают накладные расходы, конкуренцию за ресурсы и иллюзию производительности. Коротко: сначала аналитика и измерения, потом — параллелизм.

Читать далее

Разделяй и тестируй: @DataJpaTest и @WebMvcTest для быстрых тестов Spring Boot

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.2K

Привет, Хабр! Cегодня рассмотрим, как ускорить интеграционные тесты в Spring Boot с помощью специальных slice аннотаций.

Начнём с того, почему вообще тесты могут быть медленными. Используя @SpringBootTest, мы просим Spring Boot поднять весь контекст приложения для каждого тестового класса. У нас доступны все бины, но часто все это избыточно. Например, хочется протестировать контроллер, а Spring загружает ещё и базу данных, и сервисы, и шлёт запросы к Kafka. В результате простой тест метода контроллера может запускаться несколько секунд, пока поднимется веб‑сервер, инициализируется база, подтянутся все классы.

Эту проблему осознали и добавили так называемые test slice‑аннотации. Все простоб грузим не весь контекст, а только срез приложения, например, только веб‑слой или только слой доступа к данным. Spring Boot содержит готовые slice‑аннотации для основных слоёв: @WebMvcTest для веб, @DataJpaTest для JPA‑репозиториев, и ещё пачку для других случаев.

Рассмотрим на примерах двух интересных слайса: @DataJpaTest и @WebMvcTest.

Читать далее

Индикация раскладки клавиатуры подсветкой — решение для GNOME

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели16K

Несмотря на весь технический прогресс IT, мне за всё время так и не удалось повстречать убедительное решение проблемы ввода «ghbdtn» вместо «привет» или «lf» вместо «да» — путаницы с раскладкой клавиатуры при наборе текста.

Предлагаю свой вариант — менять в зависимости от раскладки цвет всей подсветки клавиатуры. С таким подходом куда бы вы ни смотрели перед компьютером, подсветка будет хорошо заметна периферийным зрением, и вы всегда будете знать какая раскладка выбрана.

Я опишу реализацию решения для среды рабочего стола GNOME, проверенное на дистрибутивах Fedora 43 и Ubuntu 24.04.

Читать далее

Основные тенденции и векторы роста промышленных сетей в 2026 году

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.4K

Коллеги приветствую, 2025 год подходит к концу — самое время осмыслить, в каком направлении развивать промышленные электронные устройства, какие сетевые технологии закладывать в новые проекты и на какие тренды стоит обратить особое внимание в новом году. Какие изменения принес прошедший год и к чему следует готовиться в наступающем? Предлагаю оглянуться на ключевые события 2025 года и определить ориентиры развития промышленных сетей на ближайшую перспективу.

Аналитика рынка промышленных сетей.

Поговорим о рынке промышленных сетей. Регулярную и глубокую аналитику в этой области публикует HMS — международная компания, специализирующаяся на промышленных информационных и коммуникационных технологиях. В статье не будет обзоров от McKinsey — только прикладная, выверенная аналитика от экспертов, чья экспертиза подтверждена годами практики.

Рынок промышленных сетей формируется не громкими публикациями про IoT/IIoT и не усилиями маркетологов. Его формируют ключевые игроки отрасли — лидеры, которые создают профильные организации (ODVA - EtherNet/IP, CLPA - CC Link, PI - PROFINET/PROFIBUS/IO-Link и др.), разрабатывают стандарты и фактически устанавливают правила игры. По своей структуре это олигополистический рынок, во многом сопоставимый с картельной моделью: именно лидеры определяют направления и темпы развития. В индустриальном сегменте не рынок диктует лидерам, что делать, а лидеры управляют рынком. 

Читать далее

Основы оптического потока в ML: от первых принципов к уравнениям Лукаса-Канаде и Хорна-Шанка

Уровень сложностиСложный
Время на прочтение37 мин
Охват и читатели7.5K

Аннотация

Настоящая статья представляет собой развернутое исследование, посвященное систематическому изучению классических алгоритмов оценки оптического потока — фундаментальной задачи компьютерного зрения. Основной целью работы является последовательный и строгий вывод ключевых методов, начиная от базовых физических постулатов и заканчивая завершенными, готовыми к реализации математическими моделями. В центре внимания находится уравнение ограничения оптического потока, выводимое из краеугольного предположения о постоянстве яркости, и два основополагающих, принципиально различных подхода к решению этой недоопределенной задачи: локальный метод Лукаса-Канаде, основанный на предположении о пространственной согласованности потока в малой окрестности, и глобальный метод Хорна-Шанка, вводящий условие плавности (гладкости) потока в виде регуляризирующего функционала. Подробно анализируются теоретические основания каждого подхода, их математический аппарат, включая вывод и решение соответствующих систем уравнений, а также проводится сравнительный анализ их сильных сторон и присущих им фундаментальных ограничений, таких как проблема апертуры и чувствительность к нарушениям исходных предположений.

Практическая значимость и верификация теоретических положений исследования обеспечиваются детальной численной реализацией обоих алгоритмов в среде MATLAB. Экспериментальная часть включает генерацию и обработку синтетических последовательностей с заведомо известным вектором движения для объективной количественной оценки точности, а также тестирование на реальных видеоданных для анализа устойчивости в условиях шумов, изменений освещенности и текстуры. Проведенное сравнение визуализирует ключевые различия в характере получаемых полей потока (разреженное против плотного), оценивает вычислительную эффективность и робастность методов в различных сценариях.

Читать далее

Практическая оптимизация React: ререндеры, Context, списки, INP и code splitting

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели8.7K


Оптимизация в React почти всегда сводится к двум факторам: объёму работы, которую выполняет JavaScript, и частоте (а также «стоимости») перерисовок компонентов. Сам React работает достаточно быстро, но в крупных интерфейсах даже небольшие архитектурные промахи и на первый взгляд безобидные ререндеры начинают заметно бить по производительности.

В данной статье мы расскажем про ключевые подходы к оптимизации React-приложений: как уменьшить количество лишних ререндеров, сократить объём вычислений при вводе и скролле и снизить нагрузку стартового JavaScript.

Читать далее

Архитектурное ревью, или Как согласовать проект с ИБ с первого раза

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.6K

Наверняка вы сталкивались с проблемой согласования фичи со службой безопасности. В большинстве случаев этот процесс превращается в головную боль для программиста из-за множества непонятных этапов и деталей.

Регулярно встречая подобные проблемы в своей работе, мы во Flowwow решили внедрить процесс, который помог не только снизить на треть количество времени на анализ корневых причин сложных инцидентов, но и значительно упростить согласование фич для программистов. Этот процесс получил кодовое название ADR.

Читать далее

Как нанимать как Google и Amazon: Топ-5 простых лайфхаков, которые бесплатно ускоряют найм

Время на прочтение3 мин
Охват и читатели7.2K

Не знаю как вам, но мне из каждого утюга кричат про оптимизацию процесса найма, как ИИ на это влияет, дорогущие ATS платформы во всех каналах коммуникации пишут о том, что только миллионные решение смогут улучшить разные HR-метрики.

А я же сейчас сделала свой продукт «Hire.OS» - внедрение работающих процессов найма для небольших компаний (простите, за минуту саморекламы) и в сфере моих интересов встали не крупные корпоративные штуки для рекрутинга, а простые лайфхаки, которые узнал, внедрил, измерил и вуаля... работает.

Я решила такие фишки украсть выучить у топ компаний мира. (Мемы не несут в себе пользу, но я хотела повеселиться)

Что ж, поехали

Читать далее

Как работают календарные системы. Создаём свой календарь

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.6K

Не для кого не секрет, что мы сейчас пользуемся григорианским календарём введённым после Октябрьской революции большевиками, но празднуем христианские праздники по юлианскому календарю, который отличается от григорианского на 13 дней. Но почему так происходит? Давайте разбираться.

Читать далее

Как поменять антивирусный движок и не дать ему съесть всю память

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.9K

Привет, Хабр! Меня зовут Максим Галаганов, я ведущий разработчик систем доставки почты в Mail. Занимаюсь в основном почтовым сервером, но сегодня расскажу о другой задаче — как мы меняли вендора антивирусного решения. API нового решения кардинально отличался от старого, и пришлось изрядно поизобретать, чтобы всё заработало.

Расскажу о миграции по порядку: с чего начинали, какие проблемы возникли в процессе, как их решали. Поделюсь опытом эксплуатации — на что смотрим в проде. И в конце — выводы и рекомендации для тех, кому предстоит подобная задача.

Читать далее

Ближайшие события

Как мы первыми в России научились заселять в отель без паспорта — по лицу

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.4K

Привет, Хабр! 

Меня зовут Константин Евсеев, я тружусь в компании VisionLabs, которая специализируется на технологиях биометрии и компьютерного зрения. В этом посте расскажу о проекте, к воплощению которого я хотел приложить руку еще за четыре года до его появления. Конкретно — о разработке системы для заселения в отель по биометрии. Почему? Все просто: если ты инженер и видишь, что что-то можно улучшить, то руки чешутся, пока не сделаешь. 

Читать далее

NVIDIA открыла исходный код KAI Scheduler — планировщика, ранее использовавшегося в платформе Run:ai

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8K

Весной этого года NVIDIA открыла исходный код KAI Scheduler — Kubernetes-нативного планировщика GPU-нагрузок, который раньше входил в состав платформы Run:ai и теперь распространяется под лицензией Apache 2.0. Интерес к этому проекту закономерен: планировщик давно работает в продакшене и решает ряд проблем, с которыми сталкивается любая команда, пытающаяся эффективно распределять GPU-ресурсы в кластере.

Мы в Orion soft изучили технические детали KAI Scheduler, чтобы понять, как он устроен изнутри, какие задачи закрывает и какие идеи могут быть полезны инженерам, работающим с Kubernetes, ML-нагрузками и распределёнными GPU-оркестраторами. Ниже — разбор архитектуры, базовых сущностей и цикла планирования.Преимущества KAI Scheduler

Управление AI-нагрузками на GPU и CPU сталкивается с рядом задач, которые традиционные планировщики ресурсов не всегда способны решать. KAI Scheduler был разработан специально для того, чтобы закрыть эти проблемы:

Читать далее

Несколько советов о том, как «съехать» с западных решений коммуникации

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.3K

В последние годы российским компаниям, особенно из государственного и окологосударственного сектора, приходится отказываться от западных платформ корпоративных коммуникаций: Zoom, Microsoft Teams, Cisco Webex и других. Причины известны: санкции, невозможность официальной оплаты зарубежных сервисов, и самое главное – требования нормативных актов: по импортозамещению (№44-ФЗ и №223-ФЗ), запрет на использование иностранных мессенджеров в ряде организаций (№41-ФЗ и др.) и указы Президента №166 и №250.

Рассмотрим пошаговый сценарий перехода на отечественные решения: от оценки текущей ИТ-инфраструктуры до внедрения безопасного, отечественного канала связи.

Читать далее

Эти подростки уже управляют собственными ИИ-стартапами: от дистрибуции сладостей до финансовой аналитики

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Подростки с брекетами, уроками до обеда и собственными AI-стартапами с десятками тысяч пользователей — это не фантастический сюжет, а новая реальность Кремниевой долины. The Wall Street Journal разбирается, как искусственный интеллект радикально снизил порог входа в предпринимательство и почему сегодня основатели компаний всё чаще оказываются школьниками. Под катом — перевод материала WSJ о самом молодом поколении фаундеров, которые уже сейчас строят бизнесы на базе ИИ.

Читать далее

Как AI ускоряет создание контента на маркетплейсах: наш опыт и инсайты

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.3K

Привет, Хабр! Меня зовут Юля, я работаю в команде клиентских сервисов в кластере CMS. Это системы, которые помогают ретушёрам, модераторам и другим специалистам просто управлять контентом на витринах Самоката и Мегамаркета.

В этой статье я расскажу про особенный проект — виртуальную фотосъёмку. Мы делали её для продавцов, чтобы они могли быстрее выводить карточки товаров на витрину и не тратить время на долгие фотосессии. Поделюсь, с чего все начиналось, как проходил процесс проектирования и какие решения к этому привели.

Читать далее

Топ-7 нейросетей для транскрибации аудио в текст: обзор лучших AI-моделей для быстрой и точной расшифровки

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели9.1K

Недавно по работе мне попался огромный аудиофайл с несколькими часами интервью. И сразу стало понятно: расшифровывать это вручную всё равно что пытаться проглотить слона целиком. Сначала я почти готов был вооружиться кофеином и терпением, но потом меня осенило - а что если доверить это нейросетям?

И действительно, современные ИИ-технологии умеют превращать речь в текст. В этой статье мы разберём, как такие системы работают, какие есть популярные модели и сервисы, и почему современная транскрибация с помощью нейросетей может быть не только быстрой, но и слегка увлекательной.

Приятного чтения!

Читать далее

35 млн рублей, акции Tesla и 4 млн пользователей. Продуктовый разбор игровой акции GiftFest

Время на прочтение7 мин
Охват и читатели6.4K

35 миллионов рублей.
Акции Tesla, NVIDIA и Google.
Миллионы пользователей в Telegram-mini-app.

И при этом — ни внятного описания организаторов, ни нормальной документации, ни ответа на вопрос, как именно победителям будут выдавать акции крупных компаний.

GiftFest выглядит как очередной розыгрыш с жирным призовым фондом.
И в то же время это аккуратно собранный инструмент управления вниманием, поведением и трафиком.

Ниже — продуктовый разбор того, как именно работает эта геймификация и какие задачи она решает для бизнеса.

Читать далее