В предыдущей статье мы обсудили стратегические паттерны, а теперь давайте углубимся в тактические. Важно помнить: в DDD тактика без стратегии теряет смысл! Если вы не знаете, как правильно разделить систему, отдел или предприятие на контексты и поддомены, ваши усилия, направленные на тактические паттерны, вряд ли принесут плоды. Стратегическое мышление в сочетании с тактическими подходами поможет создать эффективную и гибкую архитектуру, способную справляться с изменениями и требованиями бизнеса.
Пользователь
Введение в MLflow
MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.
Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-Банке
Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?
Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable ML). В статье расскажу, как мы упростили себе работу и часть рутинных задач, число которых росло как снежный ком с ростом количества применяемых моделей.
Как научить LLM понимать видео? Часть 2
Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.
Автономный картографический сервер с питанием от USB
Представьте себе: вы только что добрались до начала тропы, за многие километры от цивилизации, а приложение с картами на вашем смартфоне решило, что самое время уйти в оффлайн-режим. Статус приложения? Отключено. Обновления? Забудьте об этом. Память? Заполнена. Добро пожаловать на дикую природу, где ваш телефон потерян больше, чем вы сами.
Здесь на помощь приходит Backcountry Beacon — устройство с открытым исходным кодом, которое не зависит от Wi-Fi. В него предустановлены детализированные топографические карты USGS, которые не требуют обновлений; он оснащён надёжным GPS, точно определяющим ваше местоположение; а ещё он работает как простой файловый сервер, где можно хранить всё, что может понадобиться в походе, — будь то руководства по узлам, справочники растений или аудиокниги.
Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов
В новой работе исследователи из Корнеллского университета представляют «контекстные эмбеддинги документов» — технику, повышающую эффективность моделей эмбеддингов путем учета контекста, в котором извлекаются документы.
Как в Купере масштабировали машинное обучение и что из этого получилось
Не секрет, что ML‑модели требуют огромного количества данных. Информации не просто много, она организовывается в многообразные структуры, версионируется, употребляется разными моделями. Скорость обращения данных тоже критична, особенно для систем, взаимодействующих с пользователями в режиме реального времени.
При возросшей сложности не обойтись без специализированных инструментов, например Feature Store. Однако случается, что все решения на рынке не годятся по тем или иным причинам. Тогда приходится рассчитывать исключительно на свои силы.
Рассказываем, как в Купере внедрили Feast, хранилище признаков (Feature Store) с открытым исходным кодом. После прочтения вы познакомитесь с инструментом и сможете решить, подходит ли Feast для коммерческого использования. Подробности под катом!
Готовим по рецепту: CI/CD в MLOps
Всем привет! Меня зовут Роза и я MLOps-инженер в Купере. Под катом расскажу, как построить CI/CD-пайплайн для ML-приложений с нуля, поэтапно и без боли. Ну почти :)
Раньше очень часто работа DS-инженера заканчивалась на подготовке кода модели в Jupyter-ноутбуке, а дальше его подхватывали команды разработки и доводили до продакшена. У такого подхода есть минусы. Например, если произойдёт инцидент, непонятно кто ответственен за сервис — команда разработки или авторы ML-модели?
К счастью, культура разработки меняется: теперь ML-инженер — это специалист, который разрабатывает свой ML-сервис на всем пути от общения с бизнесом до продакшена. Этот подход хорошо описывает принцип «you build it, you run it»: кто построил модель, тот её и запускает. Как раз в этом здорово помогает CI/CD.
ИИ-агенты на основе больших языковых моделей для разработки: обзор
Краткий обзор и перевод исследования Large Language Model-Based Agents for Software Engineering: A Survey, которое посвящено применению интеллектуальных агентов на основе больших языковых моделей (LLM) в разработке. Авторы анализируют 106 работ, классифицируя их по задачам и архитектуре.
Примечание: в тексте LLM-агенты представлены в виде названия и номера в квадратных скобках, например CodeAct [85]. В разделе References оригинальной статьи можно найти названия исследований по каждому агенту по номеру.
Чистый код — дар или проклятие? Акт I. Конфронтация
Многие знакомы с концепцией чистого кода. Одни программисты поддерживают её, другие же считают, что она вредит индустрии. Кейси Муратори, относясь ко второй группе, заявил, что чистый код на самом деле является вредным советом для программистов, заботящихся о производительности. В этой статье рассмотрим спор между основоположником концепции Робертом Мартином и Кейси Муратори, чтобы разобраться в сути вопроса.
Внедряем DevSecOps в процесс разработки. Часть 5. Этап Deploy-time Checks, обзор инструментов
Привет! На связи Олег Казаков из Spectr.
В предыдущей части я рассказал о тестировании функционала на уязвимость до его попадания на продакшн. По итогам предыдущих статей мы можем проверить код на безопасность, собрать безопасные билды, проверить функционал на наличие уязвимостей. Теперь нам ничего не мешает развернуть данное приложение на продакшне.
Сегодня я расскажу о заключительном этапе DevSecOps — Deploy-time Checks.
Что можно узнать из текста в телеграмм-канале?
Два года назад я создал свой канал, где делился всем, что меня увлекает — от личных заметок и искусства до новостей Data Science и ИИ. За это время мой канал стал обширным хранилищем текстов, и я решил проанализировать их. Я применил статистический анализ, тематическое моделирование, нейросети и кластерный анализ, чтобы вытащить из данных как можно больше информации. В своей статье я подробно описываю весь процесс и делюсь полученными результатами.
Приглашаю вас на препарацию моих мыслей, заметок и идей!
А что если вместо банковского вклада использовать облигации после резкого повышения ставки Банком России?
Процентные ставки по вкладам сейчас очень высокие - Банк России публикует информацию о 17,11%, но что если вместо традиционных банковских депозитов использовать облигации для сбережения и получения дополнительного пассивного дохода от этого актива?
Какие у облигаций есть особенности?
📍 Покупать облигации всегда выгоднее, когда ключевая ставка высокая (сейчас 18%). В таких случаях рыночная цена облигаций будет ниже, а доходность к погашению - больше.
📍 При покупке облигаций доходность фиксирует на всё время владения облигациями до их погашения.
📍 Когда Банк России начнет снижать ставку, доходность облигаций начнет падать, а цена - расти, но доходность облигаций, которые уже куплены останется неизменной.
Четыре года назад я написал открытый скрипт, который обращается к API Московской биржи и создаёт выборку по полезным параметрам. Публичных сервисов в интернете по поиску облигаций довольно много, но особенностью моего скрипта стало то, что скрипт выдаёт небольшой список интересных вариантов, которые можно купить прямо сегодня и сейчас. Ведь на Мосбирже торгуется больше двух тысяч облигаций, однако большинство из них не ликвидны, то есть по ним нет или совсем мало предложений о продаже - купить их невозможно.
За эти годы скрипт регулярно менялся. Сейчас представляю его обновленную версию.
Magic bash script для установки драйверов Nvidia и CUDA (и Docker) в Ubuntu 22.04 и 24.04
Установка драйверов для видеокарт от Nvidia с одной стороны сейчас не вызывает столько проблем, как было еще 10–15 лет назад, с другой стороны если с драйверами еще как-то народ управляется, то вот работоспособную CUDA получить могут не все. У себя в HOSTKEY мы создали специальный скрипт, который пользователь может запустить самостоятельно и получить рабочее окружение для запускавсего — от PyTorch до Stable Diffusion и Ollama с поддержкой GPU.
Не JavaScript’ом единым: как фронтенд-разработчику затащить на собесе
Привет! Меня зовут Виталий, я тимлид в KTS, и за годы работы я провел больше 100 собеседований.
Кто-то на собеседовании от вас может ожидать знание 50-го аргумента функции callKek(), но это не мой подход, потому что в реальной жизни глубокого знания JavaScript не всегда бывает достаточно, а отдельные его тонкости и вовсе пригождаются крайне редко.
В статье я расскажу о своем подходе к найму сотрудников и поделюсь множеством рекомендаций тем, которые стоит изучить.
TypeScript что нового 5.5. Перевод. Часть 1
Всем привет, меня зовут Сергей, в этой статье я опубликую свой перевод официального анонса релиза TypeScript 5.5 версии, спасибо Dan Vanderkam за оригинал. Опыта в написании статей ранее не имел, переводы тоже не делал, решился внести свою лепту в сообщество Хабра. Открыт к критике, если первая часть понравится и в комментариях я увижу интерес к продолжению, то займусь выпуском следующих частей.
В первой части предлагаю ознакомиться с предикатами выводимого типа и то как всё это поменялось в TypeScript 5.5 версии, приступим!
TypeScript + React: путь к идеально типизированному коду
Частенько сталкиваются с проблемой поддержания типовой безопасности в React-проекте. Код разрастается, и управление типами становится всё сложнее. Ошибки, вызванные неправильной типизацией, приводят к крашам и длительным отладкам. Тогда приходит время внедрения TypeScript!
В статье рассмотрим как TypeScript может помочь решить проблемы с типизацией и сделать React-код идеально типизированным.
ТРИЗ глазами продакта и/или предпринимателя
• Как найти конкурентное преимущество там, где его нет?
• Как научиться мыслить эффективней конкурентов?
• Как систематизировать работу со стратегией?
• Как увидеть стеклянный потолок?
• Как он устроен и в чем механика его преодоления?
• Как системно подойти к взлому стеклянных потолков?
• Как определить что есть в активе?
• Как использовать внешние ресурсы, включая самих конкурентов?
• Как системно подойти к конкурентной борьбе на рынке?
Впервые прочитав книгу Генриха Сауловича Альтшуллера «Найти идею. Введение в ТРИЗ — теорию решения изобретательских задач», мне не давала покоя история о том, как он консультировал представителей стекольного производства:
Вопросы по Apache Spark к собеседованиям для Data Engineer
Рассмотрены разделы теории для прохождения блока технический собеседований на позицию Data Engineer по архитектуре и функционалу Apache Spark.
NER для начинающих: Простое объяснение с примерами на SpaCy
В этой статье мы подробно рассмотрим распознавание именованных сущностей (Named Entity Recognition, NER) и его применение на практике. Простым и доступным языком объясним, как работает NER, приведем примеры кода с использованием библиотеки SpaCy и покажем, как обучать модели для распознавания именованных сущностей. Эта статья поможет вам быстро освоить основы и начать применять NER в своих проектах!
Information
- Rating
- Does not participate
- Location
- Санкт-Петербург, Санкт-Петербург и область, Россия
- Registered
- Activity