Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных.
Пользователь
Непреодолимая легкость повышения утилизации GPU
Привет, Хабр! Я Антон, DevOps-инженер в Selectel. В апреле у нас проходил ML-митап, где я и мой коллега, ML-Ops инженер Ефим Головин, рассказали, как подбираем конфигурацию ML-инфраструктуры и повышаем утилизацию GPU. Запись нашего выступления можно посмотреть на YouTube. Материал вышел интересным, поэтому мы решили оформить пересказ в текстовый формат.
В этой статье вы узнаете, как перенести лучшие практики из мира производства в сферу машинного обучения, подобрать конфигурацию вычислительной инфраструктуры под ML-нагрузки и максимально эффективно ее использовать. Впереди много интересного, так что давайте начнем!
Создаем Flutter-приложение для оплаты через СБП без натива
Всем привет! Меня зовут Мурат Насиров, я Flutter-разработчик в Friflex. Мы разрабатываем мобильные приложения для бизнеса и специализируемся на Flutter.
Ранее я поделился своим опытом, как интегрировать СБП при помощи нативных решений НСПК (Национальной системы платежных карт). В этой статье рассказываю, как можно сделать это при помощи Flutter-приложения и двух пакетов из pub.dev.
AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления
Небольшое интро, в котором многие себя узнают
Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка?
Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов?
А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный.
И вопрос работы с оттенками является важным не только при подборе гардероба.
Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов;
Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика;
Индустрия красоты: подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента;
Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний;
Реклама: создание ярких и запоминающихся материалов с учетом психологии восприятия цвета;
Автомобили и мотоциклы: поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.
Квест на Node.js — борьба с утечкой памяти. От диагностики до решения
Всем привет! Меня зовут Артём и я backend-разработчик компании SimbirSoft. На протяжении восьми лет я работаю на Node.js. Сегодня хочу поделиться опытом поиска утечек памяти при gRPC-вызовах в Node.js + Nest.js. В частности, речь пойдет об отладке утечки памяти при взаимодействии между микросервисами. Статья будет полезна backend-разработчикам, которые работают с Node.js и gRPC.
Несмотря на то, что в интернете много материалов про поиск утечек памяти, все реальные примеры сводятся к устранению искусственного глобального массива. Поэтому я решил рассказать о своем опыте.
Одной из задач, которую ставил перед нами клиент, был поиск и устранение утечки памяти при работе микросервисов. Задача была открыта уже давно, но не было четкого понимания, как ее решать. Судя по описанию, было несколько API, при вызове которых отделы DevOps и QA наблюдали сильный рост памяти при мониторинге системы и тестировании соответственно. В дополнении к REST API присутствовали gRPC-методы.
Продвинутые техники работы с промптами в Midjourney
Midjourney - это мощный инструмент для генерации изображений на основе текстовых описаний, известных как промпты. Его возможности поистине безграничны: от фотореалистичных пейзажей и портретов до сюрреалистических и абстрактных композиций. Однако для того, чтобы в полной мере раскрыть потенциал этого инструмента и получать желаемые результаты, необходимо освоить искусство составления эффективных промптов.
Правильно составленный промпт позволяет направлять нейросеть в нужное русло, задавать стиль, настроение и детали изображения. От качества промпта напрямую зависит качество и соответствие сгенерированных изображений вашему замыслу.
Цель данного гайда - познакомить вас с продвинутыми техниками работы с промптами в Midjourney. Независимо от того, являетесь ли вы художником, дизайнером или просто энтузиастом, стремящимся исследовать возможности Midjourney, этот гайд поможет вам вывести свои навыки работы с промптами на новый уровень. Надеемся, вы сможете найти в нем что-то новое для себя!
Приятного прочтения:)
Замена самых дешевых Wi-Fi реле Sonoff в освещении после 7 лет их использования в квартире
Семь лет назад, в 2017 году, я переделал обычную схему освещения в квартире, установив умные модули - для этого пришлось устанавливать распределительные коробки большего размера и частично менять проводку. Весь эксперимент проходил в двухкомнатной хрущевке и я описывал этот опыт на Хабре четыре года назад.
Уже тогда у меня были некоторые предпочтения: желание быть независимым от любых облачных сервисов; минимальная цена устройства; заводское изготовление этого модуля.
Тогда в 2017 году я наткнулся на двухканальные реле Electrodragon Relay Board ESP8266 (около 650 руб за 1 штуку сейчас) и одноканальные SONOFF BASIC R1 Wi-Fi (около 450 рублей за 1 штуку сейчас), а ещё тогда познакомился со свободной прошивкой Tasmota.
В комментариях к статье 2020 года, в которой описывал сделанную домашнюю автоматизацию было упоминание о том, что вместо умного дома лучше было потратить эти деньги на ремонт квартиры.
И вот, в конце 2023 года, решился на ремонт, который шел 16 недель и сжирал примерно по 22 593 ₽ рублей в неделю. Общая сумма затрат за период с 22.11.2023 по 13.03.2024 составила 361 491 ₽. Из них товаров куплено на 183 129 ₽, а работ выполнено на 173 862 ₽. При этом на умный дом затраты составили 19 939 ₽.
В этой статье хочу подробнее расписать именно про умный дом, потому что эта тема соответствует тематике Хабра.
Как после долгого простоя интернет-магазин стройматериалов вырос в 5 раз и заработал 23 млн в месяц
Как выиграть борьбу за покупателей стройматериалов в контекстной рекламе? В кейсе интернет-магазина стройматериалов расскажем, как изучили ЦА и сегментировали на 3 группы. Научились правильно работать с каждой. Придумали, отстроиться от конкурентов без УТП. Научили ИИ Яндекса игнорировать бесперспективных покупателей. А Мастера Кампаний — продавать со скидкой изделия из металла и увеличить средний чек. Запускали ретаргетинг с тающими ценами.
В целом, соединили инструменты маркетинга и Яндекс Директа, привлекли более выгодных покупателей в интернет-магазин стройматериалов и увеличили доход клиента в 5 раз с 4 до 23 млн.р., снизив ДРР с 41% до 14%.
Как мы победили техдолг в RuStore
Приветствую всех! На связи Михаил Емельянов, руководитель Android-направления в RuStore.
За последние два года наш проект достиг впечатляющих результатов: более 50 миллионов установок, около 40 тысяч приложений и более 10 тысяч разработчиков.
Однако быстрый рост не проходит без вызовов, включая такие проблемы, как технический долг. В этой статье я расскажу, как управлять техдолгом, не останавливая разработку новых фич.
Семь уроков для достижения стабильности при создании игр
Я часто пишу об играх, которые выходят на рынок с огромным успехом и продают 100 000 копий за первую неделю. Это фантастический результат, но гораздо больше инди-компаний были бы счастливы просто получать стабильный доход, позволяющий им делать больше игр. Возможно ли это? Неужели Steam дает только успех или провал, а не что-то среднее между ними?
Пакетная обработка в PostgreSQL
Привет, Хабр!
Пакетная обработка данных — это метод выполнения большого числа операций над данными за одно действие, а не по отдельности. С пакетной обработкой можно уменьшить время выполнения некоторых операций.
В PostgreSQL пакетная обработка реализуется с помощью массовых вставок, обновлений, удалений или переноса данных между таблицами .
В этой статье рассмотрим, как реализовать пакетную обработку в PostgreSQL.
Windows 11 Enterprise G – Что за издание для правительства Китая и зачем оно вам?
Сегодня я бы хотел рассказать вам немного информации об особенном, в чем-то уникальном издании, существующем в Windows 10 и Windows 11, выпускаемом Microsoft для китайского госсектора. Что такое Windows Enterprise G, она же Windows Enterprise Government China, чем она отличается от других изданий, и самое главное, как (и зачем) вам ее получить.
Эффективность Spring-приложений в рантайме. Текущее состояние дел и планы на будущее
Несмотря на то, что данная статья была опубликована более полугода назад, команда Spring АйО по-прежнему считает ее актуальной, важной и интересной.
Себастьян Делойзе, контрибьютор Spring Framework, делится обзором усилий команды Spring по оптимизации эффективности приложений во время выполнения. Он рассматривает Virtual Threads, GraalVM Native Image, Project CRaC, Project Leyden и всё это в контексте Spring!
Кластерное обучение нейросетей
Multi gpu training overview
Если обучение модели на одном графическом процессоре происходит слишком медленно или если веса модели не помещаются в VRAM, переход на обучение с несколькими графическими процессорами (или с несколькими устройствами с несколькими графическими процессорами в каждом) может быть целесообразным вариантом.
Ниже рассмотрим некоторые стратегии по масштабируемости обучения между несколькими GPU или нодами.
Глобально следует рассмотреть 3 сценария
Как защитить WebSocket соединение при помощи OpenAM и OpenIG
Данная статья является продолжением предыдущей статьи How to Add Authorization and Protect Your Application With OpenAM and OpenIG Stack. Предыдущая статья описывала, как защитить конечные точки приложение, работающие по стандартному HTTP протоколу. В этой статье мы добавим авторизацию на WebSocket соединение через OpenIG, используя аутентификацию OpenAM. Для упрощения установки и развертывания сервисов, мы будем использовать Docker и Docker Compose.
Дообучение модели GPT-2 (RUS) для генерации описаний заведений на основании названия, рубрики и оценки
В данной работе представлен процесс дообучения модели генерации текста на основе архитектуры GPT-2. Целью работы является демонстрация возможностей применения дообученной модели для генерации текстов, соответствующих определённым наименованиям заведений, рубрикам и оценкам, выставленных пользователями. Используя предварительно подготовленный датасет, который включал названия заведений, отношение к определённым рубрикам и рейтинг, мы обучили модель на генерацию описательных текстов, которые могли бы отражать характер и уровень заведений в зависимости от их оценочной характеристики.
Оземпик — как препарат от диабета стал средством для похудения?
Представьте, что у вас появилась волшебная таблетка, которая поможет вам за быстрое время сбросить вес. Но есть загвоздка - это препарат, который используется для лечения диабета 2 типа, а ещё он стоит, как чугунный мост.
На связи RISE: Сообщество про Ноотропы и Биохакинг. Из статьи вы узнаете как работает оземпик, какие подводные камни и есть ли смысл его покупать?
Дедупликация данных в Windows 10 и Windows 11 средствами Microsoft
Сегодня я кратко расскажу вам как включить дедупликацию данных в клиентских ОС - Windows 10 и Windows 11, добавив функционал из Windows Server, причем не какие-то сторонние бинарники, а оригинальные, подписанные файлы Microsoft, которые к тому же будут обновляться через Windows Update.
В этой статье не будет описания дедупликации данных, - разве что совсем кратко что это такое, и не будет сравнения решений разных вендоров. Я дам ниже ссылки на достойные, на мой взгляд, статьи других авторов и готов буду отвечать на вопросы, если их зададут ниже в виде комментария или в ПМ.
Начать знакомство рекомендую с базовой теории Введение в дедупликацию данных / Хабр (habr.com) от компании Veeam, затем почитать о том, что такое дедупликация Microsoft - Обзор и настройка средств дедупликации в Windows Server 2012 / Хабр (habr.com) - статья моего бывшего коллеги по Microsoft Георгия говорит о том, как настраивается дедупликация NTFS в Windows Server 2012. В последующих изданиях Windows Server 2012R2, 2016, 2019, 2022 и 2025 функционал развивался, появилась поддержка ReFS, стало возможно (неочевидным способом) дедуплицировать системный том, расширились компоненты управления, - но для конечного пользователя все остается там же. Установили одним кликом, включили для диска, забыли. В заключение подготовительной информации - тем кого действительно интересует кроссплатформенные решения и их сравнения, предложу ознакомиться со статьей Илии Карина - Dedup Windows vs Linux, MS снова “удивит”? / Хабр (habr.com) - его не должны заподозрить в рекламе Microsoft, его сравнение подходов, и результат меня самого удивил. У меня на такую большую исследовательскую работу сил и возможностей нет, - почитайте. И имейте в виду, что если вы используете последний Windows 11, то и компоненты дедупликации в нем будут последние, от Windows Server 2025, то есть с еще более впечатляющим результатом.
Как организовать безопасность контейнеров на базе Open Source
Привет Хабр! Меня зовут Татьяна Хуртина, и я программист в группе внутренней автоматизации ИБ VK. Недавно я выступала на киберфестивале PHDays c докладом про наш подход для мониторинга безопасности контейнеров. На примере опыта в inhouse-облаке Дзена я рассказала, как можно использовать open source решения, чтобы искать уязвимости в Runtime.
И сразу оговорюсь, что тут в понятие Runtime мы вкладываем мониторинг уязвимостей в запущенных в оркестраторе контейнерах в (почти что) реальном времени. Если перед вами стоит похожая задача, возможно, вам пригодится наш практический опыт. Публикую здесь ключевые мысли и схемы.
Pandas — НЕ для анализа данных (Используем Pandas для server-side рендеринга html)
В среде питонистов библиотека Pandas пользуется большой популярностью и по большей мере известна в контексте DataSciense и анализа данных. DataFrame пандас позволяет не только всячески манипулировать данными, но и выводить их в нужном формате, предоставляя широкие возможности для кастомизации. Например, использовали ли вы объекты класса Styler
, входящего в состав Pandas? Мне показалось интересным взглянуть на Pandas с этой стороны.
Информация
- В рейтинге
- 4 820-й
- Зарегистрирован
- Активность