Как уведомить Роскомнадзор об обработке персональных данных?
На Хабр вышла наша статья, прочтение которой поможет корректно подать уведомление в Роскомнадзор о намерении обрабатывать персональные данные. Особенно она будет полезна для ИТ-компаний и стартапов.
Присоединяйтесь к вебинару, и вы узнаете, как получать больше выгоды за рекомендацию решений Cloud.ru 💸
📆 Когда: 17 июня в 11:00 мск
📍 Где: онлайн
Реферальная программа Cloud.ru — это возможность получать стабильный доход, рекомендуя облачные сервисы. За каждого привлеченного клиента партнер получает процент от суммы его чеков, а клиент — бонусные рубли.
Недавно мы обновили условия реферальной программы, чтобы вы могли еще выгоднее рекомендовать сервисы клиентам, коллегам или друзьям. На вебинаре мы расскажем:
про новые условия программы: сколько теперь вы сможете зарабатывать вместе с Cloud.ru;
про сценарии использования сервисов: как предлагать решения и какие вопросы задавать для выявления потребностей;
как подключиться к программе: пошаговая инструкция и сопровождение от наших сотрудников;
кейс реального партнера — как он привлекает клиентов, оптимизирует доход и взаимодействует с Cloud.ru.
Кому будет полезно: разработчикам частного ПО, DevOps-инженерам, системным интеграторам, IT-консультантам, маркетинговым агентствам, веб-студиям и всем, кто хочет монетизировать свои знания и предлагать клиентам надежные облачные решения.
АГЕНТНАЯ ЭКОНОМИКА. Микро-дайджест недели. Интересные мысли.
Дайджест по материалам Fast Company, Venture Beat, The Atlantic,
Как Open AI страхуется от возможного замедления интереса со стороны инвесторов к появлению AGI и ASI
OpenAI представляет собой ярчайший пример того, как компании, ориентированные на искусственный интеллект, могут эволюционировать, чтобы выжить.
Самые мощные технологические компании добиваются успеха не только благодаря своим индивидуальным программным продуктам и гаджетам, но и за счет создания экосистем связанных сервисов.
OpenAI можно рассматривать как еще одну технологическую компанию, идущую по стопам Meta, Apple и Google, стремящуюся не просто вдохновлять пользователей новыми открытиями, но и удерживать их в линейке бесконечно обновляемых продуктов.
А это значит ровно то, что они способны убить немало стартапов своими планами развития.
С другой стороны, AGI это довольно условный термин...
Если бы показать сегодняшний Chat GPT людям в 2020 году, многие бы тогда сказали, что это AGI.
По сути Сэм Альтман в своем интервью на Snowflake Summit 2025 говорит, что кривая роста когнитивности моделей останется в том виде в котором мы ее наблюдали последние годы, по крайней мере в течение следующих 5 лет. Я давал ссылку на это интервью в прошлом дайджесте, прочитайте, там очень много интересных мыслей.
В тоже время, откуда совсем не ждали:
Даже если волна ИИ не заменит вас и вашу роль, она может заменить место вашей работы.
Бизнес может попасть под гораздо больший удар, чем сами люди. Т.е. потерять работу можно быстрее не потому что вас сократят, а потому что у компании, в которой вы работаете, какой-нибудь Айвентор (технологический предприниматель нового поколения) просто отберет долю рынка. AI isn’t coming for your job, it's coming for your company
Старый интернет был создан для людей. Новый будет создан для ИИ-агентов.
Агенты уже пытаются работать в мире, созданном человеком. Нажимают кнопки. Перетаскивают курсоры. Заполняют формы.
Но это как надеть на робота перчатку и сказать ему притвориться, что у него есть пальцы. Пока это работает, но это дико неэффективно!
Потому что через пять лет это будет не человек, нажимающий «купить сейчас». Это будет ваш агент на базе искусственного интеллекта, действующий от вашего имени, принимающий сотни решений в день, и не только о покупках, но и о планировании встреч, бронировании поездок, просмотре контента и обсуждении услуг во всех областях цифровой жизни. Agent-based computing is outgrowing the web as we know it
Уже писал об этом пару недель назад, и эта тема оч активно развивается в сети.
Подписывайтесь, чтобы не пропустить дайджест в ленте, если такие мысли по теме вам интересны. Я пока экспериментирую со временем публикаций.
Выбрать облачный сервис с помощью ИИ не отходя от кассы
Когда заходите на наш сайт, можете увидеть симпатичный розовый шарик, который предлагает помочь в создании готовой инфры.
Через него можно ввести запрос и получить от нейронки варианты сборки, которые мы можем предложить для бизнеса и личного пользования (кстати, такая фича есть только у нашего облака 😏).
Пример: Подобрать отказоустойчивую облачную инфраструктуру для SaaS-платформы с 50 000 активных пользователей в сутки.
ИИ-помощник сразу даст варианты сборки и ее конечную стоимость. Нужен кастом? Тогда можете написать сюда.
Лайфхак: Советуем проверить актуальные решения, даже если вы уже юзаете наши сервисы в облаке — вдруг появилось что-то покруче?
BSONError: Invalid UTF-8 string in BSON document
BSONError: bad embedded document length in bson
Документы в базе нормальные. Ошибки появлялись только при включённом Xray с WARP (через встроенный WireGuard). Когда VPN отключён — всё читается корректно.
Поначалу думал, что что-то с кодировкой или драйвером, но оказалось, что проблема в том, что Mongo работала через Cloudflare WARP.
Когда запросов было мало — срабатывало нормально.
Когда запускался алгоритм и начинались частые обращения к базе — Mongo валился с ошибками BSON.
Причина — искажение бинарного трафика при передаче через WARP.
Mongo использует бинарный протокол BSON, и даже один сбитый байт ломает парсинг.
Пофиксил так:
добавил в routing.rules Xray правило, чтобы трафик к Mongo шёл мимо WARP:
Давненько не было постов! Теперь посты будут выходить намного чаще, поэтому ждите интересный контент! Сегодня хочу с Вами поделиться своими наблюдениями по самым распространенным страхам при входе или же в начале карьеры в IT, а также конечно же расскажу, как с ними бороться!
Поехали!
Большие деньги - большая ответственность, я еще немного поучусь и можно ходить на собеседования
Самое частое заблуждение и страх - это то, что я не до конца изучил материал и мне рано идти на собеседования. IT действительно кажется сложной сферой, особенно на старте. Куча непонятных терминов, новые технологии, быстрая смена трендов. Главное — не пытаться сразу охватить всё. Дроби путь на маленькие шаги: сначала разберись в основах, потом усложняй задачи.
Признайте, что никто не знает всего, даже сеньоры постоянно гуглят и учатся. Учись радоваться прогрессу, пусть даже небольшому — это отличный способ победить страх перед сложностью. Я часто на работе вижу людей, которые знают намного меньше меня, но при этом зарабатывают больше денег. Думаете, что они думают про это?
Убейте в себе внутреннего "отличника", который хочет всё идеально знать. Начните действовать как можно раньше, ведь главный наш ресурс - это время. Если не начнете ходить по собеседованиям сейчас, то потом может стать поздно!
Я слишком стар/молод/у меня нет профильного образования
Это миф. В IT реально можно войти в любом возрасте и с любым бэкграундом. Большинство компаний смотрит на твои навыки и то, как ты решаешь задачи, а не на диплом. Например у меня еще ни разу не спрашивали про мой диплом и про моё образование, но при этом огромное кол-во людей верит в то, что реально нужен крутой бэкграунд, а не опыт. Важно показывать интерес к профессии, прокачивать навык прохождения собеседований, учиться продавать себя на рынке труда и тогда у Вас всё получится! Как говорил Олег Тинькофф: "Продай свои мозги дорого". Это очень хорошо описывает в целом текущее состояние рынка.
Я буду выглядеть глупо среди опытных коллег Это нормально — не знать и ошибаться, особенно в начале. Важно не бояться задавать вопросы. В IT очень развита культура поддержки: тебе скорее помогут, чем осудят. Воспринимай каждую ошибку как точку роста, а не как провал. Ведь наш опыт - это сумма всех наших ошибок. Думаете, что какой-то сеньор никогда не допускал ошибок?
Я не найду работу без опыта От каждого второго человека слышу это. Мол я не могу найти работу без опыта, всё дело в опыте! А потом я открываю его резюме и вижу, что там полная каша и оказывается, что дело не в опыте, а в резюме или же в чём-то другом. Не бойтесь искать любую возможность попробовать реальные проекты. На старте важно показывать свою мотивацию и учиться командной работе. Не стесняйся писать в компании напрямую, предлагать свою помощь за отзыв или за опыт — так много кто стартует.
Теперь дам общие советы, которые подойдут под любой Ваш страх. Но помните, что я Вам даю всего лишь отмычки, а Вы их уже сами подбираете под Ваши "проблемные" двери:
Разделяй путь на маленькие задачи и радуйся каждому шагу.
Найди ментора, чтобы не оставаться один на один с вопросами.
Веди дневник успехов — записывай даже маленькие победы.
Не сравнивай свой путь с другими, особенно в соцсетях — у каждого свой старт и темп.
Признай: страх — это нормально. Его испытывали все, кто сегодня работает в IT.
Понравился пост? Тогда переходите ко мне в телеграмм канал, там находится много полезного материала, для входа в IT!
Прошёл месяц с момента моего обращения в MITRE про нежелание разработчиков делать CVE из-за фикса в Docker Engine 28.0.0. От MITRE никаких новостей больше не было. Поэтому я обратился в NotCVE (об этом сервисе я делал заметку). Спустя буквально пару дней меня оповестили о создании идентификатора NotCVE-2025-0001. Проект NotCVE пока ещё мало известен. По этой причине по запросу "NotCVE-2025-0001" пока далеко не во всех поисковиках что-то можно найти (в Гугл нашёл 1 запись, в Яндексе и DuckDuckGo - ничего). Да и идентификаторов в NotCVE пока всего лишь 6. Очень надеюсь, что проект обретёт популярность и количество идентификаторов увеличится. И в первую очередь - из-за повышения осведомлённости об этом проекте и увеличении обращений (из-за нежелания разработчиков признавать проблему и создавать CVE). В данном случае показательно, что идентификатор NotCVE-2025-0001 завели по моему обращению несмотря на то, что проблему нашёл не я. Я просто не смог пройти мимо, увидев нежелание разработчиков регистрировать CVE.
Знакомы ли с этим сообщением об ошибке? И знаете ли, как ее исправить?
Этот запрет на отправку ICMP-пакетов внутри контейнера можно получить при выполнении, например, такой задачи.
Задача: Организовать k8s-кластеры в ручном режиме с помощью kubeadm и kubectl на базе cri-o (1.28+) и использовать Calico как CNI-плагин.
Кластер доступен для взаимодействия через kubectl, команда возвращает корректную информацию о кластере. Есть возможность сделать ping 8.8.8.8 с образом busybox.
Если вы опытный DevOps и знаете, как решается эта «детская проблема» при работе с оркестратором, регистрируйтесь на спринт-оффер для девопсов. Сможете буквально играючи получить новую работу за 3 дня.
Управляйте публичными и приватными доменными зонами с Evolution DNS 🌐
❓ Что за сервис?Evolution DNS позволяет создавать приватные и публичные зоны DNS, а еще — управлять их ресурсными записями. При этом не нужно администрировать собственные DNS-серверы и ПО. Сервис поддерживает записи по стандартам RFC: SOA, NS, A, AAAA, TXT, SPF, CNAME, SRV, MX, CAA.
🖥 Особенности и преимущества. Evolution DNS позволяет вашим ресурсам взаимодействовать между собой по доменным именам — это снижает затраты на инфраструктуру и ускоряет запуск приложений. Сервис обеспечивает стабильную работу DNS, приватные доменные зоны защищают внутренние сервисы от внешних угроз. Масштабирование выполняется автоматически. Высокая производительность позволяет быстро обрабатывать запросы, а оплата производится по модели pay-as-you-go — только за фактическое использование доменных зон и количество DNS-запросов.
👨💻 Кому будет полезно. Evolution DNS подойдет всем, кто хочет эффективно управлять DNS-инфраструктурой. Например, стартапам и быстрорастущим компаниями, которым важно оперативно масштабироваться, разработчикам и другим IT-специалистам. А еще — организациям, которым важна высокая надежность и безопасность.
Чтобы больше узнать о работе и возможностях сервиса, смотрите доклад с конференции GoCloud 2025: в нем старший системный инженер Cloud.ru Алексей Болотин рассказал, как эффективнее использовать Evolution DNS в разных задачах.
Если кто-то не знал, у нас есть свой YouTube-канал (и он даже не пустой). Раньше там выходили подкасты «Релиз в пятницу» и «Быть». Потом мы сделали паузу и сосредоточились на продукте.
Теперь возвращаемся с новыми видео — про облака, айти-сферу и даже с юмористическим контЭнтом.
На канале вас уже ждут два свежих видео:
1️⃣ Про наш любимый Kubernetes. Наши партнеры показали, как собрать и задеплоить микросервисное приложение в Таймвеб Клауд.
2️⃣ Про стартапы. Продакт-менеджер Артем Гаврилов и лид разработки Михаил Шпаков рассказали о профите облачных решений для бизнеса.
👉 А еще постим на канал забавные шортсы (да, таким мы тоже балуемся).
В Облаке Рег.ру появились облегченные образы ispmanager
На облачной платформе Рег.ру оптимизируем и прокачиваем работу ispmanager. Свежий апдейт — добавили облегченные образы. Теперь можно заказать панель управления в базовой конфигурации сервера: 1 vCPU, 1 ГБ RAM и 10 ГБ диска. Обновление доступно на ОС: AlmaLinux, Debian и Ubuntu.
Образ ispmanager Mini идет с ограниченным набором ПО и подойдет для быстрого решения несложных задач.
Напомним, что можно заказать сервер с уже установленным ispmanager, оплата происходит по часам, а не месяцам. Лицензия панели управления также оплачивается на почасовой основе.
Как обнаружить anycast-адреса сервисов при помощи неравенства треугольника
Технически, по одному и тому же IP-адресу может отвечать всякий интернет-узел, который находится на (двунаправленном) техническом пути следования пакетов. Чтобы такое работало без запинки для многих IP-источников - требуется согласовать пути следования пакетов на уровне IP-сети, то есть, средствами BGP. Штатный способ использования этой особенности называется Anycast. Настроить и поддерживать сложно, но, при грамотном подходе, метод отлично работает и достаточно широко используется в глобальной Сети. При Anycast один и тот же IP-адрес, наблюдаемый из разных точек Интернета, адресует разные физические узлы. Эти физические узлы могут быть географически распределены - ближе к пользователям. Обычно, так и делается, потому что это одно из основных практических преимуществ Anycast, но далеко не единственное преимущество - anycast-адреса могут быть разведены средствами BGP и коммутации сетевых сегментов из соображений устойчивости к DDoS-атакам, распределения прочей нагрузки, повышения надёжности и т.д. Примеры: 1.1.1.1, 8.8.8.8, многие корневые DNS-серверы.
Как подручными средствами проверить, что какой-то интернет-сервис стоит за anycast-адресами? Для этого нужно использовать неравенство треугольника. Тестируемый узел должен отвечать в рамках того или иного протокола, который позволяет измерить сетевое время доставки пакетов.
Методика. Пусть мы обнаружили IP-адрес сервиса (обычно, из DNS) и хотим его проверить. Пусть узел под этим адресом отвечает по ICMP - ping. Возьмём два опорных узла-источника, расположенных в совсем разных местах Интернета: например, узел в Амстердаме (обозначим его А) и узел во Владивостоке (соответственно - В). Тестируемый узел назовём Т. Принцип: если среднее время доставки ping между А, В (А <--> В) существенно превышает сумму ping для А --> Т и В --> Т, то сервис, работающий на узле T, скорее всего, использует Anycast. Поэтому измеряем время силами ping. Это и есть нарушение неравенства треугольника: если сумма расстояний (в смысле ICMP) от каждой из точек тестирования к тестируемому узлу меньше, чем расстояние между этими точками, то тестируемый узел - это, скорее всего, как минимум два узла, использующих один и тот же IP-адрес, то есть, это anycast-адрес.
Конечно, тут всегда есть место для погрешности, однако в подавляющем большинстве случаев Anycast так виден - иначе в нём не было бы смысла. Можно взять несколько опорных точек, а не две, тогда точность возрастёт.
В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...
В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.
Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.
От чего зависит структура датасета? Если коротко: буквально от всего.
Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:
Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.
Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.
Пользователь: хочу морковь
Ответ A: вам мытую или обычную? Ответ B: скока вешать в граммах?
Предпочтение: ответ A
Примеры разных типов датасетов
📸 Computer Vision
Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.
Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».
Чем он интересен:
Использует эмбеддинги вместо аудио
Подходит для обучения RecSys моделей в «индустриальных» условиях
Поддерживает архитектуры с input context (история прослушиваний)
🩺 Медицина
MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.
Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.
📊 Табличные данные для задач логистической регрессии
UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.
Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.
🤖 Робототехника и сенсоры
KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:
Детекции объектов
3D реконструкции
SLAM и навигации
Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.
По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?
Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.
В следующих постах разберу:
Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.
Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.
В 18:50 начнем TeamLead MeetUp — ивент для руководителей и тех, кто хочет ими стать. Присоединяйтесь к трансляции и задавайте вопросы!
Программа
👉 Zero Bug Policy — эффективный метод работы с качеством
Максим Овчаров, директор по разработке ядра облачной платформы в Selectel, расскажет, как улучшил работу с качеством в командах облака, как выбирал и внедрял ZBP, с какими проблемами столкнулся. Доклад завершится практикой.
👉 Найми меня, если сможешь
Александра Прокшина, руководитель разработки юнита в Avito, перечислит желтые и красные флаги на каждом этапе поиска сотрудников и разберет опасности найма на фаст-треках. Вместе со спикером вы потренируетесь принимать решения, если есть сомнения в кандидате. Веселые истории про найм и собеседования тоже будут!
Вебинар «Почему HCI не только про “проще”, но и про “надёжнее”»
Любой сбой инфраструктуры = простои, потери и размытая репутация.
Но классические платформы виртуализации либо сложные, либо дорогие, либо не отвечают новым требованиям к отказоустойчивости и управляемости.
Есть ли альтернатива? Расскажем на вебинаре «Точка устойчивости ИТ».
Когда: 10 июня в 11.00 (МСК)
➖Почему гиперконвергентная инфраструктура действительно может выигрывать у классических решений ➖Как снизить затраты времени, ресурсов и усилий на поддержку ➖Как управлять инфраструктурой без лишней сложности (живое демо!)
Подключайтесь к вебинару про производительность 1С 🔍
Ровно через час, в 12:00 мск, встретимся, чтобы обсудить тест Гилева и другие методики тестирования 1С. Ответим на главные вопросы:
✔️ как выбрать подходящий метод,
✔️ как настроить тестовое окружение,
✔️ как проанализировать результаты и провести оптимизацию на основе полученных данных.
Вебинар будет полезен администраторам 1С и системным администраторам, руководителям IT-отделов, разработчикам, а также специалистам по производительности.
Positive Technologies представляет новую версию PT NAD 12.3.
Главное в продукте: повышение производительности, плейбуки и возможность хранения метаданных в облаке.
🗓️ 5 июня на онлайн-запуске PT NAD 12.3 вы сможете узнать, как команда продукта трансформирует подход к обнаружению сетевых атак за счет централизованного управления, опции хранения метаданных в облаке и плейбуков.
📌 Добавляйте слот в календарь: 5 июня, 14:00.
В программе:
🔻 Экспертиза: обновленные модули, репутационные списки и плейбуки — чтобы ваша команда могла быстрее реагировать на угрозы;
🔻 Центральная консоль: как сократить затраты на команду мониторинга и контролировать атаки во всех филиалах из единой точки;
🔻 «Облако» vs локальные хранилища: гибкое хранение метаданных для экономии денег без потери скорости;
🔻 Скорость: оптимизация производительности для ускорения анализа угроз и обработки трафика даже в крупных сетях.
✍️ Регистрируйтесь на онлайн-запуск PT NAD 12.3 по ссылке.
Как развернуть в облаке ERP и маркетплейс для 5000 строительных компаний
Рабочие задачи бывают разные: настроить CI/CD, провести рефакторинг кода или развернуть маркетплейс для 1,5 млн товаров на отказоустойчивой инфраструктуре — как раз последним кейсом стал совместный проект команд Облака Рег.ру и IT-разработчика Stworka.
С компанией Stworka мы сотрудничаем уже 6 лет — и сегодня продолжаем строить проект вместе. На старте нам нужно было помочь запустить ERP-систему и сократить time-to-market для запуска платформы. Облачная инфраструктура включает в себя распределенные облачные серверы, dev- и stage-контуры, виртуальные машины для мониторинга и управления разработкой. Для хранения и обработки больших объемов информации обеспечили проект отказоустойчивой базой данных.
Что внутри системы: NVMe-диски и контейнерная архитектура с Docker. Отдельные виртуальные машины развернули для инстанта GitLab и Grafana. Сбор метрик клиент настроил через Prometheus.
Что реализовано на платформе:
стабильность системы — в 90% случаев время отклика бэкенда ниже 300 мс;
прайсы и 1,5 млн товаров обрабатываются каждый день за несколько часов;
отказоустойчивость за счет внедрения автоматического резервного копирования нод.