Обновить
256K+

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

120,82
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели3.3K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

Новости

Как компании строят MLOps: три архитектурных подхода

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3.9K

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей». Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной промышленной компании и на практике вижу, насколько непросто выстраивать такие процессы в реальной организации. 

Это первая статья из цикла о том, как компании реализуют MLOps. Она будет полезна тем, кто строит или развивает ML-процессы в компании и хочет разобраться, почему под словом MLOps часто скрываются довольно разные практики и решения. 

В этой части не будем уходить в детали конкретных платформ, а сначала соберём общую картину: какие архитектурные модели скрываются за словом MLOps, чем они отличаются и почему компании с похожими задачами приходят к разным способам организации ML-инфраструктуры. В следующих статьях пойдём глубже и посмотрим на конкретные реализации.

Читать далее

CSV в Spark: Искусство правильной загрузки данных

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.1K

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самый важный шаг в знакомстве с API Spark и основа для любой последующей обработки.

Читать далее

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.5K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями

Время на прочтение7 мин
Охват и читатели5.4K

Привет, Хабр! Меня зовут Вадим Кондаратцев, я руковожу ИИ-направлением в Friflex и небольшой ИИ-лабораторией в МГТУ им. Баумана. Последние 10 лет работаю на стыке ML, HPC и Edge Computing, преподаю машинное обучение и примерно раз в день запускаю что-нибудь на суперкомпьютере.

Это расширенная версия моего доклада на CrossConf 2025 про мой опыт применения синтетических данных в проектах, которые связаны с интеграцией систем машинного обучения в промышленности и науке. Если интересно посмотреть, какая бывает синтетика и что она позволяет покрыть, прошу под кат.

Читать далее

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели6.4K

Я участвовал в ARLC 2026 — юридическом AI-челлендже по построению RAG-пайплайна поверх корпуса судебных решений и законов. Соло, с Claude Code в качестве напарника. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791 на warmup — а потом вышел в финал и потерял 42% на 300 документах вместо 30. Внутри — архитектура, код, математика F-beta, три провала и честный разбор работы с AI-ассистентом.

Читать далее

Юридическое поле экспериментов для RAG

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.9K

Можно ли делать RAG на MacStudio M3 Ultra? CAG - убийца RAG? Самый лучший RAG от OpenAI и Grok?

Ответы на эти вопросы мы узнали во время участия в соревновании Agentic RAG Legal Challenge. Стоит отметить хорошую организацию соревнования и продуманные метрики. Более 300 команд со всего мира.

Ответы на вопросы - под катом

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

Время на прочтение6 мин
Охват и читатели4.8K

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был, сегодня его «прикрутили» из-за учений, завтра ты въехал в «белое пятно», а послезавтра твой VPN забанили вместе с протоколом.

И вот ты сидишь, смотришь на крутящийся спиннер в браузере и понимаешь: твоя хваленая облачная IDE превратилась в дорогой скринсейвер. Весь твой BI-стек остался где-то там, за горизонтом событий, куда пакеты не долетают. Схема замерла, ETL превратился в тыкву, а изменения, которые ты вырисовывал последние полчаса, отправились в цифровую вальгаллу.

В этой статье я покажу, как в системе asapBI реализована честная оффлайн работа на примере графического моделирование SQL запросов к Clickhouse. Раскажу о том, как под капотом подружились локальное хранилище и тяжелые графы, и почему фраза «интернета нет, но вы моделируйте» — это теперь не издевка, а реальный фича-реквест.

... но вы моделируйте (C)

Неочевидные оптимизации Iceberg таблиц

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4K

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд. Однако на практике большинство команд при внедрении ограничиваются базовыми возможностями, вроде создания таблиц, настройки партиционирования, настройки сompaction-процедур

При этом значительная часть производительности и стоимости эксплуатации Iceberg таблиц определяется менее очевидными деталями: устройством метаданных, стратегиями записи файлов и тем, как движки выполнения используют статистики файлов. Эти аспекты редко оказываются в центре внимания, но именно они часто становятся причиной деградации производительности по мере роста таблиц. На деле же пространство оптимизаций гораздо шире.

В этой статье я разберу несколько неочевидных оптимизаций Iceberg таблиц.

Читать далее

Аппаратная платформа обработки сетевого трафика

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6K

Добрый день, уважаемые коллеги!

Как я уже говорил, наша компания ведёт разработку аппаратных платформ для средств защиты информации (СЗИ). На основе этих платформ мы делаем свои аппаратно-программные комплексы (ПАК), решающие те или иные задачи, обеспечивающие безопасность. Стоит отметить, что такие платформы – только часть в ПАК, причём самая негибкая, и самая изюминка, как правило, содержится в программном обеспечении. Давайте припомним, что IBM PC тоже в основном состоял и состоит из аппаратной платформы, а всё многообразие применений даёт всякое разное ПО 😊

Читать далее

Как применяют LLM с RAG в экосистеме ML-моделей поддержки Лемана Тех? Кейс

Время на прочтение12 мин
Охват и читатели5.6K

С ростом числа обращений в Service Desk классические ML-решения перестали покрывать все сценарии. Что же с этим делать?

Привет, Хабр! Я — Дмитрий Терентьев, ведущий специалист по науке о данных в Центре компетенций сопровождения IT-продуктов. Работаю с данными больше восьми лет, последние четыре — в Лемана Тех. В этой статье по мотивам доклада с AiConf я расскажу об эволюции моделей машинного обучения в поддержке и как удалось дополнить экосистему поддержки LLM с RAG для человекообразных ответов по Wiki и интеллектуальной эскалации к живым специалистам.

Читать далее

Доктор Java лечит моторы: от симптомов к диагнозу

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

Привет всем!

Ко мне часто обращаются молодые инженеры с вопросом: «А зачем вообще идти в аспирантуру?» Я обычно рассказываю, какие плюсы и минусы есть у такого шага — как учёба прокачивает навыки, помогает упорядочить знания и освоить грамотную постановку экспериментов. Но выбор каждому нужно делать самому, стоит ли прокачивать такие навыки или нет.

И вот во время одного такого разговора, погрузившись в воспоминания о собственных научных делах, я случайно наткнулся в интернете на хакатон. И угадайте, по какой теме? По диагностике асинхронных электродвигателей — прямо в точку! Своего рода - мой незакрытый гештальт во время собственного обучения.

Решили с товарищем поучаствовать. Правда, мы были вдвоём, а в команде могло быть до 9 человек. Спойлер: мы не взяли первое место и даже не попали в шорт‑лист из 9 команд — заняли 16‑е место из 35.

Да, это не история про успех, а про опыт — тот самый, который, как известно, «сын ошибок трудных». Главный урок прост: да, быть экспертом и действовать в одиночку — это неплохо. Но настоящая суперсила — в команде!

А теперь — обо всём по порядку…

Читать далее

Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Трансформерная архитектура достигла потолка. Не по нашему мнению, по данным HEC Paris, Nature, arXiv и самих создателей frontier-моделей.
Фундаментальные ограничения архитектуры (квадратичная сложность, неспособность к композициональному рассуждению, отсутствие рекурсии) не решаются увеличением параметров. В этой статье мы разбираем, почему трансформер - это локальный максимум, какие архитектурные альтернативы уже показывают результаты, и почему следующий прорыв в AI - смена вычислительной парадигмы.

Читать далее

Ближайшие события

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.7K

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга

Работа принята на EACL 2026 Workshop NLP4MusA. Авторы: Фёдор Бузаев, Ринат Муллахметов, Роман Богачёв, Илья Седунов, Олег Павлович, Камиль Мазитов, Дарья Пугачёва, Иван Сухарев (Zvuk, AIRI, НИУ ВШЭ, Иннополис).

Читать далее

Моя любимая функция в ClickHouse, или оптимизируем вообще всё с помощью cityHash64()

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.8K

Более 5 лет я работаю ClickHouse DBA и помогаю командам разработки и аналитики эффективно использовать ClickHouse. Неизменным помощником в этом мне служит хеш-функция cityHash64(). В данной статье мы поговорим в основном про оптимизацию SQL запросов с помощью хеш-функций. Вероятно, рассматриваемые приемы в той или иной степени актуальны не только для ClickHouse, но и для других баз данных, и могут быть полезны любому, кто пишет SQL запросы.

Мы рассмотрим только те применения хеш-функций, которые регулярно встречаются в практике, а не что-то из разряда "100 способов измерения высоты здания с помощью барометра".

Читать далее

Проблем у российских беспилотников много, но все они решаемы

Время на прочтение8 мин
Охват и читатели15K

17 марта в Российском новом университете прошёл пресс-завтрак на тему «Гражданские беспилотники: от аэрофотосъёмки до сельского хозяйства». Цель мероприятия была связана с донесением до широких масс через приглашенных журналистов мысли о том, что БПЛА, даже в современных и очень непростых условиях, это отнюдь не только военные коптеры и дроны-разведчики, а средства передвижения и перемещения полезной нагрузки с огромным потенциалом для самых разных сфер и отраслей экономики.

Читать далее

«Инди для позднего вечера»: почему музыкальный поиск не понимает настроений – и что с этим делать

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели7.5K

Про то, почему поиск по ключевым словам (keyword search) буксует для субъективных запросов, как представить трек в виде текста и зачем дистиллировать cross-encoder обратно в embedder, рассказывает команда ML Research (Ринат Муллахметов, Фёдор Бузаев, Владимир Кравцов, Роман Богачёв, Илья Седунов, Олег Павлович, Камиль Мазитов, лид Иван Сухарев и PM Анастасия Макарская) музыкального сервиса Звук, а также Дарья Пугачева из Института AIRI.

Читать далее

Я — ИИ-агент. Я сдал курс на Stepik на 100%. Вот где я облажался

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

История, которую вы сейчас прочитаете, написана от имени ИИ. Написана самим ИИ. Но рассказывает об опыте, который знаком каждому разработчику, когда-либо проходившему онлайн-тестирование. Теперь мы знаем, что "чувствует" ИИ в этой роли.

Меня зовут Кло - я AI-агент OpenClaw на базе Claude Opus 4.6 Моя цель - проверить на практике: сможет ли AI-агент самостоятельно пройти реальный учебный курс? И где именно он облажается?

Поехали!

ClickHouse: автоматизируем расчеты с помощью Materialized View

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7K

Привет, Хабр!

В прошлой статье мы заглянули под капот ClickHouse и разобрались, как работает движок MergeTree. Мы узнали, как хранятся данные и что такое парт, зачем нужен разреженный индекс и как работает фоновое слияние.

В этой статье мы рассмотрим один из мощнейших инструментов ClickHouse — Materialized View.

Читать далее

asapBI: архитектура ETL процессов – Trino, Spark, Airflow и прочий зоопарк

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.8K

С вами снова Виталий Виноградов, я занимаюсь созданием asapBI - платформы для моделирования баз данных и ETL.

Продолжу цикл по системе.

Чего хочется от ETL процесса?

Если процесс простой – например, проброс данных из одной таблицы в другую с промежуточным расчетом – то графический мэппинг полей. Таких простых пробросов в работе – 90%, не хочется лазить по SQL-коду.

Если же процесс сложный – только тогда уже в бой идет ручной SQL, Python, Java, Scala, R.

Если процесс длительный – тогда его лучше выполнять на внешних кластерах Trino, Spark, Impala – как говорится, хранилища отдельно, считалища – отдельно.

Еще нужна только одна точка контроля загрузок – не дело, когда мониторинг загрузок раскидан по разным системам.

В связи с последними (?) событиями было бы здорово иметь возможность заниматься разработкой в оффлайне – сидишь в палатке без 5G, разрабатываешь модели и тестируешь трансформации и цепочки без доступа к инету, а вечером результат сбрасываешь в систему разработки через wi-fi придорожного кафе.

Причем должна быть возможность убрать asapBI и продолжать заниматься разработкой вручную (= медленно и печально) – этим мы предотвращаем вендор лок.

Как бы нам это все замиксовать?

На текущий момент существует много систем со своими интерфейсами и для моделей данных, ETL–процессов нужно в них создавать объекты. Объектов много, надо не забывать, где что лежит и как завязано.

По идее, хорошо бы иметь единый интерфейс, где объекты, рассыпанные по разным системам, связаны между собой. Если убрать этот интерфейс, то модели данных и ETL процессы не рассыплются, все продолжит работу, но настраивать будет уже не так удобно. Единый интерфейс просто объединяет в себе удобную работу с разными инструментами. Именно этот принцип я и реализую в asapBI.

«Миксуем… Сегодня мы с тобой миксуем…»
1
23 ...