Обновить
100.97

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как строить умных AI-агентов: уроки Context Engineering от Manus

Время на прочтение9 мин
Охват и читатели6.7K

В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?

В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.

Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.

Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.

В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.

Читать далее

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели5.7K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

Читать далее

Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в Уралсиб x FineBI

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели4.4K

Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.

Читать далее 😎

Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели3.4K

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.

Читать далее

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Время на прочтение7 мин
Охват и читатели4.2K

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR: 

* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;

* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;

* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;

* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

Читать далее

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе c ними

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.6K

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей».  

Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с:

недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом;

отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной.

особенностями сборок дистрибутивов;

Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

Читать далее

LLM-агенты против ручного ресерча: кейс Bioptic в биофарме

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5K

При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни. Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата. 

Команда стартапа Bioptic (сооснователь — Андрей Дороничев) предложила автоматизировать эту рутинную работу с помощью агентной AI‑системы на базе больших языковых моделей (LLM).

Всем привет. Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO онлайн-университета zerocoder.ru. Сегодня узнал о еще одном важном шаге в деле ускорения анализа и сбора информации с помощью ИИ. На этом примере — в медицине.

Читать

Несогласованность эффектов или «Где деньги, Лебовски?»

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели9K

В статье рассматриваются проблемы, возникающие при оценке эффектов A/B-тестов и Causal Inference в ритейле, когда необходимо анализировать изменения выручки по различным категориям товаров и общей (тотал-) категории. Мы подробно рассмотрим, почему простое суммирование оценок эффектов по категориям не всегда дает корректную оценку для тотал-категории, и предложим эффективный способ решения этой проблемы.

Читать далее

Неожиданный результат: ИИ замедляет опытных разработчиков

Время на прочтение9 мин
Охват и читатели7.3K

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D[1].

Подробности — в полной версии статьи.

Читать далее

Развёртывание боевого кластера Cassandra. Часть 3

Уровень сложностиСложный
Время на прочтение8 мин
Охват и читатели9.9K

Это продолжение цикла, рассказывающего о практике развёртывания небольшого, но вполне производственного кластера Cassandra. В первой и второй частях мы продвинулись вперед вот по такому плану:

1. Анализ рабочей нагрузки и требований
2.Разработка схемы данных
3. Настройка хостовых машин
4. Настройка конфигурации Cassandra
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
5. Настройка топологии кластера
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

Двинемся дальше?

Читать далее

Парсинг данных в Python: от простых строк до датасетов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.9K

В этой статье мы разберём основы парсинга данных в Python. Мы начнём с простых строк с помощью регулярных выражений, перейдём к парсингу HTML с использованием библиотеки BeautifulSoup, познакомимся с pandas для работы с данными и, наконец, соберём всё вместе, чтобы спарсить реальный датасет (например, топ фильмов с IMDb) и сохранить его в CSV-файл.

Читать далее

Личный топ методов Pandas

Время на прочтение2 мин
Охват и читатели10K

Pandas — это изумительная библиотека на Python для анализа и обработки данных. Она настолько хороша, что проще сказать, чего она не умеет, чем перечислить все её возможности. В мире аналитики это настоящий швейцарский нож.

В этой статье я хочу поделиться личным топом методов, которые помогают в первичной обработке больших данных.

Читать далее

Apache Superset — почему все топы рынка выбрали именно его?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели14K

Попытка по-иному ответить на вопрос "какую BI-систему выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую предпочли топы

Читать далее

Ближайшие события

Как t2 масштабировал BI-аналитику на 4500+ пользователей: кейс миграции на FineBI

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.2K

Уходящие с рынка западные BI-решения оставили компании перед сложным выбором. Как найти альтернативу, которая не только заменит функционал, но и позволит масштабировать self-service аналитику на всю организацию? В этой статье делимся реальным кейсом компании t2 (бывший Tele2), которая за два года превратила FineBI в backbone корпоративной аналитики с одной из самых больших инсталляций в России. 400+ разработчиков отчетности, 3500+ общих лицензий, кластерная архитектура и автоматизированное обучение — рассказываем, как это работает на практике.

Читать далее

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.4K

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

Читать далее

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

Время на прочтение21 мин
Охват и читатели3.5K

В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.

Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.

Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.

Читать далее

Как используются динтаблицы YTsaurus: рекламные профили поведенческого таргетинга

Время на прочтение21 мин
Охват и читатели6.9K

Когда вы видите баннер, кликаете по рекламе или указываете, что вас не интересует тот или иной товар, — за кулисами происходит немало вычислений. Система поведенческого таргетинга, отвечающая за персонализацию рекламы в Яндексе, получает эти события, обновляет ваш профиль, а затем использует его, чтобы в следующий раз показать что‑то более подходящее.

Сама по себе задача кажется очевидной: собирать события, обновлять профили, обеспечивать быстрое считывание информации. Но если заглянуть под капот, начинается настоящее инженерное приключение. Сотни тысяч событий в секунду, требование обработки в режиме exactly‑once, жёсткие ограничения по времени отклика, компромисс между скоростью и экономией ресурсов, и всё это — на фоне необходимости работать надёжно и с горизонтальным масштабированием.

Меня зовут Руслан Савченко, в Yandex Infrastructure я руковожу разработкой динамических таблиц YTsaurus — системы, в которой поведенческий таргетинг хранит данные. В этой статье я подробно разберу кейс поведенческого таргетинга с динтаблицами: почему таблицы в памяти иногда тормозят из‑за аллокатора, зачем мы внедрили xdelta, как именно устроены агрегатные колонки и что пришлось сделать, чтобы миллисекунды отклика в 99,9 перцентиле стали реальностью.

Читать далее

Фильтры в таблицах

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.4K

В B2B-системах и корпоративных интерфейсах фильтры — не «приятный бонус», а спасательный круг в работе пользователя. Когда у вас таблица на 10 000 строк и 100+ колонок, обычным поиском или сортировкой не обойтись. Тут уже нужны сложные фильтры: с несколькими условиями, каскадными зависимостями, сохранёнными пресетами и продуманной логикой применения.

В этой статье разберём, как подойти к проектированию таких фильтров с точки зрения дизайнера: что спросить у фронтендера и бэкендера, какие ограничения учесть заранее и как сделать так, чтобы фильтр реально помогал работать, а не превращался в ещё одну головную боль.

Читать далее

Как адаптировать аналитику для тех, кто не хочет разбираться в графиках

Время на прочтение7 мин
Охват и читатели10K

Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце.

Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось.

Читать далее

Система метрик, или как навести порядок в голове бизнеса

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.3K

Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.

Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...

Читать далее

Вклад авторов