
UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.
Большие данные и всё о них
UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.
Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».
Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.
В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.
Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.
Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.
В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.
На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.
Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.
Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах.
Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач.
Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата‑лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.
В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.
Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.
Всем привет! Я Вера Сапожникова, системный аналитик. В этой статье я расскажу: что такое data governance, какие проблемы поможет решить data governance и как применить data governance на практике.
Сразу хочу оговориться, что data governance – это масштабная, всеобъемлющая область, которая позволяет выстроить процессы и подходы работы с данными на разных уровнях. Поэтому я считаю, что каждый аналитик тоже может влиять на data-культуру и использовать подходы DataGov в масштабе своей команды и в разрезе своих задач.
Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.
10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.
AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.
В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.
В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.
Поехали!
Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.
На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке.
Вы, наверное, и сами заметили: в последние месяцы в мире ИИ не происходит ничего по-настоящему прорывного, особенно если сравнивать с предыдущими четырьмя годами. Похоже, возможности искусственного интеллекта уперлись в потолок. Особенно заметно, как гигантские корпорации — и даже целые страны — пытаются всеми силами преодолеть этот кризис. Кто как может.
Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.
И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.
Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.
Машинное обучение проникает во все большее число научных и прикладных областей — от финансов до биомедицины. Даже такая сложная и специфичная сфера, как медицинская метагеномика, сегодня все активнее использует ML для диагностики заболеваний, поиска биомаркеров и анализа микробиоты. О том, какие задачи решает ML в метагеномике и с какими трудностями сталкиваются исследователи, рассказывает к. м. н. Анастасия Холодная — выпускница магистратуры «Прикладной анализ данных в медицинской сфере» и эксперт Центра «Пуск».
Привет! Сегодня я продолжаю тему сравнения систем и движков массивных параллельных вычислений. В прошлой публикации я раскрыл основные принципы проведения тестирования, которыми руководствуется наша команда, и привел результаты как реальных промышленных сценариев, так и синтетических тестов. Материал вызвал интерес и дискуссию: значит, он актуальный и полезный. Для кого-то факты стали убедительными, а кто-то усомнился в объективности результатов, поэтому, как и было обещано, я делюсь материалами сравнительного тестирования, выполненного по общепринятому стандарту TPC-DS. Сегодня вы узнаете, повлияла ли смена методики на результаты.
Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.
Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.
Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.