Как стать автором
Поиск
Написать публикацию
Обновить
112.32

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Смещение значения таймстемпа UUIDv7

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров2.9K

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.

Читать далее

Оценка LLM: метрики, фреймворки и лучшие практики

Время на прочтение12 мин
Количество просмотров3.8K

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

Читать далее

Краткий обзор LLM бенчмарков

Время на прочтение6 мин
Количество просмотров1.4K

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать дальше →

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров15K

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

Читать далее

Lamoda Tech Data Science Meetup #2: материалы встречи

Время на прочтение2 мин
Количество просмотров908

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим. 

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.

Смотреть записи докладов и презентации

Разработка пакетов на языке R (бесплатный видео курс)

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров1.4K

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

Управляем моделью с помощью метаданных в dbt

Уровень сложностиСложный
Время на прочтение20 мин
Количество просмотров2.4K

Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач.

Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата‑лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.

Читать далее

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров1.1K

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.

Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.

Читать далее

Как системный аналитик может data-культуру развивать

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.8K

Всем привет! Я Вера Сапожникова, системный аналитик. В этой статье я расскажу: что такое data governance, какие проблемы поможет решить data governance и как применить data governance на практике.

Сразу хочу оговориться, что data governance – это масштабная, всеобъемлющая область, которая позволяет выстроить процессы и подходы работы с данными на разных уровнях. Поэтому я считаю, что каждый аналитик тоже может влиять на data-культуру и использовать подходы DataGov в масштабе своей команды и в разрезе своих задач.

Читать далее

Как дообучать LLM с помощью Supervised Fine-Tuning

Время на прочтение15 мин
Количество просмотров16K

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.


Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать дальше →

Fine-tuning больших языковых моделей в 2024 году

Время на прочтение14 мин
Количество просмотров9.4K

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии.

Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.
Читать дальше →

Chief Data Officer: роскошь или необходимость для компаний?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.7K

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.

Пуск

Лайфхаки BI SuperSet (часть 1)

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

Ближайшие события

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

Время на прочтение14 мин
Количество просмотров8.1K

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!

Читать далее

Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

Время на прочтение10 мин
Количество просмотров2.1K

Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.

На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке.

Читать дальше

Мы достигли пика в развитии ИИ!… или нет?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров6.8K

Вы, наверное, и сами заметили: в последние месяцы в мире ИИ не происходит ничего по-настоящему прорывного, особенно если сравнивать с предыдущими четырьмя годами. Похоже, возможности искусственного интеллекта уперлись в потолок. Особенно заметно, как гигантские корпорации — и даже целые страны — пытаются всеми силами преодолеть этот кризис. Кто как может.

Читать далее

Что нового в Apache Spark 4.0

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.6K

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

Машинное обучение в решении задач медицинской метагеномики

Время на прочтение5 мин
Количество просмотров783

Машинное обучение проникает во все большее число научных и прикладных областей — от финансов до биомедицины. Даже такая сложная и специфичная сфера, как медицинская метагеномика, сегодня все активнее использует ML для диагностики заболеваний, поиска биомаркеров и анализа микробиоты. О том, какие задачи решает ML в метагеномике и с какими трудностями сталкиваются исследователи, рассказывает к. м. н. Анастасия Холодная — выпускница магистратуры «Прикладной анализ данных в медицинской сфере» и эксперт Центра «Пуск».

Читать далее

Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.8K

Привет! Сегодня я продолжаю тему сравнения систем и движков массивных параллельных вычислений. В прошлой публикации я раскрыл основные принципы проведения тестирования, которыми руководствуется наша команда, и привел результаты как реальных промышленных сценариев, так и синтетических тестов. Материал вызвал интерес и дискуссию: значит, он актуальный и полезный. Для кого-то факты стали убедительными, а кто-то усомнился в объективности результатов, поэтому, как и было обещано, я делюсь материалами сравнительного тестирования, выполненного по общепринятому стандарту TPC-DS. Сегодня вы узнаете, повлияла ли смена методики на результаты.

Читать далее

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.5K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

Вклад авторов