Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

SergeyProkhorenko 3 ноя 2024 в 21:05

Смещение значения таймстемпа UUIDv7

Средний

2 мин

2.9K

Высоконагруженные системы * Анализ и проектирование систем * IT-стандарты * Big Data * Хранение данных *

Аналитика

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.

kucev 24 окт 2024 в 06:34

Оценка LLM: метрики, фреймворки и лучшие практики

12 мин

3.8K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

kucev 17 окт 2024 в 07:15

Краткий обзор LLM бенчмарков

6 мин

1.4K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.

Читать дальше →

evgeniatro 11 окт 2024 в 13:54

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Простой

6 мин

15K

Блог компании Data LightBig Data * Искусственный интеллект

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

saigina_m 10 окт 2024 в 08:41

Lamoda Tech Data Science Meetup #2: материалы встречи

2 мин

908

Блог компании Lamoda TechBig Data * Конференции

Репортаж

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.

Смотреть записи докладов и презентации

selesnow 9 окт 2024 в 14:08

Разработка пакетов на языке R (бесплатный видео курс)

Средний

2 мин

1.4K

R * Data Engineering * Data Mining * Big Data *

Туториал

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

FaryaRos 20 сен 2024 в 11:32

Управляем моделью с помощью метаданных в dbt

Сложный

20 мин

2.4K

Big Data * Хранение данных * Data Engineering *

Туториал

Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач.

Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата‑лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.

PicoPicoRobotWoman 12 сен 2024 в 13:26

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

Средний

16 мин

1.1K

Программирование * Scala * Apache * Big Data * Data Engineering *

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.

Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.

VeraSapozhnikova 10 сен 2024 в 08:30

Как системный аналитик может data-культуру развивать

Простой

5 мин

2.8K

Блог компании КонтурBig Data * Анализ и проектирование систем *

Обзор

Всем привет! Я Вера Сапожникова, системный аналитик. В этой статье я расскажу: что такое data governance, какие проблемы поможет решить data governance и как применить data governance на практике.

Сразу хочу оговориться, что data governance – это масштабная, всеобъемлющая область, которая позволяет выстроить процессы и подходы работы с данными на разных уровнях. Поэтому я считаю, что каждый аналитик тоже может влиять на data-культуру и использовать подходы DataGov в масштабе своей команды и в разрезе своих задач.

kucev 12 авг 2024 в 13:34

Как дообучать LLM с помощью Supervised Fine-Tuning

15 мин

16K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.

Читать дальше →

kucev 9 авг 2024 в 09:29

Fine-tuning больших языковых моделей в 2024 году

14 мин

9.4K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии.

Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.

Читать дальше →

shkato 3 авг в 12:16

Chief Data Officer: роскошь или необходимость для компаний?

Средний

10 мин

1.7K

Big Data * Data Engineering * IT-компании

Из песочницы

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.

Пуск

kracko23 31 июл в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

1.4K

Data Mining * Big Data * Data Engineering * Apache * Визуализация данных *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

kucev 23 июл в 11:00

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

14 мин

8.1K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!

rmndrnts 16 июл в 12:21

Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

10 мин

2.1K

Блог компании Cloud.ruОблачные сервисы * Искусственный интеллектBig Data *

Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.

На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке.

Webtrinity 15 июл в 12:50

Мы достигли пика в развитии ИИ!… или нет?

Простой

10 мин

6.8K

IT-компанииBig Data * Искусственный интеллект

Аналитика

Вы, наверное, и сами заметили: в последние месяцы в мире ИИ не происходит ничего по-настоящему прорывного, особенно если сравнивать с предыдущими четырьмя годами. Похоже, возможности искусственного интеллекта уперлись в потолок. Особенно заметно, как гигантские корпорации — и даже целые страны — пытаются всеми силами преодолеть этот кризис. Кто как может.

pihel 1 июл в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

3.6K

Блог компании КОРУС КонсалтингData Engineering * Big Data * Apache * SQL *

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

mipt_digital 26 июн в 13:26

Машинное обучение в решении задач медицинской метагеномики

5 мин

783

Блог компании Центр «Пуск» МФТИМашинное обучение * БиотехнологииBig Data *

Обзор

Машинное обучение проникает во все большее число научных и прикладных областей — от финансов до биомедицины. Даже такая сложная и специфичная сфера, как медицинская метагеномика, сегодня все активнее использует ML для диагностики заболеваний, поиска биомаркеров и анализа микробиоты. О том, какие задачи решает ML в метагеномике и с какими трудностями сталкиваются исследователи, рассказывает к. м. н. Анастасия Холодная — выпускница магистратуры «Прикладной анализ данных в медицинской сфере» и эксперт Центра «Пуск».

EvgenyVilkov 25 июн в 21:00

Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS

Средний

13 мин

1.8K

Блог компании Data SapienceBig Data * Hadoop * Open source * SQL *

Привет! Сегодня я продолжаю тему сравнения систем и движков массивных параллельных вычислений. В прошлой публикации я раскрыл основные принципы проведения тестирования, которыми руководствуется наша команда, и привел результаты как реальных промышленных сценариев, так и синтетических тестов. Материал вызвал интерес и дискуссию: значит, он актуальный и полезный. Для кого-то факты стали убедительными, а кто-то усомнился в объективности результатов, поэтому, как и было обещано, я делюсь материалами сравнительного тестирования, выполненного по общепринятому стандарту TPC-DS. Сегодня вы узнаете, повлияла ли смена методики на результаты.

kucev 20 июн в 09:05

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

4 мин

2.5K

Data Mining * Big Data * Машинное обучение * Искусственный интеллектData Engineering *

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM.

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

1 2 ...

14 15

17 18 ...

24 25

Big Data *

Смещение значения таймстемпа UUIDv7

Оценка LLM: метрики, фреймворки и лучшие практики

Краткий обзор LLM бенчмарков

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Lamoda Tech Data Science Meetup #2: материалы встречи

Разработка пакетов на языке R (бесплатный видео курс)

Управляем моделью с помощью метаданных в dbt

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

Как системный аналитик может data-культуру развивать

Как дообучать LLM с помощью Supervised Fine-Tuning

Fine-tuning больших языковых моделей в 2024 году

Chief Data Officer: роскошь или необходимость для компаний?

Лайфхаки BI SuperSet (часть 1)

Ближайшие события

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

Мы достигли пика в развитии ИИ!… или нет?

Что нового в Apache Spark 4.0

Машинное обучение в решении задач медицинской метагеномики

Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Вклад авторов