Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

JohnLi139 17 окт 2024 в 10:03

Как переподписка по CPU в облаке снижает производительность Arenadata DB: результаты, которых не ждёшь

Средний

10 мин

3.3K

Блог компании ArenadataОблачные вычисления * Big Data * Data Engineering * Хранение данных *

Аналитика

Всем привет! Меня зовут Константин Малолетов, я архитектор облачных сервисов в компании Arenadata. Сегодня хочу рассказать, как мы решаем задачу эффективного размещения ресурсоёмких систем, таких как Arenadata DB, в облаке.

В статье рассмотрим несколько сценариев использования вычислительных ресурсов и их влияние на работу ADB, а также поделимся результатами проведённых тестов.

Читать далее

+19

kucev 17 окт 2024 в 07:15

Краткий обзор LLM бенчмарков

6 мин

998

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.

Читать дальше →

+2

Lightcart 17 окт 2024 в 06:16

Как работает Mesh R-CNN

Простой

7 мин

1K

Машинное обучение * 3D-графика * Data Engineering * Искусственный интеллект

Из песочницы

Перевод

Ну для начала всем привет, в этой статье постараюсь рассказать вам про структуру Mesh R-CNN как он работает, что вообще из себя представляет, также будут сделаны сноски с описанием концепции по генерации 3D объектов. Буду опираться как и уже на существующие статьи, так буду и от себя писать. Возможно будут где то ошибки, потому если заметите, постараюсь исправить.

Вообще для чего нужен Mesh R-CNN, нужен он для того чтобы генерировать 3D объекты на основе изображения. Этот метод построен на фундаменте Mask R-CNN, но с добавлением ветви для предсказания сеток. Это создает начальное представление, которое преобразуется в сетку и уточняется с помощью графовой сверточной сети.

Читать далее

+2

avalonsec 16 окт 2024 в 13:14

Машинный перевод GPT-4o статьи «Uncensor any LLM with abliteration»

Средний

12 мин

3.7K

Data Engineering *

Туториал

Перевод

Современные языковые модели (LLM) настроены на безопасность и выполнение инструкций, что означает, что они обучены отказывать в выполнении вредных запросов. В своем блоге Ардити и др. показали, что это поведение отказа связано с определенным направлением в остаточном потоке модели. Если мы предотвратим представление этого направления в модели, она потеряет способность отказывать в запросах. Напротив, искусственное добавление этого направления может привести к тому, что модель будет отказывать даже в безобидных запросах.

В традиционной архитектуре только декодера, подобной Llama, есть три остаточных потока, на которые мы можем нацелиться: в начале каждого блока ("pre"), между слоями внимания и MLP ("mid") и после MLP ("post"). Следующая иллюстрация показывает расположение каждого остаточного потока.

Читать далее

+2

Systems_Education 16 окт 2024 в 12:21

Технология проектирования хранилищ данных Data Vault 2.0

Простой

19 мин

15K

Хранение данных * Data Engineering * Анализ и проектирование систем *

Обзор

Data Vault 2.0 остаётся одним из самых популярных методов моделирования данных. Его выбирают за гибкость, масштабируемость и устойчивость к изменениям. Этот разработанный Дэном Линстедом подход помогает организациям быстро адаптироваться к новым бизнес-требованиям, легко интегрировать новые источники данных и надёжно хранить исторические данные.

Эта статья будет полезна дата-инженерам, аналитикам данных, архитекторам данных и бизнес-аналитикам. Она поможет усовершенствовать умения в моделировании данных. Мы рассмотрим ключевые принципы Data Vault 2.0 и на практическом примере покажем, как разложить сырые данные по Data Vault 2.0.

Читать далее

+6

castos 16 окт 2024 в 05:42

Сравнение роста заработных плат ректората МГТУ им. Н.Э. Баумана и остальных сотрудников

Простой

3 мин

60K

Data Engineering * Data Mining * Учебный процесс в IT

Аналитика

Я сам работал преподавателем бауманки до 2019 г., потом по совету Медведева ушел в бизнес. Знаю, что среди пользователей Хабра много студентов и преподавателей МГТУ им. Баумана, возможно пост окажется интересным и для контингента других вузов. Пост про анализ данных, но при его создании использовались лишь базовые навыки Data Science. Подобный анализ по своему вузу любой пользователь Excel может провести самостоятельно, в конце статьи есть инструкция.

Читать далее

+157

kucev 14 окт 2024 в 07:27

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

6 мин

1.8K

Big Data * Data Engineering * Искусственный интеллектМашинное обучение * Data Mining *

Перевод

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

Читать далее

0

k0rsakov 11 окт 2024 в 06:00

Данные – это новая нефть

Простой

5 мин

3.6K

Data Engineering * Data Mining * Big Data * Терминология ITКарьера в IT-индустрии

Обзор

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Читать далее

-5

chesspictor 11 окт 2024 в 00:34

Инспектор транзакций: управление конфликтами в СУБД

Средний

8 мин

1.4K

Data Engineering *

В этой статье представлена авторская концепция "Инспектор транзакций", направленная на оптимизацию работы с транзакциями в системах управления базами данных (СУБД). Мы предлагаем использовать инвертированный индекс для выявления конфликтующих транзакций. Перед выполнением новой транзакции инспектор проверяет, пересекается ли ее множество задействованных строк с множеством задействованных строк уже работающих транзакций, сопоставляя инвертированный индекс новой транзакции с общим инвертированным индексом активных транзакций. Если конфликтов нет, транзакция выполняется в режиме READ UNCOMMITTED, при этом общий инвертированный индекс обновляется как при старте транзакции, так и после её завершения. Также рассматриваются вопросы обработки конфликтов, если пересечение есть. Данный подход позволяет заранее точно определить, с какими транзакциями и по каким записям может возникнуть конфликт, что облегчает обработку этого конфликта. Мы надеемся, что предложенная концепция может способствовать улучшению работы СУБД.

Читать далее

0

avalonsec 9 окт 2024 в 14:26

Assistant Alice — Jailbreak, обогащение контекста с помощью интернет поиска и базы знаний

Средний

15 мин

1.2K

Data Engineering *

Из песочницы

Статья будет переписываться по мере развития проекта и внесения правок в системный промт.

Прототипом для промта послужила Алиса Селезнева. В промте используется 3 стоя абстракции для обхода цензурных ограничений. Комбинированы методы из DANv13, Developer Mode v2, DarkGPT и Synapse CoR.

Читать далее

+2

selesnow 9 окт 2024 в 14:08

Разработка пакетов на языке R (бесплатный видео курс)

Средний

2 мин

1K

Big Data * Data Mining * Data Engineering * R *

Туториал

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

+2

ilia_chernikov 9 окт 2024 в 09:49

Бутстрап в PySpark

13 мин

1.8K

Блог компании X5 TechPython * Статистика в ITBig Data * Data Engineering *

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Читать далее

+5

KDim4eg91 8 окт 2024 в 12:15

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum

Средний

7 мин

5.2K

SQL * Python * Data Engineering *

Из песочницы

Привет, Хабр! Меня зовут Дмитрий, я инженер данных, и это моя первая статья. В ней я хочу поделиться своим пет-проектом, который посвящен созданию ETL-процесса — важного элемента в работе любого Data Engineer. Мой проект направлен на извлечение данных из электронной почты и их загрузку в базу данных Greenplum для анализа.

Идея возникла из личной потребности контролировать расходы в продуктовых сетях, таких как "ВкусВилл". Существуют готовые решения, но я хотел создать свою систему, где данные из разных магазинов собираются в одном месте для более детального анализа и визуализации.

Готовые приложения часто ограничены в настройке, поэтому я решил использовать Python для автоматизации обработки данных, а Greenplum для их хранения и аналитики. В статье я расскажу, как мне удалось автоматизировать процесс извлечения данных из писем "ВкусВилл", структурировать их и загрузить в базу для дальнейшего анализа.

Читать далее

+5

datahandyman 8 окт 2024 в 08:00

DuckDB: сказ о том, как утёнок приютился в Persistent Volume

Простой

7 мин

3.1K

Блог компании ДомкликPython * Data Engineering *

Кейс

Привет, дорогой друг. Меня зовут Максим и я data-инженер в одной из прекрасных команд AI area компании Домклик. Правильно перевозить байтики с места на место нам помогает огромный зоопарк инструментов. И, кажется, мы приручили ещё одного питомца.

В этой статье хочу поделиться сценарием, который, на мой взгляд, прекрасно описывает вариант использования компактной встраиваемой базы данных DuckDB. Возможно, очевидные вещи, которые будут тут, покажутся вам гениальными или вы просто погладите утёнка и попробуете его в деле.

Коллега, внедривший функциональность, не хотел рассказывать, как утёнок решил часть проблем, с которыми мы столкнулись, но я с ним договорился, и ниже мы опишем, как утёнок живёт сейчас.

Читать далее

+27

EgorKl 5 окт 2024 в 20:36

Как написать свой небольшой парсер на Python?

Средний

6 мин

10K

Python * Data Engineering *

Из песочницы

Всем привет. Я думаю, что некоторые задавались вопросом о том, как написать свой небольшой парсер на Python. В данной статье я хочу рассмотреть достаточно простой случай - это парсинг данных уже с готового датасета stackexchange.com. В дальнейшем уже можно будет работать с более сложными задачами. По факту, создание парсера можно разделить на два этапа: подготовка и кодинг.

Читать далее

-12

k0rsakov 4 окт 2024 в 06:00

Инфраструктура для Data-Engineer ClickHouse

Простой

9 мин

3.5K

Data Mining * Базы данных * Big Data * Data Engineering * Хранение данных *

Туториал

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее

0

antipov_dmitry 3 окт 2024 в 09:03

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

4 мин

464

Data Engineering * Data Mining * Big Data * Искусственный интеллект

Мнение

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать далее

+6

nivolg 1 окт 2024 в 07:51

Поиск дубликатов в клиентском MDM на миллиард записей

15 мин

2.6K

Блог компании HFLabsХранение данных * Big Data * Data Mining * Data Engineering *

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

Читать далее

+19

kucev 30 сен 2024 в 11:02

Как оценить качество LLM модели

11 мин

3.1K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:

Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

Читать дальше →

+3

daniil_dzheparov 30 сен 2024 в 08:30

Оконные функции простым языком — Фреймы

Простой

4 мин

13K

SQL * Базы данных * Data Engineering *

Привет всем!

Это вторая часть к продолжению статьи "Оконные функции простым языком с примерами". Рекомендую ознакомиться сначала с ней, а потом вернуться к прочтению данной статьи, чтобы полностью понимать синтаксис и применение оконных функций. В этой статье будет разобрано на примерах такое понятие как "фрейм" оконных функций, который расширяет возможности оконок для решения более сложных аналитических задач.

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свой путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи :-)

Будем разбирать примеры на такой небольшой таблице, где указана прибыль (net_profit) компании на каждый месяц в рамках одного года.

Читать далее

+8

1 2 ...

29

30 31 ...