Как стать автором
Обновить
76.96

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Сколько денег вы теряете на инцидентах

Время на прочтение6 мин
Количество просмотров1.5K

Привет! Меня зовут Женя, я аналитик данных в онлайн-школе Skyeng. 

Недавно наши спецы на полтора часа уронили прод, и на этом мы потеряли… Кстати, а сколько?

Давайте разберёмся, зачем и как считать потери на инцидентах, можно ли делать это автоматически и как продать ценность расчётов бизнесу.

Читать далее
Всего голосов 13: ↑11 и ↓2+15
Комментарии1

Новости

Акции, игры и роботы: будущее ритейла, которое уже наступило

Время на прочтение11 мин
Количество просмотров1.2K

Сегодня мы можем позволить себе веб-страницы, весящие больше, чем оригинальный DOOM, и объём вычислений для их рендера, которого хватило бы для взлома Энигмы. В век технологического изобилия уже не так ценишь байты и флопсы. Единственный по-настоящему ценный ресурс — это люди, и современные разработчики готовы биться за этот ресурс, как Джон Кармак бился за каждый такт процессора.

30 мая прошла конференция X5 Future Night, где более сорока спикеров рассказывали о передовых технологиях ритейла, помогающих привлечь и удержать покупателя, максимизировать его удовлетворение и свою выгоду. Запись всей конференции можно посмотреть на досуге, а в этой статье хотим подсветить несколько технологий, которыми X5 Tech особенно гордится.

Читать далее
Всего голосов 10: ↑8 и ↓2+18
Комментарии1

Data Day 2024. Всё по полочкам. Секция 1

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров773

Data Day 2024. Всё по полочкам. Секция 1

Данная статья максимально подробно пересказывает информацию первой секции с недавно прошедшего форума Data Day. 

Панельная дискуссия. ChatGPT где деньги?

На панельной дискуссии эксперты из ведущих компаний обсудили применение генеративного искусственного интеллекта (ИИ) и его влияние на бизнес-процессы.

Александр Крайнов из Яндекса поделился впечатляющими примерами, включая генерацию речи, которая уже незаметно заменяет человеческие голоса в навигаторах и ассистентах. Валентин Малых из ИТМО рассказал о необходимости безопасности при использовании генеративного ИИ, особенно в программировании. Илья Щиров из Райффайзенбанка отметил, как генерация изображений для профессиональных целей может заменить услуги фотографов. Елизавета Гончарова из AIRI подчеркнула удобство создания датасетов для тренировки моделей, что экономит ресурсы разработчиков.

Доклады отдельных специалистов

Петр Савостин из Т-Банка рассказал о своем опыте улучшения клиентского опыта с помощью анализа данных. Внедрение ИИ в мобильные приложения и мессенджеры Т-Банка улучшило автоматизацию процессов и сократило количество обращений клиентов.

Валентин Малых из ИТМО подчеркнул, что генеративный ИИ не всегда необходим. В большинстве задач можно использовать проверенные методы, что снижает затраты и ресурсы.

Елизавета Гончарова из AIRI рассказала о перспективах мультимодальных моделей, которые могут работать с текстами, изображениями, видео и аудио. Эти модели позволяют решать широкий спектр задач, от бронирования отелей до подбора технических устройств по фотографии.

Михаил Комаров из Ростелекома поделился опытом оптимизации процессов с помощью ИИ. Ростелеком активно использует ИИ для повышения эффективности и качества обслуживания, внедряя инновационные решения для обезличивания данных и их генерации.

В заключение, эксперты отметили, что успешное внедрение генеративного ИИ требует внимательного подхода к безопасности и этике, а также использования данных для улучшения бизнес-процессов и клиентского опыта.

Подробнее
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Книга: «Data mesh в действии»

Время на прочтение17 мин
Количество просмотров3.1K
image Привет, Хаброжители!

Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.

Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.

Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать дальше →
Всего голосов 7: ↑5 и ↓2+9
Комментарии0

Истории

Пайплайны, разметка и версионирование — открытые решения для работы с неструктурированными данными

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров890

Подготовили подборку решений для анализа и обработки неструктурированных данных. Инструменты помогут с разметкой текста, построением соответствующих пайплайнов и версионированием масштабных сводов информации для машинного обучения и не только. Поговорим про Sycamore, Surya, OmniParse, Unstract и Oxen — каждый из этих инструментов имеет открытый исходный код.

Кроме того, организации могут значительно сэкономить на управлении и эксплуатации неструктурированных данных за счет объектного облачного хранилища. Запустили тест-драйв, проверяйте. 

Читать далее
Всего голосов 7: ↑7 и ↓0+10
Комментарии0

Реконсиляция в иерархическом прогнозировании временных рядов

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.1K

Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.

Читать далее
Всего голосов 9: ↑8 и ↓1+11
Комментарии0

Cloud Native vs Cloud Agnostic в Data Engineering'е: выбираем подход

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров464

Сейчас развертывание дата платформ и решений для аналитки в облаке - явление повсеместное. Кажется, что так было (и будет?) всегда. При этом существует постоянное (но не всегда очевидное) противостояние между подходами Cloud Native и Cloud Agnostic. Cloud Native поддерживает использование специфических сервисов конкретного облачного провайдера, в то время как Cloud Agnostic нацелен на создание приложений, которые могут работать на различных облачных платформах без изменений.

Важно осознавать различия между этими подходами и принимать обоснованные решения при выборе одного из них для своего проекта. Этот выбор может существенно повлиять на архитектуру, масштабируемость вашей дата платформы и стоимость разработки и поддержки.

Однако важно помнить, что не следует впадать в крайности и быть абсолютно приверженным только одному из подходов (вспомним акисому Эскобара). Иногда оптимальным решением может быть комбинация обоих подходов, чтобы достичь оптимального баланса между гибкостью и эффективностью.

В данной статье я попытаюсь описать подход, который в итоге я внедрил в своей команде для построения дата-инфраструктуры.

Читать далее
Всего голосов 2: ↑2 и ↓0+6
Комментарии0

XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.3K

Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI.

Как можно понять из названия, наша группа заинтересована в создании адаптивных агентов, способных обобщаться на новые задачи после обучения. Направление это относительно новое и в литературе именуется как контекстное обучение с подкреплением (далее in‑context RL). И мы активно двигаем его вперед! Совсем недавно выпустили две статьи, обе приняты на ICML 2024, а ещё среду на JAX со множеством задач для мета‑обучения. Мы обязательно расскажем о них чуть позже (подписывайтесь!), а в этой статье хочется затронуть наш недавний препринт. В нем мы представили и выложили в open‑source огромный (по меркам RL) и пока единственный датасет для in‑context RL. На сбор траекторий для 40к задач и 130B транзиций потребовалось 50 000 GPU‑часов. Эту работу мы проделали совместно с коллегами из лаборатории T-Bank AI Research.

Датасетом уже можно пользоваться, так что рассказываем и надеемся на будущий акцепт статьи! Ну а начнем чуть издалека, расскажу что такое in‑context learning, как он появился в RL и почему нам понадобился собственный датасет.

Читать далее
Всего голосов 10: ↑10 и ↓0+12
Комментарии4

Используем LLM, чтобы найти «бриллианты» в тексте

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

Привет всем! Меня зовут Александр Григорьев и я продуктовый аналитик в Innovative People. 

Год назад я писал про то, как с помощью современных LLM извлечь из множества текстовых данных эмбеддинги, и на их основе сделать аналитику того, какие темы есть в тексте.

Спустя время у меня и моих коллег накопилось несколько вопросов:

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Как установить Apache Spark за 10 минут

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров1.8K

Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!

Читать далее
Всего голосов 10: ↑4 и ↓6+2
Комментарии4

Что такое supervised fine-tuning?

Время на прочтение7 мин
Количество просмотров1.1K
Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных.


В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой.

Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи.

SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности.

Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров.

Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров.

Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.
Читать дальше →
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Кто такой Data Engineer | Дата Инженер

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии

Читать далее
Всего голосов 7: ↑3 и ↓4+1
Комментарии3

Как мы построили сервис, который поможет сократить поиск видео контента в огромной базе данных

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров876

Всем привет!

Меня зовут Дима Савелко, я лид команды нейро-сети.рф.

В мире, где короткие видеоролики становятся все более популярными, создателям видео контента все сложнее находить релевантные видео для своих целей. Мы решили эту проблему, создав сервис по поиску видеоконтента с помощью текста.

В статье мы расскажем, как мы использовали современные AI-технологии, чтобы сделать поиск видео быстрым и точным. Узнайте, какие решения мы приняли на каждом этапе разработки, и как наш сервис может улучшить вашу работу с видеоконтентом. Мы поделимся практическими советами и опытом, чтобы помочь вам избежать ошибок и максимально эффективно использовать возможности AI. Читайте нашу статью и узнайте, как сделать поиск видео проще и эффективнее!

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии8

Ближайшие события

19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Время на прочтение11 мин
Количество просмотров1.9K

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.

Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.
Читать дальше →
Всего голосов 4: ↑1 и ↓30
Комментарии1

Разметка данных — тренируемся на кошках

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров762

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания — разметка данных и ты, стояли на вечеренике под названием «Заработок в интернетах» в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто‑то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду.

И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными?

В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Всё что нужно знать про DuckDB

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров6.6K

В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.

Читать далее
Всего голосов 16: ↑14 и ↓2+17
Комментарии16

Руководство по Apache Spark не для начинающих: оптимизация

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров3.5K

Руководство по Apache Spark не для начинающих.

В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.

В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.

Читать далее
Всего голосов 19: ↑16 и ↓3+16
Комментарии5

Недвижимость и ее инфляционная «защищенность» в реальных цифрах

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.2K

Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!

Читать далее
Всего голосов 9: ↑5 и ↓4+5
Комментарии22

Комбинаторы в ClickHouse

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.7K

По мере работы приходилось часто сталкиваться с тем, что не все коллеги были знакомы с комбинаторами агрегатных функций в ClickHouse или же ограничивались использованием комбинатора -If. Это побудило меня написать статью. Надеюсь, она окажется для вас полезной.

Читать далее
Всего голосов 14: ↑14 и ↓0+18
Комментарии2

Data Vault: Мой опыт создания модели вручную

Уровень сложностиПростой
Время на прочтение51 мин
Количество просмотров1.8K

Как я делал Data Vault руками... или custom migrate a Data Vault c нотками Data Vault 2.0. Достаточно интересный способ провести время, но для начала углубимся в краткий экскурс.

Читать далее
Всего голосов 4: ↑3 и ↓1+5
Комментарии2
1
23 ...

Вклад авторов

Работа

Data Scientist
82 вакансии