Обновить
72.55

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Основа хорошей разметки — правильно подобранная команда и выстроенные процессы

Административных подходов к разметке данных несколько:

  1. Штатная команда: полноценно нанимаем ребят, трудовые договоры — всё как положено. Хорошо для больших задач, особенно, если необходим доступ к чувствительным данным.

  2. Самозанятые (администрируем сами): упрощённый вариант, который позволяет не брать людей в штат, а заключать с ними простые договоры на сдельную работу и использовать проектный бюджет. Из плюсов — быстрый «найм», оптимизация налогов, сдельная оплата. Из минусов — большая текучка и юридические сложности: нельзя предоставлять рабочее место и налоговой должно быть очевидно, что эти люди не идентичны штатным сотрудникам.

  3. Аутсорс-компании: сторонние команды, которые специализируются на разметке. Основное преимущество — масштабируемость и простота в администрировании для нас, как для заказчика. И плюс не нужна своя платформа разметки.

  4. Крауд-платформы: агрегируют большое количество исполнителей, которые могут выполнять ваши несложные задачи. Аналогично с предыдущим пунктом — не нужна своя платформа разметки, но нужно уметь ей грамотно пользоваться.

В статье «Туториал по организации процесса разметки данных» подробно описали, на примере штатной команды, как организовать процесс разметки, начиная со сбора команды и заканчивая методами оценки работы разметчиков.

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Как решить задачу «Сколько банкнот поместить в банкомат» с помощью ML-моделей

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы, тогда в одном банкомате наличность будет простаивать.

Как решить задачу с банкоматами читайте в статье.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Как мы создали FAQ для клиентов КНАУФ на базе RAG – из разрозненных документов и всего за 2 недели?

Привет, Хабр! Хотим поделиться кейсом внедрения Jay Knowledge Hub в клиентский сервис КНАУФ. Для тех, кто не в курсе, КНАУФ – крупнейший производитель строительных отделочных материалов из гипса.

В сфере строительства и ремонта у потребителей часто возникают вопросы, связанные с выбором подходящих материалов или их правильным использованием. Покупатели регулярно обращаются за советами в службу поддержки КНАУФ, причем, по статистике, до 50% запросов поступает в нерабочее время операторов.

Для общения с клиентами КНАУФ активно применяет ботов, которые доступны на сайте, в VK, Telegram, по электронной почте и через телефонные каналы. Однако традиционные чат-боты не всегда способны справиться со сложными запросами пользователей. А для КНАУФ важно не только быстро реагировать, но и давать клиентам полноценные консультации.

К тому же, учитывая огромный спектр продукции и нюансов ее применения, обучение сценарного бота занимает слишком много времени. Требуется время на разбор вопросно-ответных пар, проверку актуальности данных и обновление бота. Поэтому в компании решили попробовать новый подход на базе генеративного ИИ и интегрировали Jay Knowledge Hub, интеллектуальную систему для поиска по неразмеченным данным на основе RAG и дата-агентов.

  • Как Jay Knowledge Hub помог компании создать AI-ассистента Kai, который за две недели научился отвечать на 3000+ вопросов;

  • Как интеграция RAG-технологии повысила точность ответов до 89%;

  • Как Jay Knowledge Hub превращает документы (pdf, docx, таблицы) в единый источник знаний;

  • Какие настройки применялись для проекта КНАУФ: как повторить успех.

Приходите на вебинар 18 февраля в 13:00, чтобы узнать, как происходила интеграция Jay Knowledge Hub и узнать о возможностях платформы.
Зарегистрироваться можно по ссылке.

Теги:
Рейтинг0
Комментарии0

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Запланируйте, какие вебинары посетите в феврале 📅

Регистрируйтесь на бесплатные вебинары, чтобы узнать больше про работу с сервисами платформы Cloud․ru Evolution:

А еще на каждом вебинаре будет сессия вопросов и ответов, на которой вы сможете задать экспертам любые интересующие вопросы по теме.

Присоединяйтесь!

Теги:
Рейтинг0
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Конец профессии? Может ли ИИ заменить аналитиков?

Всем привет на связи data dreamen!

На фоне новостей о выходе новых моделей ИИ — DeepSeek и Qwen2.5-Max, которые, судя по тестам, местами даже превосходят решения OpenAI, снова возникает вопрос: что будет дальше? Сможет ли ИИ заменить меня, аналитика? И что мне с этим делать?

Если коротко — пока нет. Это подтверждает исследование Всемирного экономического форума: профессии, связанные с аналитикой данных и Data Science, занимают 11-е место среди самых перспективных к 2030 году. DWH-инженеры находятся на 6-м месте, а специалисты по Big Data и вовсе возглавляют этот список.

Однако, несмотря на высокий спрос на аналитиков, ИИ все же серьезно повлияет на рынок и характер работы в этой сфере. Вопрос в том, как именно.

① Автоматизация инструментов. ИИ будет активно заменять рутинные задачи, в том числе у аналитиков. Написание кода, выгрузка данных, подготовка отчетов — всё это будет автоматизироваться, минимизируя ручной труд.

② Развитие self-service. Чем больше задач автоматизируется, тем меньше заказчикам потребуется обращаться к аналитикам напрямую. Многие вопросы смогут решаться через self-service инструменты, снижая нагрузку на команду аналитики.

③ Масштабирование и рост зоны ответственности. ИИ возьмёт на себя базовые аналитические задачи, а аналитикам останутся более сложные, стратегические и ответственные решения — там, где автоматизация не справляется.

Что все таки ИИ не сможет сделать с аналитиками?

① Разработка и принятие нестандартных решений. ИИ — это модель, обученная на данных, но он не обладает креативностью и не умеет находить альтернативные пути решения. Когда нужно выйти за рамки типовых сценариев, роль человека остаётся ключевой.

② Контекст, бизнес-логика и коммерческая тайна. Во многих компаниях процессы настолько сложны, что даже человеку требуется несколько лет, чтобы в них разобраться. ИИ может помогать, но учесть все нюансы и скрытые факторы ему пока не под силу. К тому же, передача коммерческих данных открытым моделям может быть небезопасной.

③ Коммуникация. Аналитика — это не только цифры, но и умение "продать" свои выводы бизнесу, донести ценность и добиться внедрения решений. Даже идеальный расчет не будет полезен, если его не смогли правильно презентовать. Ну и, конечно, навыки постановки ТЗ у заказчиков пока не оставляют шансов ИИ полностью заменить аналитиков.

Что же в итоге нас ждет?

Скорее всего, компании будут разрабатывать собственные решения или внедрять рыночные инструменты для автоматизации аналитики, например:

  • конвертеры текстовых запросов в SQL-скрипты

  • АВ-платформы, которые смогут работать без участия аналитиков

  • визуализаторы данных, создающие отчёты по текстовому запросу

В результате акцент в работе аналитиков сместится: на первый план выйдут не базовые хард-скиллы (SQL, Python, BI-инструменты), а умение применять их в сложных и нестандартных ситуациях.

📉 К сожалению, это сильнее всего ударит по джунам — для принятия сложных решений нужен опыт, а простые задачи постепенно автоматизируются.

Но те, кто сможет адаптироваться, будут только в выигрыше! 🚀

Подписывайтесь на тг, там еще больше полезного и интересного про аналитику - https://t.me/data_dreamen

⁠⁠

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

В конце прошлого года Группа Arenadata выпустила обновления ряда своих продуктов.

Новые релизы:

  • Arenadata DB (ADB) — v6.27.1.59;

  • Arenadata DB Backup Manager (ADBM) — v2.3.2;

  • Arenadata DB Control (ADBC) — v4.11.0;

  • Arenadata Streaming (ADS) — v3.6.2.2.b1;

  • Arenadata Catalog (ADC) — v0.8.0;

  • Arenadata Cluster Manager (ADCM) — v2.5.0.

Обновления компонентов Arenadata Cluster Manager (ADCM):

  • Arenadata Monitoring (ADM) — v4.1.0;

  • Arenadata Enterprise Tools (ADET) — v2024121800.

В новых версиях улучшена производительность, исправлены ошибки, добавлен новый функционал и дополнительные возможности.

⛓ Текст обзора и ссылки на полное описание релизов здесь.

Теги:
Всего голосов 5: ↑4 и ↓1+3
Комментарии2

Малболг — язык из ада или как придумать что-то очень сложное и бесполезное.

Существует интернет-сообщество «эзотерические языки программирования». К нему в 1997 году присоединился американский студент Бен Олмстед. Он задался целью создать «адски сложный» для понимания язык и вскоре придумал Malbolge, названный так в честь восьмого круга ада из «Божественной комедии» Данте Алигьери. Про него рассказываем дальше.

В чём же сложности Malbolge? Их много. Чтобы сразу не было скучно, Бен отошёл от двоичной логики, заменив её на троичную. Подобным образом ранее поступили создатели советской ЭВМ «Сетунь», но совершенно из других побуждений.

Перед запуском в интерпретаторе программа на Malbolge выполняет инструкцию crazy (crz). Эта команда считывает из памяти два числа, сравнивает их в троичной системе и записывает результат в память. Операция повторяется до тех пор, пока выделенная интерпретатором память не закончится.

Добавляет сложности при написании программ ограничение в три регистра и восемь команд, а также тот факт, что сам язык неполный по Тьюрингу. Проще говоря, вы никогда не знаете заранее, возможно ли вообще на нём написать нужный вам код.

Другая уникальность Malbolge заключается в том, что программы на нём изменяют свой собственный код во время работы. Самоизменяющиеся инструкции были специально придуманы Беном для того, чтобы результат исполнения кода был неочевиден.

При этом в языке нет строго синтаксиса, определяющего порядок исполнения команд. После того, как команда исполнится, она шифруется (точнее, перекодируется) по таблице замены и при следующем вызове интерпретируется уже иначе.

Malbolge получился настолько крышесносным, что сам автор не осилил написать на нём даже «Hello World!». Вместо этого Бен сделал упрощённую версию языка Dis и программу на нём, которая печатала одну букву: «H».

Чтобы реализовать простейший Hello World на Malbolge, группе энтузиастов потребовалось два года, LISP и генетические алгоритмы, перебирающие варианты расшифровки команд. Вот как выглядел итоговый листинг:

(=<# 9]~6ZY327Uv4-QsqpMn&amp;+Ij"'E%e{Ab~w=_:]Kw%o44Uqp0/Q?xNvL:H%c# DD2^WV>gY;dts76qKJImZkj

Упоминание языка Malbolge есть в сериале «Элементарно» на CBS. В одном из его эпизодов преступник роняет записку с кодом на Malbolge, а Холмс расшифровывает его и получает подсказку.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

GlowByte приглашает на конференцию «PIX Day: Процессы, аналитика и роботы – для людей»

Друзья, 5 декабря в Москве пройдет PIX Day — первая большая конференция, посвященная всей экосистеме продуктов PIX Robotics и опыту её использования ведущими российскими компаниями.

В рамках мероприятия участники обсудят, как вывести аналитику данных и эффективность процессов на новый уровень и сделать бизнес умнее — с помощью программных роботов, ИИ и не только.

Что будет на PIX DAY:
✔️Погружение в экосистему продуктов PIX;
✔️Реальные кейсы по RPA и BI от крупнейших компаний, в числе которых: Зетта Страхование, Банк Уралсиб, Норникель, НПФ Будущее, Иннотех и многие другие.
✔️Мастер-классы по управлению процессами, роботизации с ИИ и визуализациям;
✔️Технологическая выставка партнеров;
✔️Полезные знакомства, общение и нетворкинг;
✔️Вручение наград PIX Awards.

👉 Зарегистрироваться 👈

Когда: 5 декабря, 10:00-17:00
Где: Офлайн в Москве

Если вы искали личной встречи с нами, это отличный повод пообщаться!
До встречи на стенде GlowByte!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Сегодня я хочу выложить в открытый доступ свою библиотеку на Scala. Библиотека реализует Directed Acyclic Graph (DAG) для выполнения задач внутри одного приложения (на замену Airflow и подобных не претендую :-)) и позволяет определять задачи с зависимостями, выполнять их в правильном порядке и обрабатывать исключения, которые могут возникнуть в процессе выполнения. Библиотека писалась через призму моих личных и профессиональных потребностей, поэтому не претендует на покрытие всех возможных кейсов, встречающихся в разработке вообще.

Use case:

Иногда возникает необходимость выполнять взаимосвязанные задачи/функции/классы в рамках одного приложения, где эти задачи могут быть частично параллелизованы, то есть их можно "собрать" в DAG для более эффективного использования ресурсов и повышения общей производительности. Например при обрабтке/загрузке данных или в event-driven приложении.

Особенности:

  • Управление задачами: Добавление задач с указанными зависимостями.

  • Гибкость: Выполенение всех или только некоторых задач (с сохранением зависимостей)

  • Обработка ошибок: Встроенная обработка ошибок с передачей исключений "наверх" для упрощенного их анализа.

  • Результаты выполнения задач: Возможность получения результата выполнения задач для дальнейшего их использования программным кодом.

Код, документация и инструкция по импорту и использованию доступны на GitHub.

Буду рад любым отзывам и предложениям по улучшению. Также не стесняйтесь задавать вопросы и заводить issue :-)

Теги:
Рейтинг0
Комментарии0

Навстречу большим данным: аналитика, которая работает

📅 21 ноября в 16:00 (МСК) на онлайн-митапе К2 Cloud разберем, как с помощью аналитических инструментов на базе продуктов K2 Cloud, Arenadata и K2Тех можно решать практические задачи бизнеса: снизить отток клиентов, оптимизировать процессы, контролировать сложную логистику и обеспечить качественную отчетность.

Темы:

  1. Актуальные задачи компаний при работе с большими данными: оценка окупаемости проектов big data, запуск пилотного этапа для реализации конкретных бизнес-целей с помощью аналитики данных

  2. От ритейла до банков: как мы переводим компании с Excel на Greenplum, локализуем инструменты big data на отечественных продуктах и создаем корпоративные хранилища данных «с нуля»

  3. Best practice на примере крупной FMCG-компании: ключевые задачи, решения, результаты и ценные лайфхаки

Онлайн-митап будет вам полезен, если вы:

  •  Только готовитесь к проектам big data и ищете, с чего начать

  • Развиваете инфраструктуру для работы с большими данными и оптимизируете бизнес-процессы

  • Хотите узнать, как адаптировать инструменты big data под специфические задачи вашего бизнеса

  • Желаете познакомиться с успешными кейсами и получить полезные рекомендации от экспертов в сфере больших данных и облачных технологий

  • Интересуетесь размещением инструментов big data в облаке

🔗 Подробности и регистрация по ссылке.

Теги:
Рейтинг0
Комментарии0

Ближайшие события

Привет! Я — Ося, разработчик в Инновационном Центре «Безопасный транспорт», ваш виртуальный проводник в мир технологий и разработки. В блоге рассказываю, как решаю сложные задачи и делюсь знаниями. Здесь мы будем разбираться в коде, обсуждать подходы к проектам и актуальные тренды в IT. Пишу о разработке, больших данных и инновационных технологиях.

Я — робот-осьминог и талисман ИЦ, который иллюстрирует разносторонность и многозадачность нашей команды. Мои 8 щупалец представляют различные направления работы, а 3 сердца обеспечивают высокую эффективность. Отсутствие скелета позволяет гибко адаптироваться к изменениям, а более 1000 рецепторов на щупальцах помогают мне воспринимать малейшие колебания в окружении.

Я способен погружаться глубоко в изучение вопросов, что помогает развиваться и искать новые решения. Подписывайтесь на обновления, и давайте вместе исследовать мир технологий!

Теги:
Всего голосов 4: ↑2 и ↓2+3
Комментарии0

Где используется машинное обучение? Примеры использования машинного обучения - на картинке ниже.

Тут писала про бесплатные курсы, которые мне понравились и я рекомендую.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как Duolingo добилась успеха на рынке и причем тут аналитика

Duolingo — одно из самых популярных приложений для изучения языков (№1 по скачиванию в магазинах приложений). Вместо скучных уроков оно напоминает игру: прогресс, уровни, награды, упражнения мини-игры и др.

По данным компании, около 34 млн. человек используют Duolingo каждый день.

Но что стоит за этим успехом?

Один из ключевых принципов компании — "Тестируй всё". Постоянные эксперименты помогают Duolingo улучшать процесс обучения и находить новые решения для роста.

В любой момент в Duolingo могут проводиться несколько сотен A/B тестов одновременно. Экспериментируют со всем: от мелких изменений интерфейса до запуска крупных функций, как Лидерборды. Для A/B тестирования компания разработала собственный сервис.

➡ Как выглядят эксперименты в Duolingo: статья.

➡ Пример A/B тестирования: формирование привычки учиться регулярно: статья.

➡ Какие аналитические инструменты использует компания для анализа данных: статья.

О других принципах успеха Duolingo и работе в этой компании писала тут.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве

MeetUP делится на два блока:
1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!

А вас ждут:

🟢выступления практикующих AI-инженеров
🟢инструменты создания GenAI-приложений
🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices

Узнать расписание и зарегистрироваться

Количество мест ограничено!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Хабр, привет!

Зовём вас встретиться и поговорить про Data Build Tool.

8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:

➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
➡ Как разные компании и команды применяют DBT для решения задач Data Governance?

Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.

⭐ Когда: завтра, 8 октября в 19:00 мск
⭐ Регистрация — через бота.

Приходите!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

Больше чем Pandas: библиотеки подготовки данных для ML-моделей

А завтра, 24 сентября, зовём вас на открытый вебинар с Владимиром Бугаевским, тимлидом команды Поиска в Купере.

Встретимся и вместе разберём:

→ на что стоит обратить внимание для эффективной работы с данными;
→ форматы работы с данными и их особенности;
→ фреймворки pandas, swifter, polars, dask и cudf.

Будем не только слушать, но сразу ещё и делать — для этого все участники получат доступ к jupyter-ноутбукам.

🖍 24 сентября в 19:00 мск
🖍 Регистрация — в нашем боте

Приходите!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Вклад авторов