Как стать автором
Обновить
59.1

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Дилемма моделирования в рамках Data Vault/Anchor Modeling: объект или событие

Время на прочтение6 мин
Количество просмотров13K

Всем привет :) 

Меня зовут Голов Николай, я строю платформу данных на основе Snowflake и Anchor Modeling в ManyChat.

В этой статье я уже подробно рассказывал, как решал аналогичную задачу  в Авито, используя Vertica и методологию Anchor Modeling. В комментариях меня спрашивали, с какими сложностями приходится сталкиваться при использовании этой модели, поэтому сегодня я решил поговорить именно о них и заодно поделиться решением, к которому мы пришли.

Читать далее

Программирование с dplyr

Время на прочтение10 мин
Количество просмотров2.6K

Большинство глаголов dplyr так или иначе используют аккуратную оценку (tidy evaluation). Tidy evaluation - это особый тип нестандартной оценки, используемый во всём tidyverse. В dplyr есть две основные формы tidy evaluation:

Описанные концепции обращения к переменным таблиц делают интерактивное исследование данных быстрым и гибким, но они добавляют некоторые новые проблемы, когда вы пытаетесь использовать их косвенно, например, в теле цикла for или собственной функции. Эта статья поможет вам разобраться как преодолеть эти проблемы. Сначала мы рассмотрим основы концепций data masking и tidy selection, поговорим о том, как их использовать косвенно, а затем рассмотрим ряд рецептов решения наиболее распространенных проблем.

Читать далее

Почему при разработке ИИ главное — это данные

Время на прочтение7 мин
Количество просмотров4.6K

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.

Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.
Читать дальше →

Как мы общебанковскую Informatica пилили

Время на прочтение6 мин
Количество просмотров2.7K

Однажды ребята позвали создать общебанковский контур ETL Informatica (Data Integration) и вот что из этого вышло.

Данный пост не является рекомендацией к действиям или последней инстанцией, тут описан подход который работает, возможно, что то можно улучшить (с).

Читать далее

Terality — автоматически масштабируемая альтернатива Pandas

Время на прочтение5 мин
Количество просмотров5.6K

К старту флагманского курса по Data Science делимся туториалом по библиотеке Terality, которая сильно облегчит работу с действительно большими наборами данных даже на маломощных машинах. За подробностями приглашаем под кат.

Читать далее

Логистика и цепи поставок в жанре магического реализма

Время на прочтение15 мин
Количество просмотров8.4K

В предыдущей статье я описала применение технологий location intelligence для определения оптимального месторасположения дарксторов. В следующей – опишу вторую ключевую часть логистики последней мили - решений для планирования оптимальных маршрутов курьеров с учётом пробок и других данных.

При этом доставка последней мили – это хоть и важный, дорогой и любимый инвесторами и стартапами, но всё же почти финальный этап в процессе движения товаров по цепи поставок.

После неё следует разве что что возврат товара, если не подошло, а также иногда утилизация уже использованных товаров (в последние годы логистика утилизации стала очень востребованной в условиях захвативших прогрессивное сообщество ESG-настроений).

А до последней мили – сложный процесс управления движением потоками материалов и товаров, финансов и информации по сложным цепям поставок.

Поэтому в этой статье расскажу о том, почему меня в целом вдохновляет управление цепями поставок и логистика в части использования location intelligence и AI и цифровизации в целом, почему «цифровой дарвинизм» особенно беспощаден именно этой отрасли и зачем именно в логистике мы делаем пилот.

Читать далее

Сравнение полносвязной сети и сверточной нейросети LeNet 5

Время на прочтение12 мин
Количество просмотров11K

Привет! Меня зовут Елдар, я – Machine Learning Engineer в компании Beeline Казахстан и студент магистратуры в Университете Цукуба. Работаю дистанционно из Японии, занимаюсь улучшением моделей аутентификации лиц.

В моей работе, как и в исследованиях, важно следить за научным прогрессом и понимать ключевые особенности нейронных сетей. Поэтому я решил обучить, сравнить и рассмотреть возможные методы улучшения двух архитектур нейросети: полносвязную сеть и сверточную нейросеть LeNet 5.

Чтобы написать эту статью, я реализовал полносвязную многоуровневую сеть и архитектуру LeNet 5 в TensorFlow и протестировал на наборе данных MNIST по таким характеристикам как время обучения, время вывода (inference time), точность (accuracy) и потери (loss). А также сравнил полученные показатели с современными методами.  Время обучения включает проверку на валидационной выборке после каждой эпохи. Время вывода показывает время, необходимое для вывода результата после вскармливания одного изображения.

Сравниваем

Big Data с «кремом» от LinkedIn: инструкция о том, как правильно строить архитектуру системы

Время на прочтение9 мин
Количество просмотров8.6K

«Традиционно, самым узким местом в архитектуре любой информационной системы является система управления базами данных (СУБД). Можно сколько угодно оптимизировать прикладное программное обеспечение (ПО), но все равно упремся в ограничения в части производительности запросов». В своем материале я рассказываю о том, как построить архитектуру системы без слабых мест, и кого для этого стоит принести в жертву.


Читать дальше →

Разметка данных для машинного обучения: обзор рынка, методики и компании

Время на прочтение13 мин
Количество просмотров11K
Большая доля data science и машинного обучения зависит от чистых и корректных источников данных, поэтому неудивительно, что скорость роста рынка разметки данных продолжает увеличиваться. В этой статье мы расскажем о многих крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора наилучшего партнёра в соответствии со своими требованиями.


Рынок разметки данных развивается невиданными ранее темпами. В прошлом году его сегмент сторонних решений достиг более 1 миллиарда долларов; ожидается, что он продолжит стабильное расширение в течение следующих пяти лет, и к 2027 году превзойдёт 7 миллиардов долларов. Наблюдая впечатляющий ежегодный рост на 25-30%, некоторые источники, в том числе и Grand View Research, считают, что к 2028 году рынок будет стоить не менее 8,2 миллиарда.
Читать дальше →

Почему я изменил своё мнение о слабой разметке для ML

Время на прочтение9 мин
Количество просмотров4.4K

Когда чуть больше года назад я впервые услышал о слабой разметке, то поначалу отнёсся к ней скептически. Суть слабой разметки (weak labelling) заключается в том, что можно заменить аннотированные вручную данные на данные, созданные по эвристическим правилам, написанным специалистами в соответствующей области. Мне это показалось совершенно нелогичным. Если можно создать очень хорошую систему на основе правил, то почему бы просто не использовать эту систему? А если правила недостаточно хороши, то разве не будет плохой и модель, обученная на шумных данных? Это казалось мне возвратом в мир конструирования признаков, которому должно было прийти на смену глубокое обучение.

Однако за последний год моё отношение полностью переменилось. Я поработал над множеством NLP-проектов, в которых было задействовано извлечение данных, и намного сильнее углубился в изучение литературы про обучение со слабым контролем. Также я пообщался с руководителями команд ML в таких компаниях, как Apple, где услышал истории о том, как целые системы заменяли за считанные недели — благодаря сочетанию слабого контроля и машинного обучения им удавалось создать обширные наборы данных для языков, ресурсов по которым было мало и которые раньше попросту не обслуживались!

Поскольку теперь я обладаю энтузиазмом новообращённого, мне хочется рассказать о том, что такое слабый контроль, чему я научился и почему, на мой взгляд, в области аннотирования данных он дополняет такие техники, как активное обучение.
Читать дальше →

5 грязных трюков в соревновательном Data Science, о которых тебе не расскажут в приличном обществе

Время на прочтение5 мин
Количество просмотров25K

Поговорим про способы жульничества в Data Science.

Читать далее

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Время на прочтение7 мин
Количество просмотров1.5K

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Читать далее

Ближайшие события

Как следить за тысячей метрик и не сойти с ума. Без программирования (почти)

Время на прочтение6 мин
Количество просмотров5.2K

В нашей компании (GFN.ru) мы очень сильно опираемся на данные. По каждой игровой сессии мы анализируем десятки параметров. Постройка и содержание системы метрик и алертов - очень затратная вещь и со временем ее поддержка становится трудоемкой и появляется риск забивания. С помощью ML мы решили эту проблему.

Читать далее

Кейс внедрения системы сквозной аналитики для лизинговой компании на базе Power BI

Время на прочтение12 мин
Количество просмотров5.7K

С каждым днем компании все чаще сталкиваются с проблемой, что аналитика рекламных кампаний занимает много времени у сотрудников, что увеличивает сроки выполнения задач. Помимо этого, выводы, сделанные на основании исследований эффективности рекламных каналов, являются субъективными и имеют приблизительное значение. Из-за этого стратегия маркетинга и компании в целом составляется неверно, что ухудшает ситуацию бизнеса, либо оставляет ее без изменений.

Исходя из существующей проблемы, компании приходят к выводу, что им необходима сквозная аналитика, которая поможет решить данную задачу и устранить недостатки.

Внедрение сквозной аналитики в компании «Leasing Company» прошло успешно, все работает стабильно, однако еще будут проведены доработки в дашбордах и со временем будут подключены новые источники информации. С точки зрения экономики, данное внедрение можно считать дорогостоящим, однако, это разовые траты, которые окупятся после первого же месяца, так как аналитика поможет дать четкие и объективные суждения, насчет состояния рекламных кампаний, снизит затраты и увеличит прирост как клиентов, так и доходы компании. Помимо этого, будет сэкономлено время на выполнение других задач.

Компании необходимо добавить оставшиеся рекламные источники, чтобы вся информация хранилась в одном месте и позволяла быстро анализировать данные, которые постоянно автоматически обновляются. Самым основным источником будет являться подключенная CRM – система. Именно она хранит в себе самую важную информацию о клиентах.

Внедрение сквозной аналитики однозначно является одним из полезных современных решений по повышению эффективности всей компании, увеличению ее доходов и укрепление своих позиций на рынке или даже выход на новый уровень.

Читать далее

Обходим файловый кэш Google Drive в Colab

Время на прочтение2 мин
Количество просмотров9.8K

Про colab знают, наверное, все. Этот инструмент позволяет независимым исследователям использовать облачную инфраструктуру с GPU и TPU бесплатно или почти бесплатно.

Как всегда, проблемы возникают на больших данных. Если ваш датасэт лежит в google drive (он же Диск), то вы можете обращаться к нему напрямую из colab. Однако, если файл велик, например, 70+ GiB, то процесс обучения будет существенно медленнее, чем если бы этот же файл лежал в локальном хранилище, которое выделяется при создании инстанса.

Выход - скопировать файл с Диска в локальное хранилище (обучение станет быстрее в несколько раз!). Но дело в том, что colab и вся инфраструктура очень умная, файлы с Диска кэшируются каким то неуправляемым вами алгоритмом. И если у вашего инстанса, допустим, доступно ~120 GiB, то 70 GiB с Диска вы не скопируете, у вас закончится свободное место как раз из-за системы кэширования. То есть, команда cp не отработает корректно. И rsync то же. И tar. Кэширование работает на уровне драйвера. По сути файл копируется в локальное хранилище дважды. Шах и мат!

Так что вот вам небольшой костылёк:

Читать далее

Как увеличить точность модели с 80% до 90%+ (мой опыт)

Время на прочтение4 мин
Количество просмотров18K

Разберем способы поднять точность модели!

Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна!

Наверное, уже только ленивый не слышал про Data Science и то, как модели машинного обучения помогают прогнозировать будущее, но самое крутое в анализе данных, на мой взгляд, - это хакатоны! Будь-то Kaggle или локальные соревнования, везде примерно одна задача - получить точность выше, чем у других оппонентов (в идеале еще пригодную для продакшена модель). И тут возникает проблема...

Читать далее

Гражданская разведка разрушила государственную монополию на расследования

Время на прочтение4 мин
Количество просмотров48K


Мы уже рассказывали о Bellingcat и других детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения важных для общества расследований, результаты которых выкладываются в публичный доступ.

Взявшись за проблему, группа «интернет-сыщиков» способна перелопатить кучу информации и обнаружить детали, которые прошли мимо внимания профессионалов, как тот стелс-бомбардировщик на спутниковых снимках Google Maps.

За последние годы гражданская разведка провела несколько эффективных и ярких расследований.
Читать дальше →

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

Время на прочтение5 мин
Количество просмотров5.7K

Привет, Хабр! На связи Александр Попко и Игнат Старшов, и сегодня мы расскажем про наш продукт ЭКОНС – систему визуализации, которая приносит СИБУРу миллиарды рублей в год.

Для наших производств соблюдение правильного технологического режима — очень важный фактор. Во-первых, дело в безопасности: если тот или иной показатель достигает критической отметки, скажем, температура или давление, случиться может всякое. Обычно не очень приятное. Так что за этим пристально следят, как специально обученные люди, так и автоматика.

Во-вторых, экономический эффект. Он тоже сильно зависит от выбранного инженерами и оператором нужного технологического режима. И вот здесь иногда сталкиваются две точки зрения, ведь оператор обычно мыслит в тоннах, а менеджер — сразу в рублях.

Поэтому мы создали конструктор под названием ЭКОНС. Если вкратце, то он помогает оператору наглядно (и что важно — в реальном времени) оценивать, как выбранный им режим технологического процесса прямо сейчас влияет на экономическую эффективность.

Общий экономический эффект от внедрения ЭКОНС на наших предприятиях —  уже около 2,7 млрд рублей. В статье рассказываем, как устроен продукт.

Читать далее

Методика машинного обучения Human-in-the-Loop

Время на прочтение9 мин
Количество просмотров8K

Human-in-the-loop AI — это технология автоматизации, устраняющая многие проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии внедрения. Ещё большее количество никогда не вернёт вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако при традиционном подходе об этом забывают.

Многие команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро развернуть работающую модель с меньшим количеством данных и с гарантированно качественными прогнозами. Это похоже на чудо, но в своей статье мы расскажем, что такое HITL и как вы можете использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах, при HITL система ИИ и команда людей совместно работают над реализацией задачи.
Читать дальше →

Вклад авторов