Apr 17 2023 at 13:16

Достучаться до ИИ: сезон больших данных на Хабре

15 min

27K

Ладно, не заливай! Ни разу не был на берегах Data Lake?! Пойми, в IT только и говорят, что о Data Lake! Как оно бесконечно прекрасно. О бигдате и графах, которые они видели. О том, как дата-сайентист, погружаясь в море данных, преисполнился знания. Мы не хотим, чтобы Хабр там наверху окрестили как-нибудь не так, а потому ещё с начала года мощно прокачиваем ИИ-ландшафт самыми хардкорными и глубокими текстами: уже отгремел сезон ML, закончилась неделя нейроарта, а теперь совместно с Газпромбанком стартует сезон Big Data.

UPD. Сезон окончен, подробности и результаты собраны в итоговой публикации.

Зачем это нужно

Большие данные — топливо современной экономики. Маркетинговая и продуктовая аналитика, решение управленческих и процессных проблем, настройка алгоритмической ленты в соцсетях и даже предсказание ближайших поломок оборудования атомных электростанций, прибаутки ChatGPT — всё это возможно только благодаря тому, что кто-то заморочился, собрал кучу информации и отыскал в складках функции потерь хороший локальный минимум.

Эта сложная и наукоёмкая сфера развивается каждый день. Быть в курсе всех интересных кейсов и выбрать из огромного потока новостей самое главное в одиночку — просто невозможно. Поэтому так важно, чтобы эксперты делились друг с другом и с сообществом своими важными наработками и мыслями.

Зачем продвигать статьи про большие данные

Мария Косарева

Вице-Президент, начальник Департамента анализа данных и моделирования в Газпромбанке

Хороший кейс или описание нового интересного алгоритма могут на десятки процентов увеличить доход бизнеса или разрешить серьёзные социальные проблемы.
Говорят, что данные — это новая нефть. Они повсюду, их зеттабайты, причем данные принадлежат и никому, и всем одновременно. Казалось бы, каждый человек может воспользоваться данными, но, как и в случае с энергоресурсами, в реальности лишь немногие способны построить сложную инфраструктуру, собрать команду специалистов, умеющих работать с данными и предиктивной аналитикой, инвестировать во внедрение машинного обучения и встроить его в свои бизнес-процессы.
В работе с Big Data и искусственным интеллектом сейчас заинтересованы большинство отраслей: производство, страхование, логистика и, конечно, FinTech. Газпромбанк внедряет машинное обучение не только в процессы кредитования и формирования персонализированных предложений. Мы заинтересованы максимально использовать в процессах data-driven-подход, основанный на данных, а не субъективном мнении.
Сейчас мы реализуем несколько крупных проектов по внедрению искусственного интеллекта в работу со сканами и документами (computer vision), HRTech (графовая аналитика взаимодействия сотрудников), разбор платёжной строки (NLP), оптимальное размещение офисов и банкоматов (геомоделирование) и многое другое. Для нас работа с данными — это способ упрощения работы, дополнительного заработка и сокращения издержек, а не просто хайп.

Правила сезона

Сезон Big Data пройдёт с 17 апреля по 07 июня. Дедлайн приёма заявок — 23:59 07 июня 2023.
Побеждает публикация с наивысшим рейтингом. Голосовать за лучшую статью можно на протяжении всего сезона, а после его завершения мы объявим результаты.
Один автор может прислать сколько угодно заявок. Принимаются не только новые, но и старые тексты, опубликованные после 11 апреля 2023.
Участвовать могут все — даже авторы из «Песочницы». Отличная возможность привлечь максимум внимания к вашей первой статье и сразу попасть «в основу».

Призы и слава

Замолвим за вас словечко перед Skynet и Матрицей — выдадим всем авторам плашку «Участник сезона Big Data», а победителю достанется значок «Победитель сезона Big Data» и дополнительный инвайт на Хабр. Машины вас не забудут.
Автору самой рейтинговой статьи достанется Apple MacBook Air 13.

Грант на 30 000 ₽ для подготовки ещё одной классной статьи (если на новую статью нет времени, грант можно передать другому участнику).

Требования к статьям

В центре внимания статей — Big Data. Применение в реальных задачах, настройка инфраструктуры, подготовка данных, новые подходы к обучению.
Мы ждём статьи, основанные на личном опыте и собственной экспертизе: опыт разработки и использования инструментов Big Data, инструкции по решению задач и проблем, собственное профессиональное мнение и взгляд на развитие этих технологий.
Статьи должны быть полезны другим пользователям и читателям: помогать в работе, разбивать предрассудки, решать профессиональные задачи. Если опытный дата-инженер или дата-аналитик прочитает вашу статью и применит что-то в своей работе — это и есть технохардкор. Материал должен быть про использование, внедрение и построение инфраструктуры работы с большими данными.
Без лишней рекламы или антирекламы. Можно упоминать бренды там, где это уместно, но посвятить статью пиару своего продукта или компании или знатно набросить на конкурентов не получится: все заявки отсматриваем вручную, так что «SPAM! SPAM! SPAM!» не просочится.

Как подать заявку

Написать текст для хаба Big Data. Если сомневаетесь, подойдёт ли тема — можно спросить у @mimizavr.

При публикации добавить к статье тег «сезон big data». Важно: можно прикрепить тег и к старой статье, если она опубликована с 10 апреля 2023 по 07 июня 2023.

Дождаться проверки модератором. Если публикация подойдёт под критерии сезона, мы отметим его специальной плашкой под заголовком и добавим в список под анонсом. О результатах модерации вы получите оповещение.

Идеи для статей

По нашему опыту, один из самых сложных барьеров при старте работы со статьями — выбрать тему. О том, что написать в Сезон, мы спросили победителя Сезона Data Mining и ChatGPT. Сравнивайте, вдохновляйтесь, но не путайте инструмент с профильной экспертизой.

Давид Дале

aka cointegrated. Разработчик / Аналитик / Data Scientist / NLPшник

Сейчас у меня основная область интересов – NLP, а в её рамках –
опенсорсные инициативы (особенно не от компаний, а от независимых
энтузиастов), и работа с маленькими моделями (в противоположность
нынешнему хайпу вокруг LLM).

ChatGPT

Генеративный искусственный интеллект

Я могу помочь вам сгенерировать некоторые темы статей для хаба Big Data на сайте Habr.com. Вот три возможные темы:
- Большие данные и искусственный интеллект: как интегрировать NLP и Computer Vision в свои решения;
- Как выбрать подходящий инструмент для визуализации больших данных: обзор популярных библиотек и фреймворков;
- Как применять методы глубокого обучения для анализа больших данных: преимущества и ограничения.

Статьи-участники

Кейс внедрение Dbt в Детском Мире
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.

Как Почта моделирует риски потери отправлений
Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.

Расчет скидки за первый и последний этаж в Excel (Часть 2)
В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.
Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.

Что такое Self-Service BI и зачем он нужен?
Habr, привет! Меня зовут Женя, и в настоящий момент я лидер направления Self-Service BI в крупном FMCG. Очень хочется начать делиться с вами своими знаниями и наработками, поэтому в рамках первой небольшой статьи решил рассказать вам максимально просто о том, а что же такое Self-Service BI. Поэтому давайте познакомимся с основными подходами к построению Business Intelligence и поймем, почему важен процесс Self-Service.

Все DETRы мира. Часть 2
В прошлой части мы поговорили про эволюцию DETR. Сегодня продолжаем обсуждать вариации архитектуры и нюансы их имплементации. DETR предложил новую архитектуру для детекции - с энкодером, декодером, positional queries, двумя типа этеншна. Но ещё одним ключевым нововведением стал уникальный one-to-one matching loss. Вместо матчинга нескольких предсказаний и одной GT-коробки, мы находим оптимальную комбинацию, которая даёт минимальный лосс. Есть ли у этого подхода недостатки? Оказалось, что да.

Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra
В предыдущей статье я рассказал, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark. Особенностью поставленной задачи являлось организация системы под управлением ОС Windows 10 Pro, в Docker‑контейнерах. Эксперимент оказался не вполне успешным. В данной статье я покажу, как воспользоваться имеющимися наработками и запустить Spark Jobs в Kubernetes в режимах client и cluster, опишу особенности работы с Cassandra в Spark, покажу пример обучения модели и ее дальнейшего использования. В этот раз буду использовать язык Kotlin. Репозиторий с кодом доступен на GitLab. Данная статья представляет интерес для тех, кто интересуется системами Big Data и стремится создать систему, позволяющую, в том числе, выполнять задачи распределенного машинного обучения на Spark в Kubernetes, используя GPU NVidia и Cassandra для хранения данных.

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX
Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA. Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Кластеризация текста в PySpark
На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем. Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.

Сassandra для бедных — пускаем в ход HDD
Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.

Все DETRы мира. Часть 1
Я - большой фанат задачи детекции, она мне нравится по всем критериям. Она самая интересная концептуально - одновременно нужно и искать объекты, и определять их тип <....> В 2020 году вышла крутая статья про новую архитектуру для детекции - DETR. Она меня очень вдохновила, и я тут же бросился впиливать её в проект Маммография (ММГ), тем более что код был с виду очень простой. После недели мучений я не смог выжать ничего адекватного - обучалось ужасно, долго и предиктило в основном фигню. Возможно, я где-то набаговал, но возиться дольше не хотелось. Тем не менее, все три года идея всё-таки впилить DETR преследовала меня по пятам, тем более что за это время вышло несколько десятков статей, тем или иным образом улучшающим оригинальную архитектуру. И вот, в один прекрасный день я зачем-то решил прочитать вообще все статьи про DETRы, а заодно попробовать несколько вариаций в ММГ. Задача оказалась слегка сложнее, чем я ожидал…

Структурирование кредитного портфеля методами машинного обучения
Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.

Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно <....> В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.

Бигдата, ты ли это?
Возможно ли не замечать “лишних” 30 Tb данных на SSD при живом настроенном мониторинге и героически их обслуживать? Запросто, а ответы на вопросы кто же эти наблюдательные люди, как им это удалось и причем здесь PostgreSQL - ниже.

Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей
Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект. Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.

Привет, Хабр, это команда Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?

Её величество Иерархия. Классификация и способы хранение в MS Excel
Иерархия, как структура данных, встречается очень часто. В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами.
Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.
В статье я разберу ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?»

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация
Категориальные данные имеет огромное значение в DataScience. Мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса. Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных. Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации.

Байесовский подход к АБ тестированию
Байесовский подход к АБ-тестам — альтернатива частотному (фреквентистскому) подходу. Поговорим о том, как заменить p-value на более интерпретируемые метрики, используя байесовские методы. На примере теста конверсии сравним частотный и байесовский подходы.

Сравнение технологии JuniStat и лазерных систем для беговых тестов
При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются. Как измеряют время рывка сейчас?

Data-driven рост с помощью науки о данных и машинного обучения
Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.

Применение методов CRISP-DM для анализа Big Sales Data
Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.

MapReduce: как и зачем?
Данная статья будет интересна просто любопытствующим людям и тем, кому нужно базовое теоретическое знание MapReduce'а. Сам по себе MapReduce уже устарел.
Если вы в поиске хороших решений, то увы, в этой статье не будет вестись
речь о готовых инструментах.

Мигрируем с Qlik: как создать надежное хранилище для ваших данных
Последние 12 месяцев много обсуждается тема миграции с ИТ‑систем, которые оказались недоступны в России. Во всех компонентах ИТ‑инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес‑аналитики. Иностранные BI‑системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность.

Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI‑решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI‑инструмента, как Qlik.

Как дать крылья своей сводной таблице в Apache Superset
Меня зовут Артур, и я Python-разработчик. Хочу поделиться опытом доработки Apache Superset и рассказать, как мы использовали его для визуализации больших объемов данных в рамках сводных таблиц. Apache Superset - это мощный инструмент для визуализации данных, который широко используется в Open-Source сообществе. Его главными достоинствами являются: простота использования, масштабируемость, поддержка множества источников данных и расширяемость. Но, несмотря на все эти достоинства, в практическом применении могут возникать проблемы, связанные с необходимостью правильной настройки и оптимизации Superset для конкретных задач.

Как мы организовали Data Warehouse в MANGO OFFICE
Меня зовут Борис Садовский, я руководитель группы развития корпоративного хранилища данных (КХД) в MANGO OFFICE. Решил написать статью о состоянии Data Warehouse (DWH), где рассматриваю проблемы, с которыми сталкивалась компания в процессе работы с данным, и методы их решения.

Как мы делали скоринг на микросервисной архитектуре руками не-программистов
2023 год — год противоречивых сигналов для будущего IT-отрасли и, в частности, занятости айтишников. С одной стороны, с поголовной цифровизацией всех сфер и процессов экономики растёт спрос на разработчиков — что, безусловно, плюс для айтишников. С другой — необходимость участия программистов во многих прежде «аналоговых» процессах как таковая стала превращаться в препятствие для цифровизации. Естественным образом, со стороны заказчиков и работодателей возник спрос на решения, которые позволят оцифровывать и автоматизировать процессы без необходимости заменять весь прежний штат программистами. Компании ищут выходы где угодно, включая надежды на то, что программистов заменят нейросети.
В реальности все, кто хоть немного разбираются в вопросе, понимают, что до этого далеко: во многих чувствительных областях нейросети, возможно, никогда не заменят человека — потому что с человека можно спросить за ошибки, а с нейросети взятки гладки. Реальным ответом на запрос рынка видятся сегодня low-code и no-code — то есть, технологии создания ПО с помощью визуального редактора с минимальным написанием кода или без написания кода вообще.

Как рассчитать скидку за первый и последний этаж почти без формул в Excel
В продолжение рассказов о Big Data для простых смертных предлагаем попробовать себя в решении жилищного вопроса: как отличаются цены за квадратный метр на разных этажах. Житейская польза от этой заметки заключается в получении без особых усилий и без специальных навыков достоверных знаний об ожиданиях на рынке недвижимости. Государство скрывает цены реальных сделок, но иметь адекватное представление о настроениях продавцов можно и без знакомого опытного риелтора, сына маминой подруги.
Статья представляет собой пошаговую иллюстрированную инструкцию по решению задачи анализа этажности городской застройки, в т.ч. расчет скидок за первый и последний этажи. В качестве модельного города принят Брянск. Расчетный файл прилагается и его листы пронумерованы в последовательности выполненных операций. Шаблон расчета легко адаптировать для другого города и вида недвижимости.

Геопространственные технологии для управления паспортом медицинского участка
Все началось с голосовых роботов. Во время борьбы с Ковидом наш коллцентр, носящий теперь гордое имя Центр телефонного обслуживания граждан 122, все чаще и чаще выстраивал очереди со временем ожидания ответа оператора свыше 30 минут. Нанять больше людей и начать стабильно укладываться в норматив ответа оператора менее 3-х минут не позволяли размеры помещения и фонда оплаты труда.
Стали пробовать решения для автоматизации контакт центров, которые можно было бы интегрировать с медицинской информационной системой (МИС).

За 3 месяца пилотирования NLP продукта и его интеграции действующие в бизнес-процессы удалось добиться вменяемых результатов по распознаванию номеров медицинских полисов, адресов проживания и имени пациентов. Даже удалось удержать среднее время обслуживания одного звонка на уровне 100 секунд… Однако процент автоматических обслуженных обращений болтался в диапазоне от 11 до 30 процентов, и пациенты продолжали томится в ожидании ответа оператора.

MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей. Часть 1: предыстория создания
Добрый день! Меня зовут Евгений Овчинцев, я работаю в компании Neoflex и в настоящее время являюсь архитектором продукта Dognauts. В данной серии статей я планирую рассказать о том, как создавался и развивался продукт: почему принимались те или иные решения, с какими проблемами пришлось столкнуться и что из всего этого получилось.

FineBI 6.0: 9 полезных обновлений, о которых вы не знали
Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.

Big Data в облаках
Сегодня хотим затронуть тему облачных технологий. Дмитрий Морозов, архитектор DWH в компании GlowByte, занимается хранилищами данных 6 лет, последние 2,5 года участвует в проектах, использующих облака. В этой статье он сделает обзор облачных решений, которые могут быть полезны для задач хранения больших данных, а также уделит внимание вопросам выбора облачного хранилища. Статья основана на личном опыте, может быть интересна как разработчикам, дата-инженерам, так и менеджерам, отвечающим за корпоративную Big Data-инфраструктуру и ищущим возможности ее масштабировать.

Нейрокот пристально наблюдает за вашими статьями и ждёт новых

Tags:

Hubs: