Пишем эффективные аналитические запросы: третья лекция курса в МГТУ им. Баумана
Третья лекция нашего курса «Deep dive into SQL and DWH» прошла 21 ноября — делимся видеозаписью!
Дата-архитектор Павел Ковалёв рассказал о внутреннем устройстве систем Greenplum и Clickhouse и возможностях, которые они предоставляют с точки зрения оптимизации запросов.
Сегодня я хочу выложить в открытый доступ свою библиотеку на Scala. Библиотека реализует Directed Acyclic Graph (DAG) для выполнения задач внутри одного приложения (на замену Airflow и подобных не претендую :-)) и позволяет определять задачи с зависимостями, выполнять их в правильном порядке и обрабатывать исключения, которые могут возникнуть в процессе выполнения. Библиотека писалась через призму моих личных и профессиональных потребностей, поэтому не претендует на покрытие всех возможных кейсов, встречающихся в разработке вообще.
Use case:
Иногда возникает необходимость выполнять взаимосвязанные задачи/функции/классы в рамках одного приложения, где эти задачи могут быть частично параллелизованы, то есть их можно "собрать" в DAG для более эффективного использования ресурсов и повышения общей производительности. Например при обрабтке/загрузке данных или в event-driven приложении.
Особенности:
Управление задачами: Добавление задач с указанными зависимостями.
Гибкость: Выполенение всех или только некоторых задач (с сохранением зависимостей)
Обработка ошибок: Встроенная обработка ошибок с передачей исключений "наверх" для упрощенного их анализа.
Результаты выполнения задач: Возможность получения результата выполнения задач для дальнейшего их использования программным кодом.
Код, документация и инструкция по импорту и использованию доступны на GitHub.
Буду рад любым отзывам и предложениям по улучшению. Также не стесняйтесь задавать вопросы и заводить issue :-)
Следующая лекция курса будет посвящена техникам оптимизации аналитических SQL-запросов и состоится уже в ближайший четверг, 21 ноября, с 17:25 до 19:00.
Следующая лекция курса, посвященная архитектурному обзору инструментов для построения DWH, пройдёт уже в ближайший четверг, 14 ноября, с 17:25 до 19:00. Присоединяйтесь в онлайне!
***
Больше информации о наших лекциях, митапах, статьях и других полезных материалах про ИТ, в тг-канале Sravni Tech.
Привет! Я — Ося, разработчик в Инновационном Центре «Безопасный транспорт», ваш виртуальный проводник в мир технологий и разработки. В блоге рассказываю, как решаю сложные задачи и делюсь знаниями. Здесь мы будем разбираться в коде, обсуждать подходы к проектам и актуальные тренды в IT. Пишу о разработке, больших данных и инновационных технологиях.
Я — робот-осьминог и талисман ИЦ, который иллюстрирует разносторонность и многозадачность нашей команды. Мои 8 щупалец представляют различные направления работы, а 3 сердца обеспечивают высокую эффективность. Отсутствие скелета позволяет гибко адаптироваться к изменениям, а более 1000 рецепторов на щупальцах помогают мне воспринимать малейшие колебания в окружении.
Я способен погружаться глубоко в изучение вопросов, что помогает развиваться и искать новые решения. Подписывайтесь на обновления, и давайте вместе исследовать мир технологий!
Приглашаем на вечер оптимизации в бизнесе, продукте и технологиях в формате гаражной вечеринки
Соберёмся, чтобы делиться инсайтами, предлагать смелые решения, а ещё есть бургеры и подпевать рок-группе — всё для вдохновения и обмена опытом без границ.
Когда: 22 ноября в 18:00
Где: Санкт-Петербург
О чём поговорим?
💡 18:30 – 18:55 | Оптимизация доставки в Самокате с помощью алгоритмов консолидации заказов
💡 18:55 – 19:35 | Дискуссия: Инновации vs. традиционные методы
Трек 1: Как делаем организацию эффективнее
💡 20:00 – 20:25 | Как оптимизировать банкоматы, чтобы всегда хватало наличности
Не время менять работу, AI специалисты всё ещё на коне.
Недавно вышла статья от одного из крупнейших международных консалтинговых агенств Robert Half, на тему какие профессии будут востребованы в ИТ сфере в 2025 году.
Агенство прогнозирует что ИИ специалисты по прежнему будут занимать лидирующие позиции по востребованности и уровню зарплат.
Так же представлены в алфавитном порядке 12 самых востребованных профессий на 2025 год. Из неинтересного там появилась новая профессия - Специалист по этике ИИ.
А из интересного то что в список попали ИТ Бизнес-аналитики.
Это подтверждает мои догадки о том что 2025 год будет годом в котором косты на Data Science будут срезать.
Список из 12 самых оплачиваемых ИТ профессий в США:
Как Duolingo добилась успеха на рынке и причем тут аналитика
Duolingo — одно из самых популярных приложений для изучения языков (№1 по скачиванию в магазинах приложений). Вместо скучных уроков оно напоминает игру: прогресс, уровни, награды, упражнения мини-игры и др.
По данным компании, около 34 млн. человек используют Duolingo каждый день.
Но что стоит за этим успехом?
Один из ключевых принципов компании — "Тестируй всё". Постоянные эксперименты помогают Duolingo улучшать процесс обучения и находить новые решения для роста.
В любой момент в Duolingo могут проводиться несколько сотен A/B тестов одновременно. Экспериментируют со всем: от мелких изменений интерфейса до запуска крупных функций, как Лидерборды. Для A/B тестирования компания разработала собственный сервис.
Data Ocean Nova. Next-gen платформа данных класса Lakehouse.
Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.
GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство
Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве
MeetUP делится на два блока: 1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!
А вас ждут:
🟢выступления практикующих AI-инженеров 🟢инструменты создания GenAI-приложений 🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices
Зовём вас встретиться и поговорить про Data Build Tool.
8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:
➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack? ➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым? ➡ Как разные компании и команды применяют DBT для решения задач Data Governance?
Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.
⭐ Когда: завтра, 8 октября в 19:00 мск ⭐ Регистрация — через бота.
Сегодня вечером приглашаем вас на вебинар с Николаем Марковым, Data Platform Lead в Altenar, и Екатериной Тхоржевской, карьерным консультантом в сфере IT.
Мы встретимся, чтобы обсудить:
→ Как искать работу дата-инженеру? → Как лучше показывать свой опыт и потенциал, чтобы получить оффер? → Hard и Soft скиллы — что действительно важно на собеседованиях? → И что делать, если вы практикующий специалист, но развития не хватает?
Николай поделится секретами успеха и ошибками, которых вы сможете избежать. А Екатерина расскажет, как не сбиться с пути и выстроить эффективный карьерный трек.
Одну карьерную консультацию от Екатерины мы разыграем среди участников.
🖍 23 сентября, 20:00 мск 🖍 Получить ссылку на трансляцию – в нашем боте.
🎫 Автоматический перевод записи оригинальной презентации с немецкого языка: "BIM Culster BW 2024: Der Kampf um Daten in der Bauwirtschaft | Anwendung von LLM und ChatGPT im Bau" -
В этой презентации мы рассмотрим историю и развитие BIM-технологий и, в частности, появление новых инструментов, которые вносят кардинальные изменения в то, как строительные и проектировочные компании работают с данными и процессами. Мы обсудим, почему использование открытых данных и SDK для обратного проектирования CAD-форматов (BIM) стало неотъемлемым трендом, что позволяет крупным строительным и инжиниринговым фирмам извлекать данные из проприетарных форматов САПР. Также мы обсудим интеграцию структурированных данных и инструментов с открытым кодом в бизнес-процессы и упрощение этих процессов за счет использования современных технологий LLM и ChatGPT.
Это видео предназначено для всех, кто интересуется будущим строительной и проектировачной индустрии и пониманием того, как открытые данные и передовые технологии вроде LLM и ChatGPT могут революционизировать наши методы работы.
Data Science помогает многим компаниям принимать важные продуктовые решения на основе данных. Вот несколько крутых примеров, как разные бренды работают с Data Science:
Сбербанк использует Data Science для анализа огромных объемов данных о клиентах.
+ Помогает предлагать более персонализированные продукты и услуги, а также эффективно бороться с мошенниками.
Благодаря анализу данных, Яндекс.Такси может прогнозировать спрос на такси в разных районах города и даже в разное время суток.
+ Помогает оптимизировать распределение машин и сокращать время ожидания для пассажиров.
Магнит — один из крупнейших ритейлеров в России — использует Data Science для управления запасами и прогнозирования спроса на товары.
+ Позволяет избегать дефицита и излишков на полках магазинов, а значит, экономить деньги и повышать удовлетворенность клиентов.
Больше подобных кейсов мы подробно разобрали на подкасте One Two Prod с Олегом Рудаковым, Data Science Head of Analytics крупной FMCG-компании. Ну а еще спросили у Олега о разнице работы в агентстве и продукте, о трендах в аналитике, кому вообще нужен Data Science и где больше платят.
One Two Prod — это совместный подкаст AGIMA и ONY, где мы говорим о развитии диджитал-продуктов. Первый выпуск уже доступен на YouTube иЯндекс Музыке, а второй выйдет на следующей неделе — не пропустите. В нем мы обсудим стратегии и метрики продуктов вместе с Павлом Аксеновым, ex CPO «Самолет Плюс».
🤖 The future of CAD (BIM) data processing in Construction is already here!
Instead of working with complex closed or parametric data (the quality of which we have to check in special BIM tools), in the future we work with open structured data, which is an ideal source for RAG, LLM, ChatGPT. To work with LLM models and ChatGPT you need properly prepared data.
Dataframe data obtained from various CAD (BIM) formats is the ideal fuel for modern tools. Pandas is ideal for LLMs due to its robust data processing, efficient indexing, and flexible formatting. It cleans, tokenizes, and normalizes data, supports advanced data retrieval, and structures data in LLM-compatible formats.
Examples of requests for using structured CAD (BIM) data in ChatGPT:
🤖Group the data in Dataframe by "Type Name" while summarizing
the "Volume" parameter - you can show the result in any kind of graphs and documents
🤖 “Check the values in the volume parameter for all items in "Category"
- "OST_Walls" and output the list of IDs with null values” - native IDs
can be displayed later in Revit
🤖 “Check if "Category" "OST_Doors" has parameters that are responsible
for width and length and output element types that do not have such parameters”
⚡️ Instead of using a whole zoo of BIM tools, we now validate and process data directly in ChatGPT.
After getting the results in ChatGPT, we copy the resulting Python code into Pipeline in any Python IDE
🏢 Serial Construction + 🤖 Robotisation + 🧊 Open Data + 🧊 Open Tools + 🤖 LLM + ⚡️ Pipelines is the inevitable future of the construction industry!
A multiple increase in work productivity in the construction industry will come through the automation of data processing, which will significantly impact the productivity of office processes and inevitably affect the efficiency of the construction site itself.
👨🏫 At this week's BIM Cluster BW Summit, it was possible to break through the wall of convoluted BIM ideology that CAD providers have been building for decades.
A mix of intricate stories, hard-to-access facts, insights, and figures on the equity of large companies — all this helped in a short time (30 minutes) to realize the necessity for change.
🌠 Whether specialists or entire concerns want it or not, but data in construction will be open, and tools for managing this data in construction will be open. The use of open data and open tools is the first key to accelerating decision-making, which today in some processes can take days and weeks! And, most likely, none of this will have anything to do with the topic of BIM.
🔗🚀 Structured data (RAG-ready) and the simplest models, starting from ChatGPT2, will allow, using simple logic and text sentences, to build automation in obtaining the necessary data. Learn more about using structured data and examples of prompts for ChatGPT:
Наш летний ИТ-фестиваль «Сезон кода» проведем 13 июля. Будем делиться опытом, говорить про технологии, танцевать и уже по доброй традиции помогать «Семейному дому» в Казани.
Сезон кода: ИТ-фест в Казани
Что по программе:
— доклады по Java, Scala, QA, Mobile и Data от инженеров Т-Банка, Сбера, VK и Магнит Маркет; — квиз и кастомные настолки, чтобы поиграть в перерывах; — спорт-, лаундж- и фотозоны, где можно размяться, отдохнуть и сделать пару снимков на память.
Стать участником ИТ-феста просто: нужно зарегистрироваться и внести пожертвование от 1000 ₽. Подробности на этой странице.
In this insightful interview, Avetik Kagramanian talks to Artem Boyko, a data scientist in the construction industry. We explore the impact of open data and open tools on the construction industry.
03:25 - When we receive open data, we ourselves decide what tools to use this data in 04:08 - Converters' clients and popular data use cases in construction 05:41 - Data quality and verification process 06:27 - Usage formats and the collection of big data 07:03 - Who are the main competitors and the emergence of Pipelines in the construction industry 08:08 - Does working with data in construction differ from other industries? 10:27 - Explanation of the concept of using Pipelines in construction processes 12:01 - Creating an automatic Pipeline and using ChatGPT 13:52 - The future of data processes and analytics in construction 15:53 - Global trends in data management in the construction 17:42 - Democratization and data decentralization platforms 19:33 - How 30,000 subscribers on LinkedIn came to be 20:40 - Communicating with strategic directors of CAD vendors and gaining insights on the BOM-BIM story 21:37 - Appearance of the History of BIM map 23:39 - What were the main benefits of creating articles and writing the history of BIM 24:34 - Why not support buildingSMART 27:00 - Lobbyism in the creation of a world classifier
Помните, как на прошедшем в мае Google I/O 2024 не было представлено ни одного нового устройства? Основной темой стал ИИ от Google – Gemini, мультимодальная LLM, эволюционировавшая из Bard.
И вот вышла новость: появление в сервисах от Google чат-бота на базе Gemini.
Российские сервисы не отстают от "корпорации добра".
У Яндекса подобный ассистент уже встроен в браузер и доступен всем желающим, зовется Нейро. Базируется на базе YaGPT2, который уже интегрирован в Алису, и скоро будет присутствовать во всех сервисах ИТ-гиганта.
Ключевой тренд – отказ от классических поисковиков, как устаревшего интерфейса взаимодействия с конечным пользователем, и полное его замещение интеллектуальным помощником по любым вопросам: от поиска информации, генерации мыслей, картинок до взаимодействия с физическим миром. IoT, умные устройства, заказы\доставки еды, такси, билетов.
Как все это повлияет на энтерпрайз-сегмент?
Cвязь вполне очевидная: популяризация носимых устройств и ассистентов в решении различных бытовых задач неминуемо создаст потребность в аналогичных сервисах и для решения рабочих вопросов.
Цифровые помощники грядут, и совсем скоро решения бизнес-задач на базе ИИ будут такими же обыденными, как оплата покупок по лицу.
Ряд таких решений завтрашнего дня доступны уже сегодня. Об одним из них, умном BI-ассистенте, поговорим 4 июля на вебинаре “Сокращаем путь от данных к бизнес-решениям до секунд”.