Как стать автором
Обновить
15.31

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

RU BIM Cluster 2024 | Битва за данные и применение LLM и ChatGPT в строительстве. Перевод с GER

Конференция BIM Cluster BW 2024. Штутгарт, 10.07.2024.

🎫 Автоматический перевод записи оригинальной презентации с немецкого языка: "BIM Culster BW 2024: Der Kampf um Daten in der Bauwirtschaft | Anwendung von LLM und ChatGPT im Bau" -   

 • BIM Culster BW 2024: Der Kampf um Dat...  

📖 Книга DataDrivenConstruction - Навигация в эпоху данных в строительной отрасли:
https://habr.com/ru/articles/801065/

В этой презентации мы рассмотрим историю и развитие BIM-технологий и, в частности, появление новых инструментов, которые вносят кардинальные изменения в то, как строительные и проектировочные компании работают с данными и процессами. Мы обсудим, почему использование открытых данных и SDK для обратного проектирования CAD-форматов (BIM) стало неотъемлемым трендом, что позволяет крупным строительным и инжиниринговым фирмам извлекать данные из проприетарных форматов САПР. Также мы обсудим интеграцию структурированных данных и инструментов с открытым кодом в бизнес-процессы и упрощение этих процессов за счет использования современных технологий LLM и ChatGPT.

Это видео предназначено для всех, кто интересуется будущим строительной и проектировачной индустрии и пониманием того, как открытые данные и передовые технологии вроде LLM и ChatGPT могут революционизировать наши методы работы.

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

🏢 Serial Construction + 🤖 Robotisation + 🧊 Open Data + 🧊 Open Tools + 🤖 LLM + ⚡️ Pipelines is the inevitable future of the construction industry!

A multiple increase in work productivity in the construction industry will come through the automation of data processing, which will significantly impact the productivity of office processes and inevitably affect the efficiency of the construction site itself.

👨‍🏫 At this week's BIM Cluster BW Summit, it was possible to break through the wall of convoluted BIM ideology that CAD providers have been building for decades.

A mix of intricate stories, hard-to-access facts, insights, and figures on the equity of large companies — all this helped in a short time (30 minutes) to realize the necessity for change.

🌠 Whether specialists or entire concerns want it or not, but data in construction will be open, and tools for managing this data in construction will be open. The use of open data and open tools is the first key to accelerating decision-making, which today in some processes can take days and weeks! And, most likely, none of this will have anything to do with the topic of BIM.

🔗🚀 Structured data (RAG-ready) and the simplest models, starting from ChatGPT2, will allow, using simple logic and text sentences, to build automation in obtaining the necessary data. Learn more about using structured data and examples of prompts for ChatGPT:

https://datadrivenconstruction.io/index.php/chatgpt-and-llm/


Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

In this insightful interview, Avetik Kagramanian talks to Artem Boyko, a data scientist in the construction industry. We explore the impact of open data and open tools on the construction industry.

03:25 - When we receive open data, we ourselves decide what tools to use this data in
04:08 - Converters' clients and popular data use cases in construction
05:41 - Data quality and verification process
06:27 - Usage formats and the collection of big data
07:03 - Who are the main competitors and the emergence of Pipelines in the construction industry
08:08 - Does working with data in construction differ from other industries?
10:27 - Explanation of the concept of using Pipelines in construction processes
12:01 - Creating an automatic Pipeline and using ChatGPT
13:52 - The future of data processes and analytics in construction
15:53 - Global trends in data management in the construction
17:42 - Democratization and data decentralization platforms
19:33 - How 30,000 subscribers on LinkedIn came to be
20:40 - Communicating with strategic directors of CAD vendors and gaining insights on the BOM-BIM story
21:37 - Appearance of the History of BIM map
23:39 - What were the main benefits of creating articles and writing the history of BIM
24:34 - Why not support buildingSMART
27:00 - Lobbyism in the creation of a world classifier

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

В РЕД ОС 8 появилась возможность формировать эталонную базу данных с помощью решения класса Data Quality. Инструмент «Гражданский фактор» от Clean Data настраивает процесс управления качеством данных внутри контура организации: обрабатывает и стандартизирует информацию о физических лицах, очищает базу от ошибок, дубликатов и неточностей.

«Гражданский фактор» обеспечивает единый процесс управления качеством данных при помощи специализированных модулей, справочников, правил и алгоритмов проверок. Интерфейсы дата‑стюарда и контролёра позволяют разбирать неоднозначные случаи в похожих записях — дубликатах.

Модули продукта оперативно анализируют данные, упрощают внедрение дашбордов, BI‑систем и решений на базе искусственного интеллекта, повышают качество оказания услуг. Ранее решение уже было подготовлено к работе с витринами НСУД.

Также пользователям РЕД ОС 28 июня стал доступен российский редактор для отрисовки схем, проведения мозгового штурма и структурирования творческого процесса Графолайт.

Теги:
Всего голосов 5: ↑5 и ↓0+9
Комментарии0

Привет! Меня зовут Ильдар Ломов. Расскажу, чем занимаются ML-инженеры в Островке. Знаю об этом всё, я сам руководитель команды Data Science.

Сейчас портфель ML-проектов Островка —12 штук в нескольких направлениях: от продуктового ML (ранжирование, рекомендации), до больших языковых моделей

Состав команды стандартный: ML-инженер, бизнес-аналитик, проджект, продакт. Опционально тимлиды и разработчики.

Работа ML-инженера в Островке — посередине между стартапом с его моделью в jupyter-ноутбуке и корпорацией, где работа с сотнями моделей упорядочена, стандартизирована, вшита в интерфейсы. Можно поработать над серьезным проектом гибко с разнообразием инструментов.

Идеал — проактивный человек, который протащит проект от исследования до прода и покрытия метриками. Важно понимать все этапы проекта, иметь усиленный скилл хотя бы на одном из них, с остальным поможет команда.

Нужно уметь покрывать метриками, следить за проектом на проде, чтобы тот не потерял смысл из-за нестыковок в ТЗ. И работал так, как задумано

 Частые итерации, проверки гипотез и новых технологий дают нашему ML-инженеру больший кругозор в сравнении с крупными компаниями. Специалист растет с технической и бизнесовой сторон. 

Работа оценивается с точки зрения влияния на бизнес, инженер видит, как проекты прямо и понятно воздействуют на бизнес-метрики. 

Это то, что мы всегда хотим видеть в кандидатах, но на рынке такого не много. Чем виднее на собеседованиях, что человек понимает бизнес-сторону, тем больше он нам подходит.

Теги:
Всего голосов 8: ↑4 и ↓4+4
Комментарии0

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

С понедельника на сайте лондонской биржи металлов висела плашка «Due to a technical issue the latest market data values have not been updated». Данные о торгах за прошлый день или не отображались, или отображались с ошибкой. В частности, были заменены местами значения в столбцах Bid и Offer в Trading summary по Non‑ferrous metal. В настоящее время сообщения об ошибке нет, данные отображаются верно. Если кто‑то использует данные с сайта LME.com — проверьте правильность данных за эту неделю.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

CAD (BIM) Revit и IFC в Unreal Engine, Unity, Oculus — визуализация, рендеринг, метаверсии и игровой дизайн

? Стандартный рендеринг в CAD (BIM) программах часто не дотягивает до качества визуализации, но игровые движки, такие как Unreal Engine и Unity, произвели революцию в архитектурной и дизайнерской визуализации. Эти движки предлагают быстрый рендеринг и интуитивно понятные настройки света, материалов и геометрии, которые значительно улучшают процесс визуализации. Теперь клиенты могут изучать виртуальные модели зданий, взаимодействуя с такими элементами, как освещение и мебель, в режиме реального времени, что улучшает их понимание и вовлеченность. Unreal Engine позволяет проводить метаверсии, превращая 3D-виртуальные миры в крупные социальные центры.

? Unreal Engine позволяет создавать интерактивные приложения 3D, дополненной (AR) и виртуальной (VR) реальности из 3D CAD (BIM) моделей.
? Визуализацию или симуляцию движения автомобилей и людей можно настроить буквально в несколько кликов. Погода и время также легко настраиваются
? Бесплатные движки позволяют подключать алгоритмы искусственного интеллекта, которые наглядно позволяют воспроизводить симуляции в реальных сценах, а не на бумаге
? Используя Unity и инструментарий ML-Agents, ты можешь создавать ИИ-среды, которые будут физически, визуально и когнитивно насыщенными
? С помощью Unity Machine Learning Agents больше не нужно"кодировать" эмерджентное поведение, а можно научить интеллектуальных агентов "учиться",

Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии6

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_2)

  1. Replication: Tarantool предлагает механизм репликации, который позволяет создавать реплики базы данных для обеспечения отказоустойчивости и масштабируемости. Репликация Tarantool основана на механизме репликации мастер-слейв (master-slave) и поддерживает асинхронное и синхронное реплицирование.

  2. Sharding: Tarantool поддерживает горизонтальное масштабирование с помощью шардинга данных. Шардинг позволяет распределить данные по нескольким узлам-серверам, что позволяет обрабатывать большие объемы данных и повышает производительность.

  3. Индексы: Tarantool предоставляет различные типы индексов для оптимизации запросов и обеспечения быстрого доступа к данным. Включая хеш-индексы, деревья и индексы, основанные на отсортированных списках.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

?Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Преображование Бокса-Кокса (Общий вид)
Преображование Бокса-Кокса (Общий вид)

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

  1. Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;

  2. Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);

  3. Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

    https://t.me/DenoiseLAB

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними. 

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии1

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн

25 мая 2023 года в офлайн + онлайн формате состоится Дата Саммит «Вселенная Ваших данных». Это мероприятие, посвященное вопросам цифровой трансформации и управления данными. На Дата Саммите вы сможете узнать, как предсказывать появление «черных лебедей», как с помощью данных оперативно принимать эффективные решения. #CloudMTS — официальный партнер мероприятия.

Участие бесплатное.

На саммите вы сможете:

  • из первых рук узнать о лучших практиках российских компаний на базе отечественных технологий;

  • услышать мнение экспертов о перспективах российской цифровой трансформации на основе данных;

  • посетить демо-зону решений по управлению данными и выставку технологических партнеров.

Регистрация по ссылке.

Всего голосов 7: ↑6 и ↓1+5
Комментарии0

Вклад авторов

Работа

Data Scientist
92 вакансии