Data Mining *

Глубинный анализ данных

Блог компании Страховой Дом ВСКPostgreSQL * Data Mining * Service Desk * Processing *

Взгляд на BI дашборды PROCESET сквозь призму повседневных задач.

Автор: Алексей Терехин, Центр эксплуатации ИТ, Руководитель направления автоматизации ИТ-процессов, Страховой Дом ВСК

Когда на утренней планёрке перед глазами появляется картинка с ключевыми метриками — понимаешь, как далеко ушла ручная работа с отчётами. BI дашборды PROCESET в нашем Центре эксплуатации ИТ помогают увидеть главные цифры одним взглядом, а ещё — сэкономить время и силы команды. Расскажу, как это работает простыми словами.

Почему дашборд лучше связки Excel-Power Point

Во-первых, он автоматически обновляется и вместо того, чтобы каждый раз готовить свежие данные, дашборд подтягивает новые данные сам — по расписанию. Вы приходите на встречу — и всё уже готово.

К тому же, дашборд позволяет пользователям взаимодействовать с данными в реальном времени, фильтровать и настраивать представление информации по своему усмотрению прямо во время планерки.

Нельзя забывать о возможности дашборда собирать данные “всех мастей” в одном месте: таблицы из базы, CSV файлы и даже ответы от внешнего API — всё конвейером попадает в один экран.

Дополнительным преимуществом является способность анализа больших объемов данных: BI-дашборды PROCESET способны на это, в то время как excel будет испытывать трудности с производительностью.

Если вы ещё не читали, как мы внедряли процессную аналитику загляните в нашу статью.

Как мы это сделали (без сложных терминов)

Собираем данные // Представьте, что ETL — это робот курьер. Он каждый час ездит за нужными таблицами, файлами и ответами от сервисов и привозит их в хранилище.
Готовим и сглаживаем // Робот перебирает свежие цифры, превращает разрозненные форматы в единый вид (например, переводит все даты к одному стилю) и отбрасывает лишнее.
Создаем визуализацию // Каждый дашборд выстраивается по 4-м уровням: панель управления дашбордом; карточки с ключевыми метриками; графики с динамикой метрик по периодам и графики с дополнительной детализацией или группировкой метрик.
Выходим на большие экраны // Дашборд размещен на большом экране в открытом офисе и становится центральном местом, где команда отслеживает ключевые показатели в реальном времени
Разбираем причины // Когда метрика уходит в красную зону, мы переходим в интерактивную версию, которая позволяет исследовать различные аспекты и находить причины отклонений.

Что вы получите в итоге

Экономия времени: вместо нескольких часов на подготовку отчётов — пару кликов и готово.
Прозрачность: все видят одни и те же цифры, нет разночтений «кто/что/куда внёс».
Быстрый анализ: от «почему упал KPI» до «где утечка заявок» — без прыжков между Excel и презентацией.

Пару советов для старта

1. Выберите одну ключевую задачу — например, автоматизацию утреннего отчёта по инцидентам.

2. Настройте расписание — пусть "робот курьер" привозит данные раз в час.

3. Повесьте дашборд на монитор — и посмотрите, как команда сама начинает держать цифры под контролем.

И помните: чтобы узнать, как мы шаг за шагом внедряли эту систему и связали её с процессной аналитикой, обязательно загляните в нашу статью «Синергия Process Mining и BI: как Страховой Дом ВСК строит эко-систему процессной аналитики Proceset в ИТ».

Буду рад вашим вопросам и историям внедрения — пишите в комментариях!

denzceo

8 июн в 11:185.9K

Data Mining * Agile * Data Engineering *

Здесь кто-нибудь есть?

Давненько не было постов! Теперь посты будут выходить намного чаще, поэтому ждите интересный контент! Сегодня хочу с Вами поделиться своими наблюдениями по самым распространенным страхам при входе или же в начале карьеры в IT, а также конечно же расскажу, как с ними бороться!

Поехали!

Большие деньги - большая ответственность, я еще немного поучусь и можно ходить на собеседования

Самое частое заблуждение и страх - это то, что я не до конца изучил материал и мне рано идти на собеседования. IT действительно кажется сложной сферой, особенно на старте. Куча непонятных терминов, новые технологии, быстрая смена трендов. Главное — не пытаться сразу охватить всё. Дроби путь на маленькие шаги: сначала разберись в основах, потом усложняй задачи.

Признайте, что никто не знает всего, даже сеньоры постоянно гуглят и учатся. Учись радоваться прогрессу, пусть даже небольшому — это отличный способ победить страх перед сложностью. Я часто на работе вижу людей, которые знают намного меньше меня, но при этом зарабатывают больше денег. Думаете, что они думают про это?

Убейте в себе внутреннего "отличника", который хочет всё идеально знать. Начните действовать как можно раньше, ведь главный наш ресурс - это время. Если не начнете ходить по собеседованиям сейчас, то потом может стать поздно!

Я слишком стар/молод/у меня нет профильного образования

Это миф. В IT реально можно войти в любом возрасте и с любым бэкграундом. Большинство компаний смотрит на твои навыки и то, как ты решаешь задачи, а не на диплом. Например у меня еще ни разу не спрашивали про мой диплом и про моё образование, но при этом огромное кол-во людей верит в то, что реально нужен крутой бэкграунд, а не опыт. Важно показывать интерес к профессии, прокачивать навык прохождения собеседований, учиться продавать себя на рынке труда и тогда у Вас всё получится! Как говорил Олег Тинькофф: "Продай свои мозги дорого". Это очень хорошо описывает в целом текущее состояние рынка.

Я буду выглядеть глупо среди опытных коллег Это нормально — не знать и ошибаться, особенно в начале. Важно не бояться задавать вопросы. В IT очень развита культура поддержки: тебе скорее помогут, чем осудят. Воспринимай каждую ошибку как точку роста, а не как провал. Ведь наш опыт - это сумма всех наших ошибок. Думаете, что какой-то сеньор никогда не допускал ошибок?

Я не найду работу без опыта От каждого второго человека слышу это. Мол я не могу найти работу без опыта, всё дело в опыте! А потом я открываю его резюме и вижу, что там полная каша и оказывается, что дело не в опыте, а в резюме или же в чём-то другом. Не бойтесь искать любую возможность попробовать реальные проекты. На старте важно показывать свою мотивацию и учиться командной работе. Не стесняйся писать в компании напрямую, предлагать свою помощь за отзыв или за опыт — так много кто стартует.

Теперь дам общие советы, которые подойдут под любой Ваш страх. Но помните, что я Вам даю всего лишь отмычки, а Вы их уже сами подбираете под Ваши "проблемные" двери:

Разделяй путь на маленькие задачи и радуйся каждому шагу.
Найди ментора, чтобы не оставаться один на один с вопросами.
Веди дневник успехов — записывай даже маленькие победы.
Не сравнивай свой путь с другими, особенно в соцсетях — у каждого свой старт и темп.
Признай: страх — это нормально. Его испытывали все, кто сегодня работает в IT.

Понравился пост? Тогда переходите ко мне в телеграмм канал, там находится много полезного материала, для входа в IT!

-2

JuliaEfimka

5 июн в 16:498.9K

Data Mining * Data Engineering *

В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...

В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.

Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.

От чего зависит структура датасета? Если коротко: буквально от всего.

Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:

Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.
Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.

Пользователь: хочу морковь

Ответ A: вам мытую или обычную?
Ответ B: скока вешать в граммах?

Предпочтение: ответ A

Примеры разных типов датасетов

📸 Computer Vision

Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.

🎵 Музыка и рекомендательные системы

Million Song Dataset — метаданные и фичи 1 млн треков.

Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».

Чем он интересен:

Использует эмбеддинги вместо аудио
Подходит для обучения RecSys моделей в «индустриальных» условиях
Поддерживает архитектуры с input context (история прослушиваний)

🩺 Медицина

MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.

Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.

📊 Табличные данные для задач логистической регрессии

UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.

Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.

🤖 Робототехника и сенсоры

KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:

Детекции объектов
3D реконструкции
SLAM и навигации

Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.

По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?

Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.

В следующих постах разберу:

Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.
Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.

Oksenija

1 мая в 14:268.4K

SQL * Data Mining * Веб-аналитика * Искусственный интеллектЗдоровье

ИЩЕМ ЗАМЕНУ КОФЕИНУ с помощью ChatGPT

Я люблю кофе, но, как и у некоторых других людей, у меня повышается давление и сильно учащается пульс от большого количества выпитого кофе, а 2..3 порции порции на меня уже не действуют. На дворе 21 Век в разгаре и существование аналогов кофеина без раздражающих побочных эффектов весьма вероятно.

Я попросил помощи у ChatGPT и он успешно создал очень сложную таблицу с легальными аналогами кофеина и даже с вычисляемым столбцом на основе НЕЧЁТКИХ критериев (если вы это сможете на SQL - Вы гений!), но плохо справился с сортировкой в этой таблице.

Внимание: ниже изображение, ссылки некликабельные. Я ничего не продаю.

В первом цифровом столбце не удалось отсортировать числа по убыванию. Пытался примерно 15-20 минут. Пробовал разные промпты и пояснения. Это странно.

Этот инструмент (ChatGPT) отлично понимает команды манипуляции таблицей, в данном пример я попросил создать таблицу на основе данных с крупных магазинов, указал какие столбцы нужны и какая в них должна быть информация, указал порядок столбцов, в том числе относительный, типа столбец с такими данным добавь перед таким-то столбцом.

ChatGPT смог создать СВОДНЫЙ столбец на основе ранее созданных столбцов.Это столбец со взвешенными суммами весов веществ в других столбцах и коэффициенты взвешивания ОН сам нашел и нашел весьма точно.

Причем для каждого продукта ОН смог найти состав веществ по определенным критериям и перечислил их, создав отдельный столбец. Не все вещества, а только по определенным фильтрам (только такие, которые не являются кофеином, но оказывают воздействие, сходное с действием кофеина. Попробуйте самостоятельно без ИИ запрограммировать такой запрос на SQL с учетом нечеткого критерия схожести воздействия и еще определите коэффициент похожести для создания взвешенной суммы масс веществ в порции БАД.

ChatGPT даже частично смог отсортировать по взвешенной сумме. Но выполнив так много сложной работы в сортировке он немного ошибся.

Ruberwoman

22 апр в 09:594.4K

Блог компании ecom.techData Mining * Машинное обучение *

#статья Тайные сообщества товаров: обзор графовых методов

Новая статья от команды матчинга и группировки уже ждёт вас на Хабре. Расскажем, как мы исследовали алгоритмы community detection для группировки товаров, с какими проблемами столкнулись и при чём тут матчинг.

Время прочтения: 15 минут.

За это время вы узнаете: на какие шаги раскладывается задача группировки товаров и какие методы можно использовать непосредственно на этапе группировки. Надеемся, статья будет полезной и тем, кто впервые сталкивается с community detection, и тем, кто ищет для себя новые подходы

🙂 Читать статью

akurilov

12 апр в 09:317.9K

Поисковые технологии * Семантические сети * Data Mining * Искусственный интеллектNatural Language Processing *

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.
Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.
Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

veta_pf

4 апр в 11:575.1K

Блог компании Cloud.ruIT-инфраструктура * Data Mining * Облачные сервисы * Data Engineering *

Продолжаем делиться темами докладов конференции GoCloud 2025 ☁️

В первой части выступления мы напомним, что такое дата-платформа, зачем она нужна и из каких сервисов состоит. А еще расскажем про новые фичи и что у нас в планах.
Ася Грибанова — руководитель направления разработки Evolution Data Platform в Cloud.ru

Во второй части доклада расскажем, что такое BI-система и как она помогает бизнесу в визуализации данных. За несколько простых шагов создадим инстанс Managed BI и покажем, как визуализировать данные, подключать источники и гибко настраивать дашборды. А еще на реальном кейсе разберем, как построить аналитику.
Константин Добратулин — старший python-разработчик BI в Cloud.ru

Трек: Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 13:55 мск

👉 Зарегистрироваться

Какие еще темы мы подготовили для вас на GoCloud, смотрите в программе конференции.

Aleron75

17 мар в 14:336.6K

Блог компании Data Feeling SchoolData Mining * Искусственный интеллект

Весь код в один файл для ИИ

Repomix собирает весь ваш репозиторий в один файл, который можно скормить любой ИИ-модели. Больше не нужно загружать десятки файлов в ChatGPT или Claude — просто упаковал весь проект и загрузил в чат.

✅ А можно ещё проще? - Да, можно. Продвинутое ипользование ИИ для разработки подробно разбираем на курсе по AI разработке.
✅ Кстати, опытные разработчики после обучения отмечают, что им удалось значительно автоматизировать рутину.
✅ В то время как для других учеников наиболее ценной оказалось возможность создавать приложения даже с использованием незнакомых технологий (например, фронтенда).

ArtemBoiko

16 авг 2024 в 12:386.4K

Open source * Data Mining * CAD/CAM * Data Engineering *

RU BIM Cluster 2024 | Битва за данные и применение LLM и ChatGPT в строительстве. Перевод с GER

Конференция BIM Cluster BW 2024. Штутгарт, 10.07.2024.

🎫 Автоматический перевод записи оригинальной презентации с немецкого языка: "BIM Culster BW 2024: Der Kampf um Daten in der Bauwirtschaft | Anwendung von LLM und ChatGPT im Bau" -

• BIM Culster BW 2024: Der Kampf um Dat...

📖 Книга DataDrivenConstruction - Навигация в эпоху данных в строительной отрасли:
https://habr.com/ru/articles/801065/

В этой презентации мы рассмотрим историю и развитие BIM-технологий и, в частности, появление новых инструментов, которые вносят кардинальные изменения в то, как строительные и проектировочные компании работают с данными и процессами. Мы обсудим, почему использование открытых данных и SDK для обратного проектирования CAD-форматов (BIM) стало неотъемлемым трендом, что позволяет крупным строительным и инжиниринговым фирмам извлекать данные из проприетарных форматов САПР. Также мы обсудим интеграцию структурированных данных и инструментов с открытым кодом в бизнес-процессы и упрощение этих процессов за счет использования современных технологий LLM и ChatGPT.

Это видео предназначено для всех, кто интересуется будущим строительной и проектировачной индустрии и пониманием того, как открытые данные и передовые технологии вроде LLM и ChatGPT могут революционизировать наши методы работы.

ArtemBoiko

12 июл 2024 в 07:414.7K

Data Mining * CAD/CAM * Data Engineering *

🏢 Serial Construction + 🤖 Robotisation + 🧊 Open Data + 🧊 Open Tools + 🤖 LLM + ⚡️ Pipelines is the inevitable future of the construction industry!

A multiple increase in work productivity in the construction industry will come through the automation of data processing, which will significantly impact the productivity of office processes and inevitably affect the efficiency of the construction site itself.

👨‍🏫 At this week's BIM Cluster BW Summit, it was possible to break through the wall of convoluted BIM ideology that CAD providers have been building for decades.

A mix of intricate stories, hard-to-access facts, insights, and figures on the equity of large companies — all this helped in a short time (30 minutes) to realize the necessity for change.

🌠 Whether specialists or entire concerns want it or not, but data in construction will be open, and tools for managing this data in construction will be open. The use of open data and open tools is the first key to accelerating decision-making, which today in some processes can take days and weeks! And, most likely, none of this will have anything to do with the topic of BIM.

🔗🚀 Structured data (RAG-ready) and the simplest models, starting from ChatGPT2, will allow, using simple logic and text sentences, to build automation in obtaining the necessary data. Learn more about using structured data and examples of prompts for ChatGPT:

ArtemBoiko

1 июл 2024 в 13:424.7K

Data Mining * CAD/CAM * Data Engineering *

In this insightful interview, Avetik Kagramanian talks to Artem Boyko, a data scientist in the construction industry. We explore the impact of open data and open tools on the construction industry.

03:25 - When we receive open data, we ourselves decide what tools to use this data in
04:08 - Converters' clients and popular data use cases in construction
05:41 - Data quality and verification process
06:27 - Usage formats and the collection of big data
07:03 - Who are the main competitors and the emergence of Pipelines in the construction industry
08:08 - Does working with data in construction differ from other industries?
10:27 - Explanation of the concept of using Pipelines in construction processes
12:01 - Creating an automatic Pipeline and using ChatGPT
13:52 - The future of data processes and analytics in construction
15:53 - Global trends in data management in the construction
17:42 - Democratization and data decentralization platforms
19:33 - How 30,000 subscribers on LinkedIn came to be
20:40 - Communicating with strategic directors of CAD vendors and gaining insights on the BOM-BIM story
21:37 - Appearance of the History of BIM map
23:39 - What were the main benefits of creating articles and writing the history of BIM
24:34 - Why not support buildingSMART
27:00 - Lobbyism in the creation of a world classifier

RED_SOFT

1 июл 2024 в 10:244.4K

Блог компании РЕД СОФТData Mining * Хранение данных *

В РЕД ОС 8 появилась возможность формировать эталонную базу данных с помощью решения класса Data Quality. Инструмент «Гражданский фактор» от Clean Data настраивает процесс управления качеством данных внутри контура организации: обрабатывает и стандартизирует информацию о физических лицах, очищает базу от ошибок, дубликатов и неточностей.

«Гражданский фактор» обеспечивает единый процесс управления качеством данных при помощи специализированных модулей, справочников, правил и алгоритмов проверок. Интерфейсы дата‑стюарда и контролёра позволяют разбирать неоднозначные случаи в похожих записях — дубликатах.

Модули продукта оперативно анализируют данные, упрощают внедрение дашбордов, BI‑систем и решений на базе искусственного интеллекта, повышают качество оказания услуг. Ранее решение уже было подготовлено к работе с витринами НСУД.

Также пользователям РЕД ОС 28 июня стал доступен российский редактор для отрисовки схем, проведения мозгового штурма и структурирования творческого процесса Графолайт.

ilomov

21 мая 2024 в 10:498.2K

Блог компании Островок!Data Mining * Машинное обучение * Карьера в IT-индустрииData Engineering *

Привет! Меня зовут Ильдар Ломов. Расскажу, чем занимаются ML-инженеры в Островке. Знаю об этом всё, я сам руководитель команды Data Science.

Сейчас портфель ML-проектов Островка —12 штук в нескольких направлениях: от продуктового ML (ранжирование, рекомендации), до больших языковых моделей.

Состав команды стандартный: ML-инженер, бизнес-аналитик, проджект, продакт. Опционально тимлиды и разработчики.

Работа ML-инженера в Островке — посередине между стартапом с его моделью в jupyter-ноутбуке и корпорацией, где работа с сотнями моделей упорядочена, стандартизирована, вшита в интерфейсы. Можно поработать над серьезным проектом гибко с разнообразием инструментов.

Идеал — проактивный человек, который протащит проект от исследования до прода и покрытия метриками. Важно понимать все этапы проекта, иметь усиленный скилл хотя бы на одном из них, с остальным поможет команда.

Нужно уметь покрывать метриками, следить за проектом на проде, чтобы тот не потерял смысл из-за нестыковок в ТЗ. И работал так, как задумано.

Частые итерации, проверки гипотез и новых технологий дают нашему ML-инженеру больший кругозор в сравнении с крупными компаниями. Специалист растет с технической и бизнесовой сторон.

Работа оценивается с точки зрения влияния на бизнес, инженер видит, как проекты прямо и понятно воздействуют на бизнес-метрики.

Это то, что мы всегда хотим видеть в кандидатах, но на рынке такого не много. Чем виднее на собеседованиях, что человек понимает бизнес-сторону, тем больше он нам подходит.

Rubcov

3 мая 2024 в 13:055.2K

Блог компании Magnus TechData Mining * Машинное обучение * Искусственный интеллектData Engineering *

Дайджест материалов Магнус

Самой короткой рабочей неделе в году — самый короткий материал! Делимся подборкой статей за последние три месяца.

Что может быть важнее данных? То, как они хранятся, используются и воспроизводятся. Эти и другие возможности есть в инструменте ClearML: рассказываем о работе с ним.

Высококачественные данные — это «топливо» для моделей глубокого обучения. Рассказали в этом материале, с помощью чего можно улучшить качество данных.

Предсказывать цены могут не только крупные ритейлеры, но и розничные офлайн-магазины. Как? Рассказали здесь.

Как тимлиду ML-команды выстроить качественные продуктивные отношения с коллегами? Узнали у senior-разработчика, советы собрали тут.

Как учиться, чтобы время и усилия были слиты не зря? Подготовили 10 советов для тех, кто хочет получить от курсов всё.

Получили интересное мнение из первых рук: Роман Резников, senior-разработчик и DL-engineer, рассказал про промт-инжиниринг в работе и личной жизни.

slavius

12 апр 2024 в 09:093.2K

Data Mining *

С понедельника на сайте лондонской биржи металлов висела плашка «Due to a technical issue the latest market data values have not been updated». Данные о торгах за прошлый день или не отображались, или отображались с ошибкой. В частности, были заменены местами значения в столбцах Bid и Offer в Trading summary по Non‑ferrous metal. В настоящее время сообщения об ошибке нет, данные отображаются верно. Если кто‑то использует данные с сайта LME.com — проверьте правильность данных за эту неделю.

ArtemBoiko

9 апр 2024 в 14:236.1K

3D-графика * Data Mining * CAD/CAM * Unity * Unreal Engine *

CAD (BIM) Revit и IFC в Unreal Engine, Unity, Oculus — визуализация, рендеринг, метаверсии и игровой дизайн

? Стандартный рендеринг в CAD (BIM) программах часто не дотягивает до качества визуализации, но игровые движки, такие как Unreal Engine и Unity, произвели революцию в архитектурной и дизайнерской визуализации. Эти движки предлагают быстрый рендеринг и интуитивно понятные настройки света, материалов и геометрии, которые значительно улучшают процесс визуализации. Теперь клиенты могут изучать виртуальные модели зданий, взаимодействуя с такими элементами, как освещение и мебель, в режиме реального времени, что улучшает их понимание и вовлеченность. Unreal Engine позволяет проводить метаверсии, превращая 3D-виртуальные миры в крупные социальные центры.

? Unreal Engine позволяет создавать интерактивные приложения 3D, дополненной (AR) и виртуальной (VR) реальности из 3D CAD (BIM) моделей.
? Визуализацию или симуляцию движения автомобилей и людей можно настроить буквально в несколько кликов. Погода и время также легко настраиваются
? Бесплатные движки позволяют подключать алгоритмы искусственного интеллекта, которые наглядно позволяют воспроизводить симуляции в реальных сценах, а не на бумаге
? Используя Unity и инструментарий ML-Agents, ты можешь создавать ИИ-среды, которые будут физически, визуально и когнитивно насыщенными
? С помощью Unity Machine Learning Agents больше не нужно"кодировать" эмерджентное поведение, а можно научить интеллектуальных агентов "учиться",

CrXf_17

24 ноя 2023 в 08:582.5K

SQL * Data Mining * NoSQL * Data Engineering * Tarantool *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_2)

Replication: Tarantool предлагает механизм репликации, который позволяет создавать реплики базы данных для обеспечения отказоустойчивости и масштабируемости. Репликация Tarantool основана на механизме репликации мастер-слейв (master-slave) и поддерживает асинхронное и синхронное реплицирование.
Sharding: Tarantool поддерживает горизонтальное масштабирование с помощью шардинга данных. Шардинг позволяет распределить данные по нескольким узлам-серверам, что позволяет обрабатывать большие объемы данных и повышает производительность.
Индексы: Tarantool предоставляет различные типы индексов для оптимизации запросов и обеспечения быстрого доступа к данным. Включая хеш-индексы, деревья и индексы, основанные на отсортированных списках.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

CrXf_17

5 ноя 2023 в 22:075.5K

Data Mining * Математика * Машинное обучение * Статистика в ITData Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

?Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;
Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);
Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

https://t.me/DenoiseLAB

CrXf_17

5 ноя 2023 в 14:573.7K

Data Mining * Big Data * Математика * Машинное обучение * Data Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

CrXf_17

5 ноя 2023 в 14:386.2K

Data Mining * Big Data * Машинное обучение * Искусственный интеллектData Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Data Mining *

Ближайшие события

Вклад авторов