Как стать автором
Поиск
Написать публикацию
Обновить
28.77

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Business Intelligence и бизнес-аналитика: стратегия, этапы, процессы и инструменты

Время на прочтение17 мин
Количество просмотров68K

Все бизнесы работают с данными — информацией, генерируемой множеством внутренних и внешних источников компании. Эти каналы данных служат органами чувств руководства, предоставляя ему информацию о том, что происходит с бизнесом и рынком. Следовательно, любое ошибочное представление, неточность или нехватка информации могут привести к искажённому восприятию ситуации на рынке и неверному пониманию внутренних операций, что в свою очередь несёт за собой ошибочные решения.

Для принятия решений на основе данных необходимо чётко видеть все аспекты своего бизнеса, даже те, о которых вы не думаете. Но как превратить неструктурированные фрагменты данных в что-то полезное? В этом вам поможет business intelligence.

Мы уже говорили о стратегии организации машинного обучения. В этой статье мы расскажем о том, как интегрировать business intelligence в существующую корпоративную инфраструктуру. Вы узнаете, как подготавливается стратегия business intelligence и интегрируются инструменты в рабочие процессы компании.
Читать дальше →

Цифровая трансформация цементного завода (ч.8): автоматическая MES-система

Время на прочтение13 мин
Количество просмотров3K

Год назад я рассказывал о создании цифрового помощника оператора, а сегодня речь пойдет о разработке собственной MES‑системы, которая его заменила и автоматически управляет качеством на производстве.

Читать статью >>

Руководство по аутсорсингу разметки данных для машинного обучения

Время на прочтение15 мин
Количество просмотров2.5K

Аннотирование и разметка сырых данных (изображений и видео) для моделей машинного обучения (ML) — это самая длительная и трудоёмкая, хотя и необходимая часть любого проекта компьютерного зрения.

Качественные результаты и точность работы команды аннотаторов непосредственно влияет на точность любой модели машинного обучения, вне зависимости от того, применяются ли к массивам данных изображений AI (искусственный интеллект) или алгоритм глубокого обучения.

Организации из различных сфер (здравоохранения, производства, спорта, ВПК, автоматизации и возобновляемой энергетики) используют модели машинного обучения и компьютерного зрения для решения задач, выявления паттернов и интерпретирования тенденций в массивах данных изображений и видео.

Любой проект компьютерного зрения начинается с разметки и аннотирования сырых данных командами аннотаторов; это огромные объёмы изображений и видео. Успешные результаты аннотирования гарантируют, что модель сможет «учиться» на этих данных обучения, решая задачи, поставленные перед ней организацией.

После формулирования задачи и целей проекта у организаций возникает непростой выбор перед этапом аннотирования: нужно ли отдавать эту работу на аутсорс, или выполнять аннотирование массивов данных изображений и видео собственными силами?
Читать дальше →

Как я учился сочинять музыку с помощью программы ScoreCloud SongWriter

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.8K

Приложение ScoreCloud Songwriter компании DoReMir Misic Reserch AB (Швеция) предназначено как для профессиональных, так и для начинающих музыкантов, создающих и реализующих музыкальные партии или отдельные песни внутри этого продукта.

Компания DoReMir выбрала модель облачного распознавания нот и применение искусственного интеллекта для создания нескольких распознанных потоков. Распределенное музыкальное хранилище находится внутри облака AWS.

Это означает, что любая ваша музыкальная партия будет сначала локально сохранена в формате ogg или mp3, потом загружена на AWS.

После загрузки в облако к вашему музыкальному файлу будут применены следующие алгоритмы: разбиение его на отдельные музыкальные токены, применение к отдельным музыкальным токенам методики по определению тональности, определению музыкального размера и определению ведущих мелодию голосов и аккомпанирующих инструментов.

Обзор, распознавание, анализ - поехали!

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

Время на прочтение9 мин
Количество просмотров11K

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону.  Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

Читать далее

Создаём оптимизированный план ТОиР с помощью F5 EAM Optimizer

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.1K

Дефицит комплектующих, изменение логистических маршрутов, последствия коронакризиса и влияние западных санкций в 2022 году подтолкнули российские промышленные предприятия искать новые способы сохранения и повышения эффективности производства. Промышленным предприятиям нужны решения для оптимизации процессов техобслуживания и ремонта «сейчас» и построения концепции цифрового предприятия «завтра». На старте, как правило, покрываются основные элементы ТОиР, затем можно переходить к расширенным сценариям мониторинга на основе данных телеметрии и к оптимизации планов, и уже после этого внедрять модели предиктивного анализа. В этой статье мы хотим рассказать о том, как оптимизировать планы технического обслуживания и ремонта с помощью системы F5 EAM и ее модуля EAM Optimizer.

Читать далее

Реальный путь в data science

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров17K

Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.

Читать далее

Обучите YOLOv8 на пользовательском наборе данных

Время на прочтение10 мин
Количество просмотров66K

Ultralytics недавно выпустила семейство моделей обнаружения объектов YOLOv8. Эти модели превосходят предыдущие версии моделей YOLO как по скорости, так и по точности в наборе данных COCO. Но как насчет производительности на пользовательских наборах данных? Чтобы ответить на этот вопрос, мы будем обучать модели YOLOv8 на пользовательском наборе данных. В частности, мы будем обучать его на крупномасштабном наборе данных для обнаружения выбоин.

Читать далее

Как жили наши предки 400 лет назад? Создание базы данных населения XVII века по южным уездам России

Время на прочтение6 мин
Количество просмотров8.7K

Можно ли найти конкретного человека, жившего в XVII веке? Выражаясь современным языком «пробить по базам». Оказывается, архивные документы хранят массу информации об обычных людях того периода. Однако существует ряд сложностей, не позволяющих обычному исследователю добраться до этой информации. Во-первых, нужно пройти определённую процедуру по получению доступа в архив. Во-вторых, не всегда можно выйти на нужный документ, используя так называемый научно-справочный аппарат – различные описи и реестры документов, имеющиеся в архиве. Наконец, не имея навыков чтения документов XVII века, которые написаны скорописью, почти нереально ознакомиться с его содержанием.

Данные проблемы предполагается решить с помощью создания базы данных служилых людей XVII века. Об этом небольшая история.

Как всё начиналось.

Привет! Меня зовут Дмитрий и вот уже более 10 лет я изучаю историю южных уездов России XVII века. Территориально – это современные Белгородская, а также соседние Воронежская, Курская, Липецкая и другие области. Населены они были тогда так называемыми служилыми людьми – они получали здесь в качестве служебного жалования земельные наделы, которые сами и обрабатывали. В XVIII веке их потомки стали однодворцами, а затем государственными крестьянами. Большая часть населения Курской, Воронежской и соседних губерний XIX века происходят из тех самых служилых людей XVI–XVII веков.

Продолжим?

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

Время на прочтение26 мин
Количество просмотров6.2K

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.
Читать дальше →

Сводные таблицы в Pandas — швейцарский нож для аналитиков

Время на прочтение3 мин
Количество просмотров49K

Сводные таблицы хорошо известны всем аналитикам по Excel. Это прекрасный инструмент, который помогает быстро получить различную информацию по массиву данных. Рассмотрим реализацию и тонкости сводных таблиц в Pandas.

Читать далее

Введение в диффузионные модели для генерации изображений – полное руководство

Время на прочтение22 мин
Количество просмотров42K

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

Читать далее

Топ-5 трендов управления производственными активами

Время на прочтение6 мин
Количество просмотров1.9K

Мы в Factory5 постоянно исследуем рынок и отмечаем тенденции развития не только отечественного, но и зарубежного рынка цифровых решений для промышленности. 2022 год стал поворотным в истории многих предприятий: компаниям приходилось трансформироваться под новые реалии, пробовать новое и принимать быстрые решения. Представляем вашему вниманию обзор актуальных трендов рынка применения систем класса EAM (Enterprise Asset Management). Такие системы применяются для автоматизации бизнес-процессов учета, технического обслуживания и ремонта основных фондов промышленных компаний.

Читать далее

Ближайшие события

Сжимаем временной ряд в светофор

Время на прочтение3 мин
Количество просмотров3.3K


«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)


Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.


Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.


Все предыдущие публикации.

Читать дальше →

Как погода влияет на отзывы людей в интернете?

Время на прочтение4 мин
Количество просмотров2.3K

Как погода влияет на отзывы людей в интернете?

Ожидается, что мир преодолеет порог глобального потепления между 2027 и 2042 годами. Используя математические модели, которые анализируют текущее состояние климата Земли, ученые ожидают, что температура повысится на 1,5 градуса, как только мы достигнем этого уровня.

Правительства и экологические активисты многих стран мира бьют тревогу по поводу необходимости остановить климатическую катастрофу, которая нарастает быстрее, чем предполагалось в первоначальных прогнозах. Тем не менее, новые технологии будут играть важную роль в формировании политики и разработке инноваций, направленных на решение климатических проблем.

Если абстрагироваться от глобальных перемен климата и рассмотреть изменения состояния погоды, например, в России, то можно сделать несколько любопытных наблюдений.

Читать далее

Ultralytics YOLOv8

Время на прочтение5 мин
Количество просмотров60K

YOLOv8 - это новейшее семейство моделей обнаружения объектов на базе YOLO от Ultralytics, обеспечивающих самые современные характеристики.

Читать далее

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Время на прочтение12 мин
Количество просмотров11K

Когда два года назад Лэй Ван стала аннотатором данных, её работа была относительно простой: определять гендер людей на фотографиях. Но с тех пор Ван заметила, что сложность её задач становится всё выше: от разметки гендера до разметки возраста, от рамок вокруг 2D-объектов до 3D-разметки, от фотографий при дневном свете до сцен ночью и в тумане, и так далее.

Ван 25 лет. Она работала секретарём в приёмной, однако когда в 2017 году её компания закрылась, друг, работавший разработчиком алгоритмов, предложил ей исследовать новый карьерный путь в аннотировании данных — процессе разметки данных, позволяющем применять их в системах искусственного интеллекта, особенно с использованием машинного обучения с учителем. Став безработной, она решила рискнуть.

Два года спустя Ван уже работала помощником проект-менеджера в пекинской компании Testin. Обычно она начинает свой рабочий день со встречи с клиентами, которые в основном представляют китайские технологические компании и стартапы в сфере AI. Клиент сначала передаёт ей в качестве теста небольшую долю массива данных. Если результаты удовлетворяют требованиям, Ван получает массив данных полностью. Затем она передаёт его производственной команде, обычно состоящей из десяти разметчиков и трёх контролёров. Такие команды настроены на эффективность и могут, например, аннотировать 10 тысяч изображений для распознавания дорожных полос примерно за восемь дней с точностью в 95%.
Читать дальше →

Как собрать базу организаций за час

Время на прочтение2 мин
Количество просмотров12K

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

Читать далее

Как изучить SQL за 2 месяца с нуля. План обучения

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров87K

То, что данные называют нефтью 21 века известно уже давно: на них учатся нейросети, их мгновенная обработка и передача сильно упростили нашу жизнь, и одной из самых распространенных структур хранения данных является реляционная.

Основным инструментом для взаимодействия с реляционными БД является структурированный язык запросов или же SQL.

Вкратце, на мой взгляд, необходимо знать следующие разделы:

Читать далее

Heatmap на интерактивной карте с помощью folium

Время на прочтение4 мин
Количество просмотров6.1K


Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.


Действовать будем в 3 этапа:


  1. Парсинг вакансий с hh API
  2. Актуализация геолокаций каждой вакансии с точностью до населенного пункта
  3. Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium
Читать дальше →