Как стать автором
Поиск
Написать публикацию
Обновить
22.6

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Реальный путь в data science

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров17K

Эта статья про мой путь до первой работы в DS (data science). Путь был не маленьким и был пройден за 2,5 года. Кого-то эта цифра отпугнет, если бы я знал это в начале, то меня бы тоже отпугнула, кто-то назовет меня неспособным дурачком (и отчасти будет прав), а для кого-то (я надеюсь) эта статья поможет сократить время обучения и пройти этот путь быстрее.

Читать далее

Обучите YOLOv8 на пользовательском наборе данных

Время на прочтение10 мин
Количество просмотров65K

Ultralytics недавно выпустила семейство моделей обнаружения объектов YOLOv8. Эти модели превосходят предыдущие версии моделей YOLO как по скорости, так и по точности в наборе данных COCO. Но как насчет производительности на пользовательских наборах данных? Чтобы ответить на этот вопрос, мы будем обучать модели YOLOv8 на пользовательском наборе данных. В частности, мы будем обучать его на крупномасштабном наборе данных для обнаружения выбоин.

Читать далее

Как жили наши предки 400 лет назад? Создание базы данных населения XVII века по южным уездам России

Время на прочтение6 мин
Количество просмотров8.7K

Можно ли найти конкретного человека, жившего в XVII веке? Выражаясь современным языком «пробить по базам». Оказывается, архивные документы хранят массу информации об обычных людях того периода. Однако существует ряд сложностей, не позволяющих обычному исследователю добраться до этой информации. Во-первых, нужно пройти определённую процедуру по получению доступа в архив. Во-вторых, не всегда можно выйти на нужный документ, используя так называемый научно-справочный аппарат – различные описи и реестры документов, имеющиеся в архиве. Наконец, не имея навыков чтения документов XVII века, которые написаны скорописью, почти нереально ознакомиться с его содержанием.

Данные проблемы предполагается решить с помощью создания базы данных служилых людей XVII века. Об этом небольшая история.

Как всё начиналось.

Привет! Меня зовут Дмитрий и вот уже более 10 лет я изучаю историю южных уездов России XVII века. Территориально – это современные Белгородская, а также соседние Воронежская, Курская, Липецкая и другие области. Населены они были тогда так называемыми служилыми людьми – они получали здесь в качестве служебного жалования земельные наделы, которые сами и обрабатывали. В XVIII веке их потомки стали однодворцами, а затем государственными крестьянами. Большая часть населения Курской, Воронежской и соседних губерний XIX века происходят из тех самых служилых людей XVI–XVII веков.

Продолжим?

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

Время на прочтение26 мин
Количество просмотров6.2K

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.
Читать дальше →

Сводные таблицы в Pandas — швейцарский нож для аналитиков

Время на прочтение3 мин
Количество просмотров49K

Сводные таблицы хорошо известны всем аналитикам по Excel. Это прекрасный инструмент, который помогает быстро получить различную информацию по массиву данных. Рассмотрим реализацию и тонкости сводных таблиц в Pandas.

Читать далее

Введение в диффузионные модели для генерации изображений – полное руководство

Время на прочтение22 мин
Количество просмотров42K

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

Читать далее

Топ-5 трендов управления производственными активами

Время на прочтение6 мин
Количество просмотров1.9K

Мы в Factory5 постоянно исследуем рынок и отмечаем тенденции развития не только отечественного, но и зарубежного рынка цифровых решений для промышленности. 2022 год стал поворотным в истории многих предприятий: компаниям приходилось трансформироваться под новые реалии, пробовать новое и принимать быстрые решения. Представляем вашему вниманию обзор актуальных трендов рынка применения систем класса EAM (Enterprise Asset Management). Такие системы применяются для автоматизации бизнес-процессов учета, технического обслуживания и ремонта основных фондов промышленных компаний.

Читать далее

Сжимаем временной ряд в светофор

Время на прочтение3 мин
Количество просмотров3.3K


«Мы сделаем вас счастливыми! Вы будете счастливыми!»
«Отроки во Вселенной» (1974)


Менеджеры в большинстве компаний хотят примерно одного и того же. Чтобы сложные вещи объяснялись простым языком, а все можно было свести к спидометрам, градусникам и светофорам.


Аллегория вполне понятная, пытаться объяснять что-либо — в 99% случаев процедура бессмысленная и энергозатратная. Поэтому ниже пример, как двумя экранами кода можно быстренько превратить временные ряды, которые почти всегда встречаются в больших количествах, в светофор.


Все предыдущие публикации.

Читать дальше →

Как погода влияет на отзывы людей в интернете?

Время на прочтение4 мин
Количество просмотров2.3K

Как погода влияет на отзывы людей в интернете?

Ожидается, что мир преодолеет порог глобального потепления между 2027 и 2042 годами. Используя математические модели, которые анализируют текущее состояние климата Земли, ученые ожидают, что температура повысится на 1,5 градуса, как только мы достигнем этого уровня.

Правительства и экологические активисты многих стран мира бьют тревогу по поводу необходимости остановить климатическую катастрофу, которая нарастает быстрее, чем предполагалось в первоначальных прогнозах. Тем не менее, новые технологии будут играть важную роль в формировании политики и разработке инноваций, направленных на решение климатических проблем.

Если абстрагироваться от глобальных перемен климата и рассмотреть изменения состояния погоды, например, в России, то можно сделать несколько любопытных наблюдений.

Читать далее

Ultralytics YOLOv8

Время на прочтение5 мин
Количество просмотров60K

YOLOv8 - это новейшее семейство моделей обнаружения объектов на базе YOLO от Ultralytics, обеспечивающих самые современные характеристики.

Читать далее

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Время на прочтение12 мин
Количество просмотров11K

Когда два года назад Лэй Ван стала аннотатором данных, её работа была относительно простой: определять гендер людей на фотографиях. Но с тех пор Ван заметила, что сложность её задач становится всё выше: от разметки гендера до разметки возраста, от рамок вокруг 2D-объектов до 3D-разметки, от фотографий при дневном свете до сцен ночью и в тумане, и так далее.

Ван 25 лет. Она работала секретарём в приёмной, однако когда в 2017 году её компания закрылась, друг, работавший разработчиком алгоритмов, предложил ей исследовать новый карьерный путь в аннотировании данных — процессе разметки данных, позволяющем применять их в системах искусственного интеллекта, особенно с использованием машинного обучения с учителем. Став безработной, она решила рискнуть.

Два года спустя Ван уже работала помощником проект-менеджера в пекинской компании Testin. Обычно она начинает свой рабочий день со встречи с клиентами, которые в основном представляют китайские технологические компании и стартапы в сфере AI. Клиент сначала передаёт ей в качестве теста небольшую долю массива данных. Если результаты удовлетворяют требованиям, Ван получает массив данных полностью. Затем она передаёт его производственной команде, обычно состоящей из десяти разметчиков и трёх контролёров. Такие команды настроены на эффективность и могут, например, аннотировать 10 тысяч изображений для распознавания дорожных полос примерно за восемь дней с точностью в 95%.
Читать дальше →

Как собрать базу организаций за час

Время на прочтение2 мин
Количество просмотров12K

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

Читать далее

Как изучить SQL за 2 месяца с нуля. План обучения

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров87K

То, что данные называют нефтью 21 века известно уже давно: на них учатся нейросети, их мгновенная обработка и передача сильно упростили нашу жизнь, и одной из самых распространенных структур хранения данных является реляционная.

Основным инструментом для взаимодействия с реляционными БД является структурированный язык запросов или же SQL.

Вкратце, на мой взгляд, необходимо знать следующие разделы:

Читать далее

Ближайшие события

Heatmap на интерактивной карте с помощью folium

Время на прочтение4 мин
Количество просмотров6.1K


Возникла необходимость изобразить на интерактивной карте актуальное предложение вакансий в сфере Data Science с агрегацией по городам.


Действовать будем в 3 этапа:


  1. Парсинг вакансий с hh API
  2. Актуализация геолокаций каждой вакансии с точностью до населенного пункта
  3. Построение heatmap по количеству вакансий и по средней предлагаемой зарплате с помощью folium
Читать дальше →

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров118K

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее

Используем Computer Vision для получения €6,147,455 за ночь во внутриигровой валюте

Время на прочтение5 мин
Количество просмотров21K

Последние 10 лет я играл в такие игры, как TownsMen 6, Clash of the Clans, SimCity и мою любимую OpenTTD (с открытым исходным кодом!).

Попробовав City Island 5, я был раздражен от того, что предметы не накапливались, пока я находился вне игры. У меня может быть самый лучший бизнес, стратегия и т.д., но я должен быть в игре, чтобы обеспечить сбор денег/ключей/золота с течением времени. Например, если моя пекарня зарабатывает 100 евро в минуту, я заработаю 100 евро только после того, как выйду из игры и вернусь через 24 часа.

Это стало особенно утомительным, когда я пытался накопить €5 000 000, необходимых для покупки острова, показанного ниже. Это займет у меня примерно две недели игры, если я не буду тратить деньги - оно того не стоит!

Читать далее

Как внедрить Data Driven подход в систему управления поставками

Время на прочтение9 мин
Количество просмотров2.2K

В уходящем году для многих компаний остро встал вопрос своевременного пополнения запасов комплектующих и запасных частей. В этой статье хотим рассказать о том, как с помощью современных инструментов по анализу больших данных оптимизировать управление цепью поставок и принимать взвешенные управленческие решения, основанные на реальных данных.

Читать далее

Распознавание товаров на полках

Время на прочтение8 мин
Количество просмотров6.7K

Computer Vision позволил создать принципиально новые продукты и механики в многих областях жизни: умный город, беспилотный транспорт, аналитика производств.
То же самое произошло и с супермаркетами: “оценка длины очереди”, “оценка загруженности зала”, “оценка загруженности полок товарами”, “проверка выкладки”, “проверка качества уборки”, “проверка ценников” и многое-многое другое это теперь автоматизированные задачи.
В этой статье я хочу рассказать про то, какие используются общие принципы для распознавания товаров. Эти алгоритмы необходимы для проверки выкладки, заполненности полок, контроля остатков и других задач.
Так получилось что за последние 7 лет мы были вовлечены в решение и консультирование по большинству таких задач, так что накопилось много интересного опыта.

Читать далее

Шесть шагов для создания более качественных моделей Computer Vision

Время на прочтение11 мин
Количество просмотров11K

Компьютерное зрение (computer vision, CV) — подраздел искусственного интеллекта, использующий алгоритмы машинного обучения и глубокого обучения для распознавания и интерпретации объектов на изображениях и видео. CV сосредоточено на воссоздании аспектов сложности зрительной системы человека, позволяя компьютерам определять и анализировать предметы на фотографиях и видео точно так же, как это делают люди.

За последние годы в области компьютерного зрения произошёл существенный прогресс, благодаря прорывам в искусственном интеллекте и инновациям в глубоком обучении и нейронных сетях компьютеры превзошли людей в различных задачах, связанных с распознаванием объектов. Одним из движущих факторов эволюции компьютерного зрения является объём генерируемых сегодня данных, которые применяются для обучения и совершенствования CV.

В этой статье мы сначала рассмотрим способы применения моделей компьютерного зрения в реальном мире, чтобы понять, почему нам нужно создавать более качественные модели. Затем мы перечислим шесть способов совершенствования моделей компьютерного зрения при помощи улучшения обработки данных. Но для начала давайте вкратце обсудим различия между моделями компьютерного зрения и машинного обучения.
Читать дальше →

YOLOR — Объяснение статьи и выводы – Углубленный анализ

Время на прочтение20 мин
Количество просмотров3.1K

В последние годы наблюдается огромный прогресс в серии YOLO, в настоящее время в ней используются как модели обнаружения объектов без привязки, так и модели обнаружения объектов на основе привязки. Вместо того, чтобы сосредоточиться исключительно на архитектурных изменениях, YoloR выбирает новый маршрут. Он черпает вдохновение в том, как люди сочетают неявные знания с явными знаниями для решения новых задач. Предлагаемые методы значительно улучшают производительность Обнаружение объектов YoloR модели, в результате которых они будучи на ~88% ?быстрее и лучше (? 57,3% на Набор для тестирования COCO) с минимальными дополнительными затратами.

Читать далее