Как стать автором
Поиск
Написать публикацию
Обновить
25.35

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

YOLOR — Объяснение статьи и выводы – Углубленный анализ

Время на прочтение20 мин
Количество просмотров3.1K

В последние годы наблюдается огромный прогресс в серии YOLO, в настоящее время в ней используются как модели обнаружения объектов без привязки, так и модели обнаружения объектов на основе привязки. Вместо того, чтобы сосредоточиться исключительно на архитектурных изменениях, YoloR выбирает новый маршрут. Он черпает вдохновение в том, как люди сочетают неявные знания с явными знаниями для решения новых задач. Предлагаемые методы значительно улучшают производительность Обнаружение объектов YoloR модели, в результате которых они будучи на ~88% ?быстрее и лучше (? 57,3% на Набор для тестирования COCO) с минимальными дополнительными затратами.

Читать далее

Как стать аналитиком? (и зачем)

Время на прочтение13 мин
Количество просмотров46K

Они носят множество имен: Data Analyst, Data Scientist, Business Analyst и т. д., но всех их объединяет одна основная черта — эти люди занимаются анализом данных. Итак, начнем с главного. Сколько получают аналитики?

Читать далее

Обзор зарубежной недвижимости для россиян. Что, где, почём?

Время на прочтение7 мин
Количество просмотров20K

Допустим, у вас есть квартира в Москве. Или в Твери. Или в Томске, не суть. Если вы решите её продать, какую недвижимость за рубежом вы сможете купить и в какой стране? 

Еще пару лет назад такой вопрос казался если не странным, то праздным. А всерьез продать российскую недвижимость ради покупки зарубежной решались и вовсе единицы. 

Однако, в последнее время тема переезда на ПМЖ в другую страну приобрела особую популярность. И для многих (особенно для айтишников) озвученные выше вопросы перешли в разряд вполне насущных.

В этой статье я дам небольшой обзор рынка зарубежной недвижимости для россиян, основанный на открытых данных. Что, где и почем продают. А в качестве бонуса посмотрим на соответствие цен недвижимости между разными регионами России и зарубежными странами. 

Читать далее

Краткий обзор использования ML в логистике или почему все не очень классно

Время на прочтение3 мин
Количество просмотров4.8K

Машинное обучение может помочь в достаточно большом количестве задач логистической сфере. Это не только задачи для компаний, которые работают в этой сфере, но и для бизнеса, который пользуется услугами логистических компаний: дистрибьюторы, компании FMCG, ретейлеры и т.д. Я говорю о задачах, начиная с базовых (проверка автомобилей перед выездом на безопасность) и заканчивая оптимизацией работы склада за счет машинного обучения. 

В городской логистике есть два направления, где можно использовать машинное обучение. Первое – автоматизация доставки. Например, у «Яндекса» есть роботы-курьеры, которые сейчас ездят по Москве (от места отправки заказа до адреса получателя) и обучаются, автоматические дроны Amazon успешно развозят заказы клиентам в пилотном режиме. 

Второе направление - построение маршрутов для доставки покупок, более проработанная область, поскольку машинное обучение помогает не столько построить маршрут, сколько скорректировать его. У того же «Яндекса» есть большая проблема – он плохо предсказывает пробки и влияние погодных условий на дорожный трафик. Даже если вы просто ездите на такси, можно заметите, что цена 300 рублей, ехать 10 минут. Но это в 17.55 вечера, когда все едут с работы домой и, хотя цена небольшая, на одного клиента водитель потратит минут 40. Вот это никак не учитывается. 

Однако, есть менее изученное направление в логистике с точки зрения пользы для него машинного обучения - это полное планирование маршрутов для доставки на день, неделю, месяц по нескольким точкам для энного количества автомобилей. Речь идет как о всем известной задаче коммивояжера, так и более частном - так называемые задачи VRP, которые сейчас решаются по большей части эврестическими алгоритмами. И у этих решений есть определенные проблемы. 

Читать далее

Введение в библиотеку Transformers и платформу Hugging Face

Время на прочтение17 мин
Количество просмотров101K

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

Tutorial к автоматизации разметки изображений с использованием OpenCV Python

Время на прочтение17 мин
Количество просмотров13K

Разметка- самая важная часть проекта глубокого обучения. Это решающий фактор того, насколько хорошо модель обучится. Однако это очень утомительно и отнимает много времени. Одним из решений является использование автоматизированного инструмента разметки изображений, который значительно сокращает время.

В этой статье мы обсудим некоторые приемы и приемы разметки в OpenCV. С помощью этих методов мы создадим автоматизированный инструмент для разметки одного класса. Он также будет иметь функцию отклонения ненужных объектов. Все это использует возможности некоторых простых алгоритмов в OpenCV.

Читать далее

Сегментация деталей корпуса автомобиля: от разметки до сглаживания контуров

Время на прочтение11 мин
Количество просмотров2.7K

Добрый день, Хабр! Меня зовут Арсений Рылов. Я работаю ведущим специалистом по анализу и обработке данных в компании “Финолаб” и сегодня снова речь пойдет об автомобилях, нейросетях и инновационных решениях.

В нашем блоге мы уже рассказывали о сервисе дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта, который который к настоящему времени прошел новый этап развития: дополнен новым функционалом, более совершенными алгоритмами обработки данных и количество скачиваний приложения растет ежемесячно на 40%. Уже сейчас, получая фото- и видеоматериалы со смартфона пользователя, мы научились выполнять качественную оценку в различных условиях: снег, грязь, яркое солнце с бликами и неравномерная освещенность. В целом, мы обеспечиваем обнаружение 92% 11-ти видов повреждений стекол и кузова автомобиля и продолжаем улучшать наши метрики.

В проекте я решаю задачу сегментации деталей корпуса автомобиля. Она многогранна и сложна из-за того, что существует много вариаций марок и моделей машин, у каждой из которых своя форма деталей, а иногда и их набор. Сегодня мне хотелось бы поделиться с вами некоторыми решениями, которые я использовал в своей работе, и отдельно выделить задачу спрямления контуров сегментируемых деталей.

Читать далее

Кейсы разметки в CVAT #1: найди отличия

Время на прочтение8 мин
Количество просмотров2.4K

Привет, дорогие читатели! Меня зовут Алина, я работаю операционным менеджером в компании Training Data, которая занимается сбором и разметкой данных. Я веду проекты по разметке, а еще благодаря знанию python пишу скрипты для автоматизации работы своей команды. У меня накопилось много интересного опыта, которым я хочу с вами поделиться.

Своей первой статьей я открываю рубрику разбора любопытных кейсов, с которыми столкнулись я и мои коллеги во время организации разметки данных в CVAT.

Computer Vision Annotation Tool (CVAT) – это инструмент с открытым исходным кодом для разметки цифровых изображений и видео. Основной его задачей является предоставление пользователю удобных и эффективных средств разметки наборов данных. “ - цитата из статьи создателей.

Все мы с вами прекрасно знаем детскую игру на развитие внимательности и наблюдательности - поиск отличий на картинках. Она встречалась нам в журналах, на календарях, а позже - на сайтах и мемах в VK. Но кто бы мог подумать, что подобная забава дойдет и до разметки данных для обучения нейронных сетей?

Читать дальше

10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

Время на прочтение7 мин
Количество просмотров7.4K

Наша компания знает важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию статей Tools we love, в которой мы подробно рассматриваем некоторые из наших любимых инструментов аннотирования, а также выбранные нами лучшие инструменты аннотирования за 2019, 2020 и 2021 годы.

В процесса роста сферы аннотирования изображений мы наблюдаем увеличение количества опенсорсных инструментов, позволяющих любому размечать изображения бесплатно и пользоваться широким набором функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для машинного зрения!
Читать дальше →

Обнаружение сонливости водителя с помощью MediaPipe в Python

Время на прочтение24 мин
Количество просмотров8.9K

По данным CDC (Центры по контролю и профилактике заболеваний США), “по оценкам, 1 из 25 взрослых водителей (18 лет и старше) сообщают о засыпании во время вождения ...”. В статье сообщается: “... сонное вождение стало причиной 91 000 дорожно-транспортных происшествий ...”.Чтобы помочь в решении таких проблем, в этом посте мы создадим систему обнаружения сонливости водителя и оповещения, используя API-интерфейс Mediapipe для решения Face Mesh на Python. Эти системы оценивают бдительность водителя и при необходимости предупреждают водителя.

Читать далее

Сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7

Время на прочтение11 мин
Количество просмотров12K

Если вы выполняете проект по обнаружению объектов, высока вероятность того, что вы выберете одну из многих моделей YOLO. Учитывая количество моделей обнаружения объектов YOLO, сделать выбор в пользу лучшей из них непросто.

Читать далее

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

Время на прочтение14 мин
Количество просмотров2.4K

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но если уж начал автоматизацию чатов, то к делу надо подходить серьёзно. Единственное, что нас беспокоило — это процент автоматизации. В мире нет ничего более непонятного, сложного и запутанного, чем естественный язык и поведение клиентов. И я знал, что довольно скоро мы в это окунёмся.

Читать далее

FCOS- объяснение обнаружения объектов без привязки

Время на прочтение15 мин
Количество просмотров3.3K

FCOS: полностью сверточное одноступенчатое обнаружение объектов - это детектор объектов без привязки. Он решает проблемы обнаружения объектов с помощью метода прогнозирования по пикселям, аналогичного сегментации. Большинство последних детекторов объектов без привязки или без привязки на основе глубокого обучения используют FCOS в качестве основы.

Читать далее

Ближайшие события

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

Время на прочтение3 мин
Количество просмотров13K

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?

Читать далее

Инженерия данных != инженерия ПО

Время на прочтение13 мин
Количество просмотров5.9K

В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.

Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход.
Читать дальше →

Структура команды Data Science: ключевые модели и роли

Время на прочтение16 мин
Количество просмотров11K

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.
Читать дальше →

YOLOv7 pose vs MediaPipe при оценке позы человека

Время на прочтение10 мин
Количество просмотров4.8K

Поза YOLOv7 была представлена в репозитории YOLOv7 через несколько дней после первоначального выпуска в июле ‘22. Это одноступенчатая модель оценки позы для нескольких человек. Поза YOLOv7 уникальна, поскольку она отличается от обычных двухэтапных алгоритмов оценки позы. Благодаря снижению сложности одноступенчатых моделей мы можем ожидать, что они будут быстрее и эффективнее.

Поехали

Не всё то золото, что блестит: итоги сезона Data Mining

Время на прочтение9 мин
Количество просмотров17K

С 5 сентября по 20 октября Хабр приоткрыл портал в оккультное IT-измерение, в котором обитают дата-сатанистысайентисты. Стоило произнести зловещее заклинание «стартует сезон Data Mining» и возложить на призовой алтарь игровой монитор, как на хаб слетелись десятки адептов. 

Под катом подводим итоги сезона, показываем лучшие посты, знакомимся с авторами, славим победителя и поясняем, почему Data Mining так важен в современном мире.

Вместе с компанией SM Lab — спонсором сезона и куратором хаба — мы изучили присланные на конкурс манускрипты. Среди постов сезона были поразительные жемчужины. Лучшую из них определили читатели. 

Читать далее

Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений

Время на прочтение6 мин
Количество просмотров3.4K

Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня. 

Читать далее

ETL и ELT: ключевые различия, о которых должен знать каждый

Время на прочтение10 мин
Количество просмотров59K
image

ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.

В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать дальше →