Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

cointegrated 30 июн 2023 в 07:12

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили

Сложный

6 мин

3.6K

Natural Language Processing*Машинное обучение*Data Mining*Семантические сети*Python*

Чтобы обучать нейросети понимать и генерировать человеческие языки, нужно много качественных текстов на нужных языках. «Много» – не проблема в эпоху интернета, но с качеством бывают сложности. В этом посте я предлагаю использовать BERT-подобные модели для двух задач улучшения качества обучающих текстов: исправление ошибок распознавания текста из сканов и фильтрация параллельного корпуса предложений. Я испробовал их на башкирском, но и для других языков эти рецепты могут оказаться полезны.

+17

General_RJ-45 25 июн 2023 в 18:22

Mini-ml-stand для бедных

Простой

17 мин

6.7K

Data Mining*Машинное обучение*DevOps*Kubernetes*Data Engineering*

Туториал

Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.

На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.

В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.

Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:

Развернем свой стенд с мл и etl?

+14

OnlyAnalyst 23 июн 2023 в 07:53

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

10 мин

16K

Data Mining*Big Data*Data Engineering*

✏️ Технотекст 2023

Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.

+38

redmadrobot 13 июн 2023 в 10:35

Что такое исследование данных и почему оно необходимо — кейс rdl by red_mad_robot и «АгроТерры»

Средний

9 мин

1.8K

Блог компании red_mad_robotData Mining*Data Engineering*

Кейс

Перед тем как проводить исследования на данных, нужно исследовать сами данные. Достаточно ли их для анализа, какие гипотезы и факторы влияют на результат, а какие — чистая рулетка? На эти вопросы отвечает исследование данных — Exploratory Data Analysis (EDA). Его rdl by red_mad_robot и проводил для «АгроТерры».

Safreliy 9 июн 2023 в 16:21

Модификация алгоритма FP Growth или как правильно ухаживать за своими деревьями

Сложный

8 мин

3.6K

Data Mining*Алгоритмы*Математика*Машинное обучение*Data Engineering*

Из песочницы

✏️ Технотекст 2023

Привет, Хабр!

В поисках варианта алгоритма FP Growth, который мог бы удовлетворить моим потребностям, я столкнулся с неожиданным и крайне удивительным обстоятельством - все решения из коробки не предполагали разбиения данных на батчи (относительно небольшие наборы элементов) и последующем обучении на них. Также они не были способны дообучаться на вновь полученных транзакциях да и в целом были заточены на единовременный анализ всей транзакционной базы данных. Меня это смутило - неужели в эпоху обработки больших данных не было подробно описано или хотя бы выложено на всеобщее обозрение ни одной реализации подобного алгоритма. Возможно, я не первый, кто придумал что-то подобное, и в кулуарах научных статей найдутся схожие идеи - что ж, в любом случае это мой личный опыт и я надеюсь в каком-либо приближении он окажется вам полезен или хотя бы интересен.

aledovskiy 9 июн 2023 в 07:19

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

9 мин

15K

Блог компании AvitoTechBig Data*Data Mining*Python*

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

kmamonov 7 июн 2023 в 08:02

Как Почта моделирует риски потери отправлений

Средний

7 мин

6.5K

Блог компании ПочтатехData Mining*Big Data*Машинное обучение*

Кейс

Cезон big data

Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.

+14

xeovo 2 июн 2023 в 07:17

Готовы ли вы к прозрачности мозга: корпорации готовятся залезть в головы работников

15 мин

10K

Блог компании Xeovo VPNБудущее здесьМозгУправление персоналом*Data Mining*

Аналитика

В начале этого года на Всемирном экономическим форуме в Давосе прозвучала презентация профессора Ниты Фарахани о том, как возможности современных датчиков мозговой активности для контроля за сотрудниками могут изменить рабочие места. ИИ позволяет расшифровывать мозговую активность способами, которые раньше не представлялись возможными: носимые датчики (наушники, повязки, миниатюрные наклейки, которые можно спрятать за ухом) могут определять эмоциональное состояние человека; замечать и расшифровывать лица, которые он видит; расшифровывать простые геометрические формы, цифры, ПИН-коды; наручные датчики вроде часов позволяют расшифровывать сигналы на какие нажимать клавиши.

В ходе презентации профессор пыталась вывести на первый план пользу отслеживающих мозговую активность устройств для ментального и физического здоровья сотрудников, рисуя картины контроля за своим состоянием и детектирования любых тревожных звоночков для обращения к врачу. Но даже бизнес-аудитория главного экономического форума планеты прозвучала смятённо, когда в завершение своего выступления профессор Фарахани обратилась к залу с вопросом: «готовы ли вы к этому будущему?»

+30

kucev 1 июн 2023 в 08:32

Все события в мире синтетических данных за 2022 год

12 мин

1.3K

Обработка изображений*Машинное обучение*Искусственный интеллектData Mining*Big Data*

Перевод

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

28 поставщиков структурированных синтетических данных,
10 поставщиков синтетических тестовых данных,
6 опенсорсных поставщиков,
и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:

На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.

Читать дальше →

Mazepov 30 мая 2023 в 19:48

Определение свободного парковочного места с помощью Computer Vision

Средний

8 мин

14K

Машинное обучение*Искусственный интеллектData Mining*Python*

Из песочницы

Всем привет! Это моя первая статья на Хабр (поэтому не судите строго).

Дело было так: смотрел я как-то в окно и увидел, как человек сидит в машине на парковке и ждет, когда освободится парковочное место. Бывает, что и я сижу в машине и жду, когда же можно будет припарковать своего верного коня. И тут я подумал, а почему бы не подключить Компьютерное Зрение для этого? Зачем я учился разработке нейросетей, если не могу заставить компьютер работать вместо меня?

Изначально идея заключалась в следующем: Модель на базе компьютерного зрения должна через веб-камеру, установленную дома, отслеживать освободившиеся места на парковке и информировать через telegram-бота если такое место появится. Работать будем на Python.

Итак, ТЗ для меня от меня сформулировано, теперь за дело!

Первое с чем необходимо было определиться, это решить, какую модель детектирования объектов использовать. Сначала мой выбор пал на Fast R-СNN. Модель показывала хорошее качество детектирования. Однако после нескольких дней ~~прокрастинации~~ обдумывания реализации я решил воспользоваться более современными и интересными методами и подключить детектор от YOLO (взял не самую новую 4 версию).

+28

t3chnowolf 29 мая 2023 в 08:27

Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

6 мин

17K

Блог компании МТСPython*Data Mining*Big Data*Статистика в IT

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!

+24

Demir_Uzun 28 мая 2023 в 16:33

Выбор подходящего инструмента для запросов: сравниваем DBeaver с Datagrip

Простой

3 мин

30K

Data Engineering*SQLite*Microsoft SQL Server*Data Mining*SQL*

Мнение

В процессе своего обучения профессии ML engineer, пришло время и мне окунуться в мир баз данных. На курсе нам предложили два инструмента для работы с базами данных - это DataGrip и DBeaver (если же, по вашему мнению, существует более интересные продукты, то я буду только рад, если вы в комментария об этом расскажете). Я в своей статье задаюсь целью сравнить эти два инструмента - возможно это поможет кому-то с выбором.

Итак, приступим.

-5

dimanosov007 26 мая 2023 в 07:06

Обучите YOLO NAS пользовательскому набору данных

13 мин

7.2K

Python*Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Туториал

Перевод

На данный момент YOLO-NAS является новейшей моделью обнаружения объектов YOLO. С самого начала он превосходит все другие модели YOLO по точности. Предварительно обученные модели YOLO-NAS обнаруживают больше объектов с большей точностью по сравнению с предыдущими моделями YOLO. Но как нам обучить YOLO NAS пользовательскому набору данных? Это и будет нашей целью в этой статье – обучить различные модели YOLO NAS пользовательскому набору данных.

hukenovs 26 мая 2023 в 07:00

Slovo и русский жестовый язык

Средний

10 мин

8.7K

Блог компании SberDevicesИскусственный интеллектМашинное обучение*Обработка изображений*Data Mining*

Всем привет! В этой статье мы расскажем о непростой задаче распознавания русского жестового языка (РЖЯ) для слабослышащих. Насколько нам известно, в открытом доступе не существует универсального набора данных для распознавания РЖЯ. Поэтому мы решили выложить небольшую часть нашего датасета в открытый доступ. В статье мы затронем основные особенности РЖЯ, поговорим о проблемах и сложностях самого языка, и процессе его сбора и разметки. Расскажем, где искали экспертов и как нам в итоге удалось собрать самый большой и разнородный жестовый датасет для РЖЯ. В конце статьи представим набор предобученных нейронных сетей и небольшое приложение, демонстрирующее распознавание жестового языка. Часть датасета и веса моделей мы выложили в открытый доступ — все ссылки вы можете найти в конце статьи или в нашем репозитории.

Интересно?

+32

NataliaBlinnikova 23 мая 2023 в 16:28

Чисто научный подход: чего хотят женщины и о чем говорят мужчины

Простой

8 мин

17K

Data Mining*

Из песочницы

Женщины сами не знают, что хотят, а мужчины говорят о работе. И мои слова - это не стереотипное мышление, а обоснованное на данных заявление. По крайней мере, на основе данных 240 тысяч анкет женщин и мужчин, которые я спарсила с сайта mamba.ru, а потом “разложила по графичкам”. Цель была - сформировать портреты пользователей, но и плюсом пришла к приятному и немного трогательному выводу.

Код парсинга и ноутбук анализа доступны на GitHub

+46

andrey_boyarenkov 23 мая 2023 в 10:38

Как разработать модель выявления связанных компаний на основании анализа транзакций

7 мин

3.9K

Блог компании ВТБМашинное обучение*Python*Big Data*Data Mining*

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».

Beeline_tech 15 мая 2023 в 11:29

Особенности прогнозирования продаж и оттока в условиях неопределенности

14 мин

3.9K

Блог компании билайнData Mining*Алгоритмы*Машинное обучение*Исследования и прогнозы в IT*

Кейс

Бизнес в современных условиях развивается стремительно. На динамику продаж, доходов, расходов оказывает влияние множество различных факторов, как внутренних (инвестиции, стимулирование отдельных каналов продаж, исследование рынка и т.п.), так и внешних – различные непредвиденные обстоятельства, вроде, пандемий, стихийных бедствий, исторические событий.

Такие общемировые события вносят свои коррективы в развитие бизнеса и оказывают влияние как в краткосрочном, так и в долгосрочном периоде. Для аналитиков подобные внешние факторы оказываются часто более значимыми, чем внутренние, поскольку наступление данных событий всегда означает крушение привычных тенденций. А это осложняет прогнозирование, заставляет отказываться от привычных моделей и искать новые подходы.

С 2015 по 2021 годы я работала в дирекции по продажам конвергентных продуктов Билайн аналитиком, можно сказать, «на все руки» – аналитиком продаж, продуктовым, финансовым. В мою зону ответственности входили операционная и ежемесячная отчетность, расчет планов продаж на квартал, бюджетирование расходов на продажи, расчеты кейсов по инициативам – для всего этого требовалось моделирование основных KPI развития бизнеса.

Меня зовут Нина Фещенко, с 2022 года в департаменте аналитики розничного бизнеса (B2C) я в большей степени занимаюсь работой с данными и BI-аналитикой, но без моделирования тоже не обходится. В этом посте я опишу свой опыт построения модели прогнозирования продаж конвергентных продуктов (2019-2021), а также прогнозирования оттока мобильных абонентов в 2022 году. Расскажу, как работала модель в относительно стабильный период до 2020-го года, и какие корректировки пришлось внести впоследствии.

+15

ANazarov 8 мая 2023 в 19:14

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

43 мин

10K

Python*Data Mining*Математика*Статистика в ITBig Data*

Туториал

Cезон big data

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.

+33

aledovskiy 4 мая 2023 в 10:36

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

9 мин

17K

Блог компании AvitoTechPython*Data Mining*Big Data*

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.

+17

SIGMA_team 4 мая 2023 в 09:51

Из оператора в Data-инженеры: выверка данных через шаблоны Excel

Простой

12 мин

4.4K

Блог компании СИГМАData Engineering*Учебный процесс в ITOffice 365*Data Mining*

Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных.

Сам шаблон и пошаговые инструкции ниже.

1 2 ...

16 17

19 20 ...

108 109

Data Mining *

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили

Mini-ml-stand для бедных

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Что такое исследование данных и почему оно необходимо — кейс rdl by red_mad_robot и «АгроТерры»

Модификация алгоритма FP Growth или как правильно ухаживать за своими деревьями

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Как Почта моделирует риски потери отправлений

Готовы ли вы к прозрачности мозга: корпорации готовятся залезть в головы работников

Все события в мире синтетических данных за 2022 год

Новые игроки и анализ рынка синтетических данных

Определение свободного парковочного места с помощью Computer Vision

Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

Выбор подходящего инструмента для запросов: сравниваем DBeaver с Datagrip

Обучите YOLO NAS пользовательскому набору данных

Ближайшие события

Slovo и русский жестовый язык

Чисто научный подход: чего хотят женщины и о чем говорят мужчины

Как разработать модель выявления связанных компаний на основании анализа транзакций

Особенности прогнозирования продаж и оттока в условиях неопределенности

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Из оператора в Data-инженеры: выверка данных через шаблоны Excel

Вклад авторов