Как стать автором

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

universe_data 1 авг 2022 в 08:02

Примитивы Desbordante: Функциональные зависимости и их применение в эксплорации и очистке данных

16 мин

2.7K

Блог компании ЮнидатаData Engineering*Машинное обучение*Data Mining*Open source*

Функциональные зависимости – концепция, которой уже много десятков лет, её преподают практически в каждом курсе баз данных. Их классическое применение – нормализация схемы данных. В последние годы у концепции появилось множество иных приложений в контексте data science, касающиеся эксплорации и очистки данных.

В статье мы расскажем о функциональных зависимостях (точных и приближенных), опишем, что с ними можно делать в контексте работы с данными, и покажем, что с ними умеет делать наш профайлер Desbordante. Статья является продолжением нашей прошлой статьи, в которой мы рассказали о профилировании данных.

Читать далее

+2

arch1baald 29 июл 2022 в 06:13

Часть 3. Распознаем время на видеозаписях матчей Dota 2 с помощью трансформеров

6 мин

5.9K

Работа с видео*Python*Data Mining*Машинное обучение*

На YouTube есть множество каналов, где люди выкладывают нарезки с интересными моментами из профессиональных матчей по Dota 2. Зачастую на видео есть маленькие часы из интерфейса игры. Время на них мы и будем распознавать.

Читать далее

+3

itresume 27 июл 2022 в 15:40

Разбор тестового задания в Тиньков [SQL]

3 мин

36K

Microsoft SQL Server*Data Mining*MySQL*PostgreSQL*SQL*

Недавно нам прилетело большое тестовое задание от Тиньков-Банка на должность аналитика данных. Там очень много задач, но сегодня мы разберем несколько — остановимся на мелочах и обратим внимание на тонкие моменты.

И, конечно, попишем SQL-запросы!

Читать далее

+4

Rebelqwe 26 июл 2022 в 10:34

Автоматизация оценки мнения аудитории о видеофрагменте, на основе количественного CAWI опроса

3 мин

744

Email-маркетинг*Интернет-маркетинг*Исследования и прогнозы в IT*Визуализация данных*Data Mining*

Технотекст 2022

В этой стать хочу рассказать о том, что оценивать мнение аудитории о происходящем на видео можно, и даже нужно, не только качественными, но и количественным методом, получая результаты сразу без каких-либо задержек.

К плюсам количественного способа оценки я бы отнес следующее:

Читать далее

+2

Tehnologika 25 июл 2022 в 09:46

О важности датасета и о том, как сделать его лучше. Опыт нашей компании

9 мин

10K

Машинное обучение*Искусственный интеллектОбработка изображений*Data Mining*Data Engineering*

Туториал

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать далее

+6

kucev 25 июл 2022 в 08:04

Разметка данных в машинном обучении: процесс, разновидности и рекомендации

14 мин

63K

Обработка изображений*Машинное обучение*КраудсорсингData Mining*Big Data*

Перевод

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.

Читать дальше →

+3

AshBlade 24 июл 2022 в 06:27

Кратко об OData

18 мин

58K

Открытые данные*Data Mining*Поисковые технологии*Веб-разработка*

Туториал

Протокол OData (или Open Data Protocol) не часто встречается на практике. Чаще мы видим собственные решения по поводу проектирования RESTful API и тратим на это много времени. Но за долгое время существования REST, уже были собраны лучшие практики, которые слились в OData. На просторах интернета не много ресурсов для изучения. Давайте исправим это. В этой статье приведены основные варианты использования OData с примерами.

Что внутри?

+14

smile_artem 19 июл 2022 в 06:26

Статистический анализ по картинке

Сложный

7 мин

5.3K

Data Engineering*Статистика в ITМатематика*Big Data*Data Mining*

Туториал

Название звучит как "приворот по фото", но я о чём - захотел я как-то проанализировать пару графиков, найти корреляции и столкнулся с парой сложностей:

I. У меня был только график - картинка, самих данных (значений) не было. Принялся я по нему вычислять хотя бы наиболее важные точки - в итоге получилось ужасно долго и просто ужасно (человеский глаз и осознанный мозг не может предоставить точность больше 10% деления):

Поэтому представляю Вам программу для оцифровки значений графика из картинки, а также...

Читать далее

+9

ChePeter 17 июл 2022 в 17:24

Кручу-верчу, обмануть хочу

12 мин

2.6K

Машинное обучение*Обработка изображений*Data Mining*

Recovery Mode

Long story short

Создают ли повороты ложные зависимости в датасете?

Читать далее

-3

t1-consulting 16 июл 2022 в 17:39

Как подступиться к оптимизации процессов и расходов в организации — Process Mining и его возможности

5 мин

2.8K

Блог компании Т1 КонсалтингБлог компании Холдинг Т1Анализ и проектирование систем*Управление персоналом*Data Mining*

Один из распространённых инструментов в области цифровой трансформации — процессная аналитика. Расскажем, на что обратить внимание в первую очередь и какие возможности — в этом контексте — есть у нашей системы.

Читать далее

+7

arch1baald 15 июл 2022 в 13:46

Часть 2. Пишем сервис парсинга матчей Dota 2 на Celery и Flask

5 мин

14K

Python*Data Mining*Data Engineering*

В предыдущей статье мы распарсили реплей одного матча по Dota 2 и нашли хайлайты с помощью кластеризации. В данной статье увеличим масштаб и напишем сервис для параллельного парсинга реплеев на Celery и Flask.

Читать далее

+5

Nester 13 июл 2022 в 14:19

Национализация ваших данных происходит прямо сейчас

2 мин

64K

Data Mining*Big Data*Data Engineering*

Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.

Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.

Читать далее

+116

PeterG 7 июл 2022 в 07:05

Архитектура аналитических систем на платформе 1С

15 мин

18K

Блог компании 1СData Mining*

Обзор

Около года назад фирма 1С выпустила свой продукт для построения аналитических систем класса Business Intelligence (BI) 1С:Аналитика. Отличие этого продукта от других BI решений в первую очередь в том, что продукт глубоко интегрирован с платформой 1С:Предприятие, поэтому 1С:Аналитика решает только свою специализированную задачу построения удобного BI интерфейса для подготовки отчетов и работы с ними. Поэтому важным вопросом для понимания продукта и его внедрения становится вопрос общей архитектуры аналитической системы, построенной с помощью 1С:Аналитики. В этой статье мы хотим кратко описать классический подход к построению аналитических систем, и как решение на базе платформы 1С соответствует такому подходу. Мы не претендуем на академическое изложение предмета, поэтому заранее просим прощение за возможную свободу в терминологии или изложении материала.

Читать далее

+16

kucev 6 июл 2022 в 09:18

Опенсорсные массивы данных для Computer Vision

8 мин

4.1K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Модели Computer Vision, обучаемые на опенсорсных массивах данных

Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.

Читать дальше →

+3

danis_gaiazov 6 июл 2022 в 07:59

Как люди помогают технологиям в Яндекс Картах

7 мин

8.6K

Блог компании ЯндексAccessibility*Data Mining*Геоинформационные сервисы*Машинное обучение*

На днях пользователи Яндекс Карт получили возможность актуализировать данные о доступности организаций. Например, можно указать, оборудован ли пандусом вход в парикмахерскую или есть ли в торговом центре специализированный туалет. Для начала мы попросили пешеходов Яндекса разметить первые 400 тысяч организаций в 73 городах.

Я Данис Гаязов из внутреннего сервиса Crowd, команды полевого краудсорсинга. Полевого, потому что мы работаем «в поле», то есть не в офисе. Сегодня по случаю запуска я расскажу, зачем Картам пешеходы и как они помогали и помогают делать сервисы более полезными.

_{Результат работы пешехода на заре проекта схем ТЦ}

Читать дальше →

+20

vldmrvslv 5 июл 2022 в 14:04

Простым языком о языковых моделях и цепи Маркова (Markov Chain)

3 мин

16K

Big Data*Data Mining*Python*Natural Language Processing*

Туториал

N-граммы

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать далее

+4

Sber 4 июл 2022 в 10:03

Управляем параметрами в процессной аналитике при помощи фреймворка Hydra

7 мин

3.6K

Блог компании СберУправление проектами*Data Mining*Анализ и проектирование систем*Python*

Привет, Хабр! Меня зовут Александр Дунаевский, я Data Scientist в Сбере. Сегодня хочу рассказать про управление параметрами в Process mining (процессная аналитика) и нюансах этой задачи.

Для работы используется фреймворк Hydra, который здорово облегчает жизнь. В чём вообще проблема? В задачах процессной аналитики требуется постоянно менять входные параметры и сохранять результаты работы. Но при большом количестве запусков возникает потребность в отдельной системе для управления как передаваемыми параметрами, так и логированием. В статье рассмотрим, как фреймворк Hydra может помочь нам с этим. Кому интересно ― просим под кат!

Читать далее

+9

Makoomaky 30 июн 2022 в 14:35

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

17 мин

13K

Блог компании VKData Mining*Алгоритмы*Математика*Машинное обучение*

Туториал

Победитель Технотекст 2022

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

Читать далее

+55

yorko 30 июн 2022 в 13:01

Эй-Яй, крипта, MLOps и командный пет-проджект

16 мин

11K

Блог компании Open Data ScienceOpen source*Data Mining*Машинное обучение*Управление проектами*

В этой статье я расскажу, как мы командой пилили пет-проджект в рамках курса ODS по MLOps. Покажу не только финальный результат, но и немного расскажу про процесс работы, какие были сложности, как организовывали эффективную работу в команде. Может оказаться полезным для тех, кто хочет окунуться в Machine Learning и сделать свой пет-проджект, но пока чего-то не хватало. Также будет полезно тем, кто уже работает в области Data Science, но пока не окунулся в атмосферу DS, нет крутых коллег и разгвооров про фреймворки у кофемашины, а опыт командной работы именно в области DS получить хочется.

Сразу про то, что получилось на выходе: https://cryptobarometer.org/

Читать далее

+22

aarmaageedoon 28 июн 2022 в 10:52

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

18 мин

2.7K

Блог компании MWS AIData Mining*Машинное обучение*Natural Language Processing*

Туториал

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархически датасет из Википедии. В этом посте хочу рассказать вам о Сноркеле - фреймворке для программирования данных (data programming). Познакомился я с ним случайно несколько лет назад, и меня поразил этот подход, который заключается в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.

Сноркель может существенно сократить время на проверку какой-либо идеи, когда данных мало или их нет совсем, или увеличить эффективность процесса создания качественного датасета, как это потребовалось в проекте медицинского чат-бота, про который почитать можно здесь.

В этом посте я подготовил туториал, который наглядно покажет, как работать со Сноркелем, а также кратко объясню теоретические аспекты его работы.

Читать далее

+1

1 2 ...

27

28 29 ...