Как стать автором
Поиск
Написать публикацию
Обновить
31.46

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

«Как и почему я пошёл в магистратуру МФТИ и Норникеля, чтобы прокачаться в AI»

Время на прочтение15 мин
Количество просмотров5.6K

Всем привет! Меня зовут Ильдар. Я учусь в совместной магистратуре МФТИ и Норникеля «AI Transformation в промышленности». Ещё я работаю инженером по машинному обучению в стартапе, занимающемся разработкой контроллеров в AR/VR. В этой статье я хочу поделиться с вами своей историей выбора программы обучения, подготовки и поступления. Пишу данную статью в основном для того, чтобы поделиться собственным опытом, видением, эмоциями и надеждами, тем, что меня вдохновляло, откровенно злило, пугало (в основном зря) и тем, с чем я в итоге примирился и подружился. Для кого-то эта история может послужить скорее «роадмапом», нежели пошаговым гайдом, и поможет сориентироваться среди множества программ обучения в сфере ИТ (рекомендовать ничего не стану, но расскажу по опыту, чем они отличаются и на что делают упор).

1. Немного предыстории

Родом я из небольшого городка на юге Башкирии, основанного на месте добычи руд цветных металлов. Одна из главных достопримечательностей города — это огромный карьер правильной круглой формы и глубиной в полкилометра. Мой папа руководил службой геологоразведки и в детстве я много времени проводил в поездках по полевым экспедициям (это когда в поле или в горах стоит буровая установка и делает забор породы), шахтам и карьерам. Впитывал в себя всю романтику жизни геологов. Моя мама - доктор. От нее я также много и хорошо узнавал про медицину, здоровые привычки и работу организма. В итоге я планировал связать жизнь либо с геологией, либо с медициной и биологией, так как много знал об этом и активно интересовался. В школе мне особо хорошо давались математика, информатика, физика и химия. Я стабильно занимал первые и призовые места на олимпиадах в городе. И вот классе в 7-м я узнал про Физтех.

Читать далее

Применять чистый AI также опасно, как и чистый спирт

Время на прочтение4 мин
Количество просмотров2.9K

Специалист подобен флюсу: полнота его односторонняя

Читать далее

Примитивы Desbordante: Функциональные зависимости и их применение в эксплорации и очистке данных

Время на прочтение16 мин
Количество просмотров2.7K

Функциональные зависимости – концепция, которой уже много десятков лет, её преподают практически в каждом курсе баз данных. Их классическое применение – нормализация схемы данных. В последние годы у концепции появилось множество иных приложений в контексте data science, касающиеся эксплорации и очистки данных.

В статье мы расскажем о функциональных зависимостях (точных и приближенных), опишем, что с ними можно делать в контексте работы с данными, и покажем, что с ними умеет делать наш профайлер Desbordante. Статья является продолжением нашей прошлой статьи, в которой мы рассказали о профилировании данных.

Читать далее

Часть 3. Распознаем время на видеозаписях матчей Dota 2 с помощью трансформеров

Время на прочтение6 мин
Количество просмотров5.9K

На YouTube есть множество каналов, где люди выкладывают нарезки с интересными моментами из профессиональных матчей по Dota 2. Зачастую на видео есть маленькие часы из интерфейса игры. Время на них мы и будем распознавать.

Читать далее

Разбор тестового задания в Тиньков [SQL]

Время на прочтение3 мин
Количество просмотров36K

Недавно нам прилетело большое тестовое задание от Тиньков-Банка на должность аналитика данных. Там очень много задач, но сегодня мы разберем несколько — остановимся на мелочах и обратим внимание на тонкие моменты.

И, конечно, попишем SQL-запросы!

Читать далее

Автоматизация оценки мнения аудитории о видеофрагменте, на основе количественного CAWI опроса

Время на прочтение3 мин
Количество просмотров745

В этой стать хочу рассказать о том, что оценивать мнение аудитории о происходящем на видео можно, и даже нужно, не только качественными, но и количественным методом, получая результаты сразу без каких-либо задержек.

К плюсам количественного способа оценки я бы отнес следующее:

Читать далее

О важности датасета и о том, как сделать его лучше. Опыт нашей компании

Время на прочтение9 мин
Количество просмотров10K

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать далее

Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Время на прочтение14 мин
Количество просмотров63K

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.
Читать дальше →

Кратко об OData

Время на прочтение18 мин
Количество просмотров58K

Протокол OData (или Open Data Protocol) не часто встречается на практике. Чаще мы видим собственные решения по поводу проектирования RESTful API и тратим на это много времени. Но за долгое время существования REST, уже были собраны лучшие практики, которые слились в OData. На просторах интернета не много ресурсов для изучения. Давайте исправим это. В этой статье приведены основные варианты использования OData с примерами.

Что внутри?

Статистический анализ по картинке

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров5.3K

Название звучит как "приворот по фото", но я о чём - захотел я как-то проанализировать пару графиков, найти корреляции и столкнулся с парой сложностей:

I. У меня был только график - картинка, самих данных (значений) не было. Принялся я по нему вычислять хотя бы наиболее важные точки - в итоге получилось ужасно долго и просто ужасно (человеский глаз и осознанный мозг не может предоставить точность больше 10% деления):

Поэтому представляю Вам программу для оцифровки значений графика из картинки, а также...

Читать далее

Кручу-верчу, обмануть хочу

Время на прочтение12 мин
Количество просмотров2.6K

Long story short

Создают ли повороты ложные зависимости в датасете?

Читать далее

Как подступиться к оптимизации процессов и расходов в организации — Process Mining и его возможности

Время на прочтение5 мин
Количество просмотров2.8K

Один из распространённых инструментов в области цифровой трансформации — процессная аналитика. Расскажем, на что обратить внимание в первую очередь и какие возможности — в этом контексте — есть у нашей системы.

Читать далее

Часть 2. Пишем сервис парсинга матчей Dota 2 на Celery и Flask

Время на прочтение5 мин
Количество просмотров14K

В предыдущей статье мы распарсили реплей одного матча по Dota 2 и нашли хайлайты с помощью кластеризации. В данной статье увеличим масштаб и напишем сервис для параллельного парсинга реплеев на Celery и Flask.

Читать далее

Ближайшие события

Национализация ваших данных происходит прямо сейчас

Время на прочтение2 мин
Количество просмотров64K

Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.

Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.

Читать далее

Архитектура аналитических систем на платформе 1С

Время на прочтение15 мин
Количество просмотров18K

Около года назад фирма 1С выпустила свой продукт для построения аналитических систем класса Business Intelligence (BI) 1С:Аналитика. Отличие этого продукта от других BI решений в первую очередь в том, что продукт глубоко интегрирован с платформой 1С:Предприятие, поэтому 1С:Аналитика решает только свою специализированную задачу построения удобного BI интерфейса для подготовки отчетов и работы с ними. Поэтому важным вопросом для понимания продукта и его внедрения становится вопрос общей архитектуры аналитической системы, построенной с помощью 1С:Аналитики. В этой статье мы хотим кратко описать классический подход к построению аналитических систем, и как решение на базе платформы 1С соответствует такому подходу. Мы не претендуем на академическое изложение предмета, поэтому заранее просим прощение за возможную свободу в терминологии или изложении материала.

Читать далее

Опенсорсные массивы данных для Computer Vision

Время на прочтение8 мин
Количество просмотров4.1K

Модели Computer Vision, обучаемые на опенсорсных массивах данных


Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать дальше →

Как люди помогают технологиям в Яндекс Картах

Время на прочтение7 мин
Количество просмотров8.7K
На днях пользователи Яндекс Карт получили возможность актуализировать данные о доступности организаций. Например, можно указать, оборудован ли пандусом вход в парикмахерскую или есть ли в торговом центре специализированный туалет. Для начала мы попросили пешеходов Яндекса разметить первые 400 тысяч организаций в 73 городах.

Я Данис Гаязов из внутреннего сервиса Crowd, команды полевого краудсорсинга. Полевого, потому что мы работаем «в поле», то есть не в офисе. Сегодня по случаю запуска я расскажу, зачем Картам пешеходы и как они помогали и помогают делать сервисы более полезными.


Результат работы пешехода на заре проекта схем ТЦ
Читать дальше →

Простым языком о языковых моделях и цепи Маркова (Markov Chain)

Время на прочтение3 мин
Количество просмотров16K

N-граммы 

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты  называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать далее

Управляем параметрами в процессной аналитике при помощи фреймворка Hydra

Время на прочтение7 мин
Количество просмотров3.6K

Привет, Хабр! Меня зовут Александр Дунаевский, я Data Scientist в Сбере. Сегодня хочу рассказать про управление параметрами в Process mining (процессная аналитика) и нюансах этой задачи.

Для работы используется фреймворк Hydra, который здорово облегчает жизнь. В чём вообще проблема? В задачах процессной аналитики требуется постоянно менять входные параметры и сохранять результаты работы. Но при большом количестве запусков возникает потребность в отдельной системе для управления как передаваемыми параметрами, так и логированием. В статье рассмотрим, как фреймворк Hydra может помочь нам с этим. Кому интересно ― просим под кат!

Читать далее

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

Время на прочтение17 мин
Количество просмотров13K

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

Читать далее