Как стать автором
Поиск
Написать публикацию
Обновить
22.91

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как не заменить фару сосиской: определение качества изображений в сервисе оценки технического состояния автомобиля

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров3K

В научно‑популярных статьях и докладах, обучающих материалах по системам компьютерного зрения упор нередко делается на основную компоненту — тяжелые (или не очень) нейронные сети, которые неким волшебным образом обрабатывают картинку, и на выходе отдают результат.

Однако каждый ли вход в сеть стоит обрабатывать? Обучающие датасеты заранее подобраны и размечены, мусора и шума там чаще всего относительно мало, чего нельзя сказать о данных на входе в реально работающие системы. Особенно если данные загружаются обычными пользователями.

Мы не можем гарантировать, что сеть корректно обработает любой вход. Да, есть способы оценить, насколько модель уверена в своем ответе, но уже после обработки входа, когда мы потратили вычислительные ресурсы. Можем ли мы сказать заранее, что корректно обработать изображение не получится, что оно скорее всего не содержит достаточно информации? Давайте попробуем разобраться на примере реальной задачи.

Читать далее

Пять причин, по которым вам нужны синтетические данные

Время на прочтение6 мин
Количество просмотров2.9K
Сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием. Кроме того, у этих данных могут быть проблемы с качеством, разнообразием и количеством. К счастью, подобные проблемы можно решать при помощи синтетических данных.


Для обучения модели машинного обучения нужны данные. Задачи data science обычно непохожи на соревнования Kaggle, где у вас есть отличный крупный датасет с готовой разметкой. Иногда приходится собирать, упорядочивать и очищать данные самостоятельно. Такой процесс сбора и разметки данных в реальном мире может быть долгим, неудобным, неточным, а иногда и опасным. Более того, в конце этого процесса может оказаться, что полученные в реальном мире данные не соответствуют вашим требованиям с точки зрения качества, разнообразия (например, дисбаланс классов) и количества.
Читать дальше →

Ассоциативная память без нейросетей + генерация текста

Время на прочтение9 мин
Количество просмотров2.6K

Когда‑то давно ко мне пришла идея реализовать алгоритм основанный на цепочках символов. Этот алгоритм выделяет в тексте несколько последовательностей символов, и таким образом производит его анализ. Этот алгоритм в какой‑то мере похож на метод построения N‑грамной модели, разница лишь в том, что он строит последовательности символов переменной длины. Как это делается я расскажу немного ниже. В результате алгоритм мог сравнивать тексты друг с другом и находить степень похожести между ними. Я приспособил его для того, чтобы отсеивать ранее известные тексты, и выбирать только те, которые обладают наибольшей уникальностью на момент анализа. Результат работы алгоритма можно посмотреть здесь: http://luksian.ru

Расскажу вкратце суть идеи. Например, у нас есть текст ABCABD. Из этого текста можно выделить следующие последовательности из двух символов: AB, BC, CA, AB, BD. Здесь видно что последовательность AB встречается два раза, а за этой последовательностью в каждом случае следуют разные символы. Такая ситуация считается конфликтом который необходимо разрешить. Для этого создаются новые последовательности символов: ABC и ABD. Последовательности из этих трех символов в тексте встречаются по одному разу, поэтому конфликт считается разрешенным, больше неоднозначностей в тексте не наблюдается. Разумеется, в обычном тексте написанном на простом человеческом языке для разрешения конфликтов иногда может потребоваться построить гораздо более длинные цепочки символов чтобы можно было найти между ними разницу. И вот недавно я вспомнил об этом алгоритме и попробовал его исследовать поподробнее.

Читать далее

Как я из специалиста по защите информации стал аналитиком данных. Моя история

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.

В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.

И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.

Читать далее

А надо ли бизнесу обращать внимание на нейронные сети?

Время на прочтение19 мин
Количество просмотров4.1K

Технологии не стоят на месте, и вот мы уже вступили в эпоху, когда люди начали применять искусственные нейронные сети. Люди некоторых профессий даже начали чувствовать конкуренцию со стороны программных продуктов. Конечно, это происходит далеко не во всех отраслях, но процесс уже пошел, и я думаю вряд ли это удастся остановить. Проблема в том, что позволить себе новые технологии могут только крупные компании, которые таким образом оптимизируют расходы на зарплату работников. В малом и среднем бизнесе прогресс не очень большой. Они по большей части придерживаются классических методов, в которых основную работу выполняют люди, а компьютеры используются в основном для бухгалтерии, учета, выполнения задач заданных статическими правилами и простых операций вроде работы в Word и Excel. Но почему сложилась такая ситуация?

Можно строить разные предположения на этот счет. Возможно сказывается инерция мышления, которая заставляет людей мыслить шаблонами, хотя это и не всегда плохо. Я хотел бы мыслить шаблонами человека, который смог заработать миллион долларов, и работает над получением миллиарда. Но даже такие люди иногда сталкиваются с пределом, который они переступить не в состоянии. Или сталкиваются со слишком медленным по их мнению ростом. Очевидно, что в этом случае волей неволей приходится что-то менять. Приходится начинать делать то, о чем раньше было сложно подумать. Например, приобщаться к вершине технического прогресса, чем на данный момент являются нейронные сети. Но каков порог входа на этом направлении, и что реально можно при этом сделать? Я попробовал это понять.

Читать далее

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров64K

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.

Читать далее

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

Время на прочтение10 мин
Количество просмотров6.9K

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.
Читать дальше →

Чем ChatGPT похож на человека и почему к этому надо относиться серьезно

Время на прочтение7 мин
Количество просмотров5.4K

Про ChatGPT уже рассказано много, поэтому я не не буду сильно заострять внимание на его возможностях. Его возможности действительно впечатляют, поэтому вокруг него и поднялся такой хайп. Он настолько хорош, что миллионы людей захотели с ним пообщаться и узнать насколько он крут. После его выхода прошло достаточно времени чтобы можно было сказать что этот бот достаточно крут, так как продолжает привлекать к себе внимание. Он не настолько хорош чтобы в текущей версии действительно заменять собой людей, но его способностей вполне хватает чтобы люди не теряли к нему интерес. А это уже кое что значит.

Я соглашусь с вами в том, что ChatGPT — это всего лишь виртуальный собеседник. Это чисто программный продукт, и поэтому пообщаться с ним можно только в интернете. Не идет никакой речи о том, чтобы он управлял роботом, наподобие тех, которые разрабатывает Boston Dynamics. В реальном мире такие системы еще долго не будут составлять нам конкуренции. На роль дворника способного убирать улицу эта разработка точно не претендует. А вот в виртуальной сфере все не так однозначно. Уже сейчас, на текущей стадии развития ChatGPT способен создавать несложные части программного кода, но на этом его возможности не ограничиваются. Этот бот может придумывать интересные тексты и эссе. Так что со временем он вполне cможет вписаться в нишу квалифицированного интеллектуального труда, в котором на данный момент находится достаточное количество высокооплачиваемых людей. Поэтому я надеюсь что вы начинаете понимать каким людям в будущем этот бот будет составлять настоящую конкуренцию.

Читать далее

Не цель важна, а важен путь. Как определить оптимальную подпоследовательность тем при автоматизации чатов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров969

При разработке чат-бота мы столкнулись с задачей планирования этапов автоматизации. Эта задача возникает, когда охватить все темы невозможно из-за их многочисленности и постоянного изменения их содержания. Поэтому перед реализацией сценариев важно понимать, какое множество тем чатов необходимо покрыть в первую очередь, чтобы за фиксированный период времени и с ограниченным количеством ресурсов достичь максимального эффекта. В статье разберем постановку задачи, ее формализацию и одно из решений.

Читать далее

Работа с научными данными в рамках data-driven подхода

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3K

В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.

В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.

Читать далее

Синтетические данные для машинного обучения: их природа, типы и способы генерации

Время на прочтение14 мин
Количество просмотров13K

Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать дальше →

Подключаемся к Notion API при помощи R

Время на прочтение5 мин
Количество просмотров5.4K

Этот небольшой пример того, как начать работу с Notion API. Вся документация находится здесь

Для начала работы с Notion API и нужно выполнить несколько шагов:

Читать далее

Процесс ELT: основные компоненты, преимущества и инструменты создания

Время на прочтение11 мин
Количество просмотров8.3K

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →

Ближайшие события

Какие профессии выбирают женщины в столице и регионе

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3K

Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.

В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.

Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.

Читать далее

Десять самых распространённых проблем с качеством данных и способы их устранения

Время на прочтение5 мин
Количество просмотров4.7K

Введение


Данные стали основой всех бизнесов мира. В процессе принятия решений организации сильно полагаются на свои ресурсы данных, но, к сожалению, «на 100% чистых и точных данных» не существует. На данные влияют различные факторы, снижающие их качество. По словам специалистов, лучшим способом борьбы с проблемами данных является выявление их первопричин и внедрение новых процессов для повышения их качества. В этой статье рассказывается о распространённых проблемах с качеством данных и об оптимальных способах их устранения. Но сначала давайте разберёмся, почему важно знание этих проблем и как они могут влиять на ведение бизнеса.
Читать дальше →

«Топ 10» популярных мужских профессий в столице и регионах в 2023 году

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров11K

Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново.  Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.

Читать далее

Первая бесплатная модель перевода с русского на китайский язык и обратно

Время на прочтение6 мин
Количество просмотров8.6K

Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно.

Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский.

В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.

Читать далее

Как ускорить пилотные проекты по анализу больших данных

Время на прочтение11 мин
Количество просмотров1.9K

Всем привет! Меня зовут Диляра. Я дата‑сайентист команды разработки F5 Platform — low‑code платформы для аналитики данных средних и крупных предприятий. Наша команда разрабатывает математический сервис продукта, алгоритмы обработки данных и модели для пресейл и пилотных проектов, а также занимается их запуском в эксплуатацию.

В статье я расскажу о том, с какими типовыми проблемами мы столкнулись при внедрении F5 Platform, какой инструмент разработали для их преодоления, и как он помог нам ускорить проведение пилотных проектов. Я хочу поделиться историей создания F5 Future — no‑code сервиса приложений, призванного облегчить работу дата‑сайентистов и бизнес‑пользователей при проверке гипотез и проведении пилотных проектов по анализу данных.

Читать далее

Business Intelligence и бизнес-аналитика: стратегия, этапы, процессы и инструменты

Время на прочтение17 мин
Количество просмотров67K

Все бизнесы работают с данными — информацией, генерируемой множеством внутренних и внешних источников компании. Эти каналы данных служат органами чувств руководства, предоставляя ему информацию о том, что происходит с бизнесом и рынком. Следовательно, любое ошибочное представление, неточность или нехватка информации могут привести к искажённому восприятию ситуации на рынке и неверному пониманию внутренних операций, что в свою очередь несёт за собой ошибочные решения.

Для принятия решений на основе данных необходимо чётко видеть все аспекты своего бизнеса, даже те, о которых вы не думаете. Но как превратить неструктурированные фрагменты данных в что-то полезное? В этом вам поможет business intelligence.

Мы уже говорили о стратегии организации машинного обучения. В этой статье мы расскажем о том, как интегрировать business intelligence в существующую корпоративную инфраструктуру. Вы узнаете, как подготавливается стратегия business intelligence и интегрируются инструменты в рабочие процессы компании.
Читать дальше →

Цифровая трансформация цементного завода (ч.8): автоматическая MES-система

Время на прочтение13 мин
Количество просмотров2.9K

Год назад я рассказывал о создании цифрового помощника оператора, а сегодня речь пойдет о разработке собственной MES‑системы, которая его заменила и автоматически управляет качеством на производстве.

Читать статью >>