Обновить
39.49

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Парсинг открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.2K

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно «качают» эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем — то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике.

Читать далее

Инфраструктура для data engineer S3

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.6K

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

Читать далее

Эволюция сервиса классификации

Время на прочтение8 мин
Количество просмотров1.5K

Привет, Хабр. Меня зовут Аделина Ямалтдинова, я разработчик технологического сервиса «Классификатор» — одной из частей платформы «Преферентум».

Как вы могли догадаться из названия, сервис нужен для классификации неструктурированной информации — документов, заявок, звонков и т. д. Он применяется для маршрутизации обращений на горячую линию, сортировки входящих документов в СЭД, тематической классификации, выявления негативных отзывов, определения типа и контроля комплектности документации и т. п. Таким образом, «Классификатор» упрощает переход компаний к интеллектуальной автоматизации различных бизнес‑процессов, обогащая используемые системы ИИ.

В статье я расскажу об устройстве нашего «Классификатора» и о том, как мы его улучшаем.

Читать далее

PandasAI — кратно ускоряем работу аналитика данных в одну строчку

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров15K

Ускоряем написание кода при работе с таблицами и библиотекой Pandas с помощью PandasAI в несколько раз за пару строк. Хитрецы уже используют ...

Читать далее

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5K

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.

Разметка — такая штука, когда все в индустрии делают примерно одно и то же, но чуть-чуть или сильно по разному. Разметка — очень нудная штука сама по себе, и потому ее запуском, отладкой и настройкой инженеры заниматься вот совсем не любят. Сам процесс довольно монотонен, но когда у тебя мультимодальный конвейер из поступающих данных, то делать всяческие инструменты для разметки и предлагать инженерам решения без их участия — это весело!

Одна из наших важнейших метрик, помимо качества результата, это позаимствованный у бизнеса термин ttm (time to market), что в нашем случае — время от момента прихода клиента с идеей по момент продуманного запуска его задачи в разметку.

В этой статье — пошагово о том, как мы не только ускорили написание инструкций, но и даже попутно повысили их качество. Идея — гениально проста, рецепт — повторяем, эффект — огонь.

Расчехляйте вашу LLM, закатайте рукава, тут есть много работки!

Читать далее

Анализ изменения возраста и антропометрических данных игроков Национальной Хоккейной Лиги

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.4K

В последнее время от экспертов и игроков Национальной Хоккейно Лиги (NHL) все чаще слышишь тезис о том, что лига становится моложе и делается уклон в сторону более низких и легковесных, но юрких хоккеистов. Хоккей с его огромными хоккеистами уходит в прошлое, а габариты таких "гигантов", как нападающий New York Ranger Matt Rempe с его ростом 200 см и весом 109 кг обсуждается больше, чем сама игра хоккеиста.

Я взял с сайта NHL данные о последних 10 сезонах по игрокам, который провели больше 10 матчей в сезоне.
Проанализируем эти данные и посмотрим, действительно ли лига становится моложе, а игроки становятся меньше и легче

Читать далее

Разделяй и запускай: делим тестовый стенд между департаментами

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.7K

Промышленное математическое программирование - тема раскрученная в академической среде для стандартизированных случаев, но детали реальных внедрений раскрываются редко и спустя много лет.

В настоящей статье делюсь опытом разработки и внедрения в процессы компании оптимизационного решения на базе математического программирования. Материал расширил исследовательскими элементами и локальным мини benchmark'ом.

Читать далее

strtree — классификатор строк на основе регулярных выражений

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3K

Вы хотите найти короткие регулярные выражения, полно и точно отделяющие один класс строк от другого? Это статья для вас. Мы поговорим про задачу классификации строк с помощью автоматически определяемых паттернов, а в конце я предоставлю пример такой процедуры с кодом на Python. Пользоваться мы будем небольшой open-source библиотекой strtree.

Читать далее

Внедрение Business Intelligence с нуля — первые шаги

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.8K

Внедрение системы Business Intelligence в рамках компании - одновременно уникально для каждой компании, и в то же время может быть унифицировано за счет использования существующего опыта и знаний. В этой статье приведены базовые принципы построения BI систем, на которые можно ориентироваться, чтобы сэкономить время и получить качественную BI систему для компании. Тем, кому интересны основы BI систем - добро пожаловать :)

В качестве небольшого вступления имеет смысл отметить две особенности BI систем. BI системы основаны на рассчитываемых ключевых показателях эффективности (KPI), но тем не менее, для управления компанией представляет ценность именно система или набор показателей, а не какой-либо единственный показатель. Другой особенностью является то, что BI система аккумулирует данные из различных систем и различной периодичностью, например, финансовые показатели из учетных систем, данные о клиентах из CRM систем или из систем обратной связи с клиентами, и все эти задачи интеграции встают перед компанией, которая внедряет BI.

Рассморим выбор ключевых показателей BI системы "с нуля", что определит суть будущей BI системы компании. Конечно, можно использовать и готовый набор показателей, которые часто имеются для разных предметных областей в различных BI платформах, в этой статье обращается внимание на выбор системы KPI "с нуля".

Популярным подходом к управлению по KPI является сбалансированная система показателей (Balanced Scorecards, BSC), предложенная Р. Капланом и Д. Нортоном в работе "Сбалансированная система показателей" в 1996 году. В книге рекомендуется подход к управлению, основанный на ключевых показателях эффективности (KPI), отслеживающих стратегический прогресс в достижении основных целей по четырем направлениям: финансовые показатели, взаимодействие с клиентами компании, внутренние процессы компании и обучение/рост сотрудников компании.

Читать далее

Сильный ИИ. Элира2. Сохранение диалогов ChatGPT

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.1K

Всем привет!

В этой статье я расскажу о том, как можно сохранить диалоги в ChatGPT вместе с изображениями из чата!

Несмотря на уже довольно долгое существование ChatGPT в нем до сих пор отсутствует функция сохранения диалогов с изображениями. Более того, при наличии изображений в диалоге, ссылка для сохранения вообще не создается. Именно поэтому я решил создать скрипт, который позволит сохранять диалоги напрямую через веб-интерфейс ChatGPT, используя Selenium.

Читать далее

Открытые инструменты для бизнес-аналитики — когда нужно построить дашборды и работать с потоковыми данными

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.4K

Бизнес-аналитика — неотъемлемая часть работы в ИТ, предоставляющая компаниям ценную информацию для принятия стратегически важных решений. В условиях растущего объема данных и необходимости оперативного анализа возникает потребность в мощных инструментах, способных визуализировать данные, мониторить потоки информации и интегрироваться с IDE. 

Чтобы облегчить выполнение этих задач, можно использовать open source решения. Мы собрали компактный список таких инструментов, включающий платформы для визуализации данных и другие утилиты, облегчающие работу разработчиков.

Открытые инструменты предлагают мощные возможности для создания дашбордов и работы с потоковыми данными. Благодаря гибкости и масштабируемости, они могут быть адаптированы к потребностям различных компаний.

Читать далее

Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Уровень сложностиСредний
Время на прочтение32 мин
Количество просмотров38K

Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений. Поэтому на сегодняшний день существует большое количество метрик, подходящих для самых разных задач и ситуаций.

В данном туториале будут рассмотрены популярные метрики для задач классификации, регрессии и кластеризации, а также инструмент для анализа ошибки модели, известный как bias-variance decomposition. Помимо этого, для большей части метрик будут представлены ручные расчёты и реализация с нуля на Python, а в конце вы сможете найти дополнительные источники для более глубокого ознакомления.

Читать далее

Лучшие библиотеки Python для Data Science в 2024 году

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров18K

Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию.

Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.

Читать далее

Ближайшие события

Дата-сайентистам: «Обработка данных на Python. Data Wrangling и Data Quality»

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5K

В этом посте познакомим специалистов по изучению данных (Data Scientists) с довольно интересной книгой Сьюзан МакГрегор, дающей пошаговые рекомендации по извлечению зависимостей (автор называет их insights) из неочищенных наборов данных с помощью конструкций на языке Python. «Эта книга заполняет пробел в литературе по обработке данных на Python. Она предлагает весьма необходимое практическое руководство по очистке, преобразованию и подготовке к анализу наборов сырых данных.» — рецензия на Amazon.

Читать далее

Про обязательность поправки на множественные сравнения, которая часто игнорируется адептами Data Driven методов

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.4K

Когда проводится один статистический тест на значимость различий, всегда есть шанс (ошибка первого рода = 5%, на уровне значимости p=0.05) получить ложный положительный результат случайно. Эта ошибка означает, что мы можем ложно утверждать, что значимое различие существует, притом, что в реальности этой значимости нет.

Когда проводится несколько однотипных тестов подряд, каждый из них имеет 5% шанс на ложный положительный результат. Если коррекция отсутствует, то вероятность, что хотя бы один из этих тестов даст ложный положительный результат, быстро возрастает.

Предположим, что делается 20 однотипных тестов. Вероятность того, что получится ложный положительный результат равна 1 - (1 - 0.05)^2064%.

Как контролировать ошибки читать далее

Midjourney и промпты для пиксельных артов

Время на прочтение2 мин
Количество просмотров5.7K

Привет, чемпионы!

Часто ли вы обращаетесь к Midjourney или Stable Diffusion, чтобы нарисовать фантастический арт? Я да - нравится позалипать пару минут на фантастический арт. Давайте сегодня учиться генерировать подобные пикчи за пару кликов:

Посмотреть промпты

RSS лента результатов поиска в Awakari

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров894

Awakari — бесплатный сервис поиска и фильтрации сообщений в режиме реального времени. Сервис ищет то, что интересно пользователю, среди тысяч сообщений в час из множества источников, таких как Fediverse, ленты RSS, каналы Телеграм.

Исторически Awakari интегрирован с Телеграм, используя его для идентификации пользователя и уведомления о результатах. В дополнение к Телеграм, теперь также доступны:

Читать далее

Быстрая Data Quality проверка на базе алгоритма adversarial validation

Время на прочтение10 мин
Количество просмотров4.6K

Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом. 

Читать далее

Машинное обучение: мост между бизнесом и Data Science

Время на прочтение16 мин
Количество просмотров5.7K

Если последние несколько лет вы не жили на далёком острове без электричества и связи, то, вероятно, слышали о машинном обучении. Этот тренд было сложно не заметить. Каждый раз, когда мы говорим о беспилотных автомобилях, чат-ботах, AlphaGo или предиктивной аналитике, упоминается та или иная реализация машинного обучения. Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике, а подготовка конкретного плана внедрения ML по-прежнему остаётся высоким барьером.

Цель этой статьи — практические ответы, а не подготовка видения или продвижение тренда. Мы поговорим о зонтичном термине data science, о взаимосвязи его отраслей, основных задачах, которые может решать машинное обучение, а также о том, как эти задачи можно перевести на язык бизнеса. Также мы обсудим основные решения, которые нужно принять при найме специалистов, и выделим сложности, которые нужно учесть заранее
Читать дальше →

Кто такой аналитик бизнес-данных по стандарту Guide to Business Data Analytics

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров1.7K

Закончил перевод стандарта от Международного института бизнес-анализа (IIBA) Руководство по аналитике бизнес-данных. Стандарт выстроен примерно по той же схеме что и другие стандарты IIBA:

• Введение
• Области знаний (домены).
• Типовые задачи, которые решают аналитики.
• Техники (методы работы), которые используются для решения задач.

Кроме того, в отличие, например, от стандарта BABOK Guide, здесь присутствуют значительное количество практических примеров из реальной жизни – как та или иная компания решали свои проблемы с помощью аналитики данных, а также по каждому домену приводится разбор учебного кейса – в этом Руководство по аналитике бизнес-данных легче использовать как учебник, чем BABOK Guide.

Роль аналитика бизнес-данных в данном стандарте занимает примерно такое же место как роль бизнес-аналитика в BABOK Guide.

Читать далее