Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

kucev 27 мар 2023 в 12:31

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

10 мин

6.4K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.

Читать дальше →

+17

prinkov 23 мар 2023 в 13:51

Не цель важна, а важен путь. Как определить оптимальную подпоследовательность тем при автоматизации чатов

Простой

6 мин

840

Блог компании Garage EightАнализ и проектирование систем*Data Mining*Big Data*Искусственный интеллект

Кейс

При разработке чат-бота мы столкнулись с задачей планирования этапов автоматизации. Эта задача возникает, когда охватить все темы невозможно из-за их многочисленности и постоянного изменения их содержания. Поэтому перед реализацией сценариев важно понимать, какое множество тем чатов необходимо покрыть в первую очередь, чтобы за фиксированный период времени и с ограниченным количеством ресурсов достичь максимального эффекта. В статье разберем постановку задачи, ее формализацию и одно из решений.

+10

UtrobinMV 9 мар 2023 в 16:19

Первая бесплатная модель перевода с русского на китайский язык и обратно

6 мин

6.8K

Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*Data Engineering*

Кейс

Cезон machine learning

Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно.

Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский.

В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.

+15

djunka 8 фев 2023 в 13:32

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

9 мин

7.7K

Блог компании SberDevicesOpen source*Data Mining*Машинное обучение*Искусственный интеллект

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону. Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

+17

dimanosov007 1 фев 2023 в 16:30

Обучите YOLOv8 на пользовательском наборе данных

10 мин

37K

Python*Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Туториал

Перевод

Ultralytics недавно выпустила семейство моделей обнаружения объектов YOLOv8. Эти модели превосходят предыдущие версии моделей YOLO как по скорости, так и по точности в наборе данных COCO. Но как насчет производительности на пользовательских наборах данных? Чтобы ответить на этот вопрос, мы будем обучать модели YOLOv8 на пользовательском наборе данных. В частности, мы будем обучать его на крупномасштабном наборе данных для обнаружения выбоин.

+11

dim-ev 30 янв 2023 в 18:07

Как жили наши предки 400 лет назад? Создание базы данных населения XVII века по южным уездам России

6 мин

8.2K

PostgreSQL*Data Mining*NoSQL*Научно-популярноеData Engineering*

Из песочницы

Можно ли найти конкретного человека, жившего в XVII веке? Выражаясь современным языком «пробить по базам». Оказывается, архивные документы хранят массу информации об обычных людях того периода. Однако существует ряд сложностей, не позволяющих обычному исследователю добраться до этой информации. Во-первых, нужно пройти определённую процедуру по получению доступа в архив. Во-вторых, не всегда можно выйти на нужный документ, используя так называемый научно-справочный аппарат – различные описи и реестры документов, имеющиеся в архиве. Наконец, не имея навыков чтения документов XVII века, которые написаны скорописью, почти нереально ознакомиться с его содержанием.

Данные проблемы предполагается решить с помощью создания базы данных служилых людей XVII века. Об этом небольшая история.

Как всё начиналось.

Привет! Меня зовут Дмитрий и вот уже более 10 лет я изучаю историю южных уездов России XVII века. Территориально – это современные Белгородская, а также соседние Воронежская, Курская, Липецкая и другие области. Населены они были тогда так называемыми служилыми людьми – они получали здесь в качестве служебного жалования земельные наделы, которые сами и обрабатывали. В XVIII веке их потомки стали однодворцами, а затем государственными крестьянами. Большая часть населения Курской, Воронежской и соседних губерний XIX века происходят из тех самых служилых людей XVI–XVII веков.

Продолжим?

+56

dimanosov007 26 янв 2023 в 17:14

Введение в диффузионные модели для генерации изображений – полное руководство

22 мин

27K

Python*Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Перевод

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

+28

MegaAlex23 16 янв 2023 в 12:31

Как погода влияет на отзывы людей в интернете?

4 мин

2.2K

Data Mining*Big Data*

Кейс

Как погода влияет на отзывы людей в интернете?

Ожидается, что мир преодолеет порог глобального потепления между 2027 и 2042 годами. Используя математические модели, которые анализируют текущее состояние климата Земли, ученые ожидают, что температура повысится на 1,5 градуса, как только мы достигнем этого уровня.

Правительства и экологические активисты многих стран мира бьют тревогу по поводу необходимости остановить климатическую катастрофу, которая нарастает быстрее, чем предполагалось в первоначальных прогнозах. Тем не менее, новые технологии будут играть важную роль в формировании политики и разработке инноваций, направленных на решение климатических проблем.

Если абстрагироваться от глобальных перемен климата и рассмотреть изменения состояния погоды, например, в России, то можно сделать несколько любопытных наблюдений.

+12

egaoharu_kensei 31 дек 2022 в 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Простой

7 мин

76K

Data Mining*Big Data*Математика*Машинное обучение*Учебный процесс в IT

Роадмэп

Технотекст 2022

Из песочницы

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

+22

artkulakov 30 дек 2022 в 11:53

Используем Computer Vision для получения €6,147,455 за ночь во внутриигровой валюте

5 мин

19K

Python*Data Mining*Big Data*Игры и игровые консолиData Engineering*

Туториал

Перевод

Последние 10 лет я играл в такие игры, как TownsMen 6, Clash of the Clans, SimCity и мою любимую OpenTTD (с открытым исходным кодом!).

Попробовав City Island 5, я был раздражен от того, что предметы не накапливались, пока я находился вне игры. У меня может быть самый лучший бизнес, стратегия и т.д., но я должен быть в игре, чтобы обеспечить сбор денег/ключей/золота с течением времени. Например, если моя пекарня зарабатывает 100 евро в минуту, я заработаю 100 евро только после того, как выйду из игры и вернусь через 24 часа.

Это стало особенно утомительным, когда я пытался накопить €5 000 000, необходимых для покупки острова, показанного ниже. Это займет у меня примерно две недели игры, если я не буду тратить деньги - оно того не стоит!

+24

ZlodeiBaal 27 дек 2022 в 08:11

Распознавание товаров на полках

8 мин

5.2K

Блог компании RecognitorData Mining*Алгоритмы*Обработка изображений*Машинное обучение*

Туториал

Computer Vision позволил создать принципиально новые продукты и механики в многих областях жизни: умный город, беспилотный транспорт, аналитика производств.
То же самое произошло и с супермаркетами: “оценка длины очереди”, “оценка загруженности зала”, “оценка загруженности полок товарами”, “проверка выкладки”, “проверка качества уборки”, “проверка ценников” и многое-многое другое это теперь автоматизированные задачи.
В этой статье я хочу рассказать про то, какие используются общие принципы для распознавания товаров. Эти алгоритмы необходимы для проверки выкладки, заполненности полок, контроля остатков и других задач.
Так получилось что за последние 7 лет мы были вовлечены в решение и консультирование по большинству таких задач, так что накопилось много интересного опыта.

+15

Apatic 14 дек 2022 в 12:20

Обзор зарубежной недвижимости для россиян. Что, где, почём?

7 мин

18K

Data Mining*IT-эмиграция

Допустим, у вас есть квартира в Москве. Или в Твери. Или в Томске, не суть. Если вы решите её продать, какую недвижимость за рубежом вы сможете купить и в какой стране?

Еще пару лет назад такой вопрос казался если не странным, то праздным. А всерьез продать российскую недвижимость ради покупки зарубежной решались и вовсе единицы.

Однако, в последнее время тема переезда на ПМЖ в другую страну приобрела особую популярность. И для многих (особенно для айтишников) озвученные выше вопросы перешли в разряд вполне насущных.

В этой статье я дам небольшой обзор рынка зарубежной недвижимости для россиян, основанный на открытых данных. Что, где и почем продают. А в качестве бонуса посмотрим на соответствие цен недвижимости между разными регионами России и зарубежными странами.

+18

slivka_83 9 дек 2022 в 19:23

Введение в библиотеку Transformers и платформу Hugging Face

17 мин

49K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Технотекст 2022

Библиотека Transformers предоставляет доступ к огромному кол-ву современных предобученных моделей глубокого обучения. В основном основаных на архитектуре трансформеров. Модели решают весьма разнообразный спектр задач: NLP, CV, Audio, Multimodal, Reinforcement Learning, Time Series.

В этой статье пройдемся по основным ее возможностям и попробуем их на практике.

+23

Bright_Translate 27 ноя 2022 в 13:00

Инженерия данных != инженерия ПО

13 мин

5.7K

Блог компании RUVDS.comData Mining*Управление разработкой*DevOps*Data Engineering*

Перевод

В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.

Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход.

Читать дальше →

+36

23 ноя 2022 в 11:43

Не всё то золото, что блестит: итоги сезона Data Mining

9 мин

17K

Блог компании Sportmaster LabHabrData Mining*

Cезон Data Mining

С 5 сентября по 20 октября Хабр приоткрыл портал в оккультное IT-измерение, в котором обитают дата-~~сатанисты~~сайентисты. Стоило произнести зловещее заклинание «стартует сезон Data Mining» и возложить на призовой алтарь игровой монитор, как на хаб слетелись десятки адептов.

Под катом подводим итоги сезона, показываем лучшие посты, знакомимся с авторами, славим победителя и поясняем, почему Data Mining так важен в современном мире.

Вместе с компанией SM Lab — спонсором сезона и куратором хаба — мы изучили присланные на конкурс манускрипты. Среди постов сезона были поразительные жемчужины. Лучшую из них определили читатели.

+25

lexibenderrr 1 ноя 2022 в 15:05

Практический Metric learning

8 мин

14K

Блог компании Open Data ScienceData Mining*Машинное обучение*

Туториал

В этом посте мы поговорим о задаче metric learning, подходах к её решению, и разберём их на практике, используя open-source проект OpenMetricLearning. В качестве бонуса покажем, как с помощью простых эвристик можно догнать текущие SotA модели.

+18

lodz 18 окт 2022 в 11:41

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

11 мин

5.8K

Блог компании SelectelIT-инфраструктура*Data Mining*Big Data*Машинное обучение*

Технотекст 2022

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.

Читать дальше →

+42

Robastik 18 окт 2022 в 07:43

Как сделать карту цен в Excel без макросов и VBA

10 мин

12K

Data Mining*Maps API*Визуализация данных*

Туториал

Cезон Data Mining

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

+23

Asiia_Thabet 16 окт 2022 в 03:36

Анализ временных рядов, применение нейросетей (1 часть)

9 мин

26K

Data Mining*Big Data*Машинное обучение*Статистика в ITИскусственный интеллект

Туториал

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

+12

ANazarov 14 окт 2022 в 15:48

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

26 мин

12K

Python*Data Mining*Математика*Учебный процесс в ITСтатистика в IT

Туториал

Cезон Data Mining

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

+16

1 2 3

5 6 ...

49 50

Data Mining *

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

Не цель важна, а важен путь. Как определить оптимальную подпоследовательность тем при автоматизации чатов

Первая бесплатная модель перевода с русского на китайский язык и обратно

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

Истории

Обучите YOLOv8 на пользовательском наборе данных

Как жили наши предки 400 лет назад? Создание базы данных населения XVII века по южным уездам России

Введение в диффузионные модели для генерации изображений – полное руководство

Как погода влияет на отзывы людей в интернете?

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Используем Computer Vision для получения €6,147,455 за ночь во внутриигровой валюте

Распознавание товаров на полках

Обзор зарубежной недвижимости для россиян. Что, где, почём?

Введение в библиотеку Transformers и платформу Hugging Face

Ближайшие события

Инженерия данных != инженерия ПО

Не всё то золото, что блестит: итоги сезона Data Mining

Практический Metric learning

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Как сделать карту цен в Excel без макросов и VBA

Анализ временных рядов, применение нейросетей (1 часть)

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Вклад авторов

Работа