Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

wadik69 2 часа назад

Kaggle для футболистов: Классификация событий на футбольном поле

Средний

8 мин

308

Машинное обучение*Python*Обработка изображений*Data Mining*

Кейс

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

k0rsakov 4 окт в 09:00

Инфраструктура для Data-Engineer ClickHouse

Простой

9 мин

793

Data Mining*Администрирование баз данных*Big Data*Хранилища данных*Data Engineering*

Туториал

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

antipov_dmitry 3 окт в 12:03

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

4 мин

414

Data Engineering*Data Mining*Big Data*Искусственный интеллект

Мнение

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

nivolg 1 окт в 10:51

Поиск дубликатов в клиентском MDM на миллиард записей

15 мин

1.5K

Блог компании HFLabsData Engineering*Data Mining*Big Data*Хранение данных*

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

+21

kucev 30 сен в 14:02

Как оценить качество LLM модели

11 мин

1.5K

Big Data*Data Engineering*Data Mining*Искусственный интеллектМашинное обучение*

Перевод

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:

Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

Читать дальше →

-1

antipov_dmitry 30 сен в 08:40

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Простой

5 мин

573

Data Engineering*Data Mining*Машинное обучение*Искусственный интеллектBig Data*

Мнение

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.

На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

k0rsakov 27 сен в 09:01

Что такое Big Data | Биг Дата?

Простой

4 мин

3.5K

Big Data*Data Engineering*Data Mining*Терминология ITКарьера в IT-индустрии

Мнение

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.

-1

kucev 24 сен в 15:28

Полный гид по бенчмаркам LLM

12 мин

1.3K

Big Data*Data Engineering*Data Mining*Искусственный интеллектМашинное обучение*

Перевод

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Читать дальше →

kucev 23 сен в 10:45

Самые популярные LLM бенчмарки

7 мин

1.4K

Big Data*Data Engineering*Data Mining*Искусственный интеллектМашинное обучение*

Перевод

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

«Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
Способы передачи входных промтов в LLM
Способы интерпретации/сбора ответов
Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

Читать дальше →

k0rsakov 20 сен в 09:00

Pet-проекты и данные для Data-Engineer

Простой

6 мин

4.9K

Python*Data Mining*API*Big Data*Data Engineering*

Туториал

При изучении дата‑инжиниринга часто возникает вопрос: «откуда брать данные?»

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet‑проекты c использованием разнообразных данных.

breakmirrors 19 сен в 12:28

Как сделать так, чтобы ваши открытые данные были никому не интересны

Простой

5 мин

16K

Блог компании Magnus TechData Mining*Big Data*КопирайтData Engineering*

Перевод

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией.

Лучший выход из подобной ситуации — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.

+34

vagonoff 16 сен в 11:53

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Средний

6 мин

2.1K

Блог компании GlowByteData Mining*Big Data*Математика*Искусственный интеллект

Кейс

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open-source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.

+12

k0rsakov 13 сен в 09:00

Как растут компании

Простой

7 мин

1.2K

Data Mining*Big Data*Развитие стартапаУправление продуктом*Data Engineering*

Мнение

В прошлой статье мы обсудили кто такой дата-инженер. Давайте теперь обсудим на каком этапе жизненного цикла компании он появляется в команде/компании.

В этой статье вы узнаете как могут развиваться компании и какие роли бывают в ней, и как они влияют на её развитие.

-4

Hanamime 5 сен в 14:40

Как наука о данных трансформирует здравоохранение

Простой

6 мин

1.4K

Блог компании СберМашинное обучение*Data Mining*Здоровье

Мнение

Наука о данных трансформирует медицинский сектор, подвергая фундаментальным изменениям основы мониторинга и профилактики заболеваний, диагностики и лечения. В этой статье рассматривается роль Data Science в медицинской сфере, её основные применения, преимущества, проблемы, а также будущие тенденции.

+17

antipov_dmitry 5 сен в 12:28

Sapiens: фундаментальная CV-модель для задач с людьми

Простой

4 мин

3.1K

Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша.

Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает.

Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

+15

Aleron75 30 авг в 10:09

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться

Средний

10 мин

14K

Python*Data Mining*Машинное обучение*DevOps*Data Engineering*

Туториал

Привет, чемпионы! Сегодня рассмотрим, как облегчить себе жизнь, применяя 5 инструментов в своих проектах. Эти инструменты улучшат ваш код, сделают ваш pipeline более стабильным и позволят не писать один код по 10 раз. Круто? Погнали!

Изучать новое!

+13

hukenovs 29 авг в 13:13

Рецепт идеальной разметки в Computer Vision

Средний

11 мин

2.2K

Блог компании Конференции Олега Бунина (Онтико)Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*

Туториал

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

+17

Kosmak 27 авг в 10:20

Распознаем беспилотники малых размеров с помощью ИИ

8 мин

7.3K

Python*Data Mining*Искусственный интеллект

Из песочницы

Беспилотные летательные аппараты (БПЛА), или дроны, становятся всё более распространёнными в различных областях — от коммерческой доставки и мониторинга сельскохозяйственных угодий до разведывательных миссий и обеспечения безопасности. Однако, по мере роста их числа, возрастает и сложность задачи их распознавания, идентификации и трекинга, особенно когда речь идёт о малых дронах.

Читать далее ->

+19

artyom08112006 19 авг в 21:16

Что можно узнать из текста в телеграмм-канале?

Простой

17 мин

2.4K

Машинное обучение*Natural Language Processing*Data Mining*

Из песочницы

Два года назад я создал свой канал, где делился всем, что меня увлекает — от личных заметок и искусства до новостей Data Science и ИИ. За это время мой канал стал обширным хранилищем текстов, и я решил проанализировать их. Я применил статистический анализ, тематическое моделирование, нейросети и кластерный анализ, чтобы вытащить из данных как можно больше информации. В своей статье я подробно описываю весь процесс и делюсь полученными результатами.

Приглашаю вас на препарацию моих мыслей, заметок и идей!

В препараторскую 👉

+10

k0rsakov 19 авг в 08:00

Инфраструктура для data engineer Kafka

Простой

8 мин

2.8K

Data Engineering*Big Data*Хранение данных*Хранилища данных*Data Mining*

Туториал

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

2 3 ...

101 102

Data Mining *

Kaggle для футболистов: Классификация событий на футбольном поле

Новости

Инфраструктура для Data-Engineer ClickHouse

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Поиск дубликатов в клиентском MDM на миллиард записей

Истории

Как оценить качество LLM модели

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Что такое Big Data | Биг Дата?

Полный гид по бенчмаркам LLM

Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Pet-проекты и данные для Data-Engineer

Как сделать так, чтобы ваши открытые данные были никому не интересны

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Как растут компании

Ближайшие события

Как наука о данных трансформирует здравоохранение

Sapiens: фундаментальная CV-модель для задач с людьми

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться

Рецепт идеальной разметки в Computer Vision

Распознаем беспилотники малых размеров с помощью ИИ

Что можно узнать из текста в телеграмм-канале?

Инфраструктура для data engineer Kafka

Вклад авторов

Работа