Как стать автором
Обновить
87.02

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Kaggle для футболистов: Классификация событий на футбольном поле

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.9K

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

Читать далее
Всего голосов 5: ↑5 и ↓0+8
Комментарии4

Инфраструктура для Data-Engineer ClickHouse

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.7K

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии4

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Время на прочтение4 мин
Количество просмотров631

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.

Читать далее
Всего голосов 6: ↑5 и ↓1+8
Комментарии2

Поиск дубликатов в клиентском MDM на миллиард записей

Время на прочтение15 мин
Количество просмотров2.4K

Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений. 

Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.

Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.

В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.

Читать далее
Всего голосов 13: ↑13 и ↓0+22
Комментарии3

Истории

Как оценить качество LLM модели

Время на прочтение11 мин
Количество просмотров2.1K

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:

  • Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
  • LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
  • LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
Читать дальше →
Всего голосов 4: ↑2 и ↓2+2
Комментарии0

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.

На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Что такое Big Data | Биг Дата?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.9K

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.

Читать далее
Всего голосов 7: ↑2 и ↓5-1
Комментарии1

Полный гид по бенчмаркам LLM

Время на прочтение12 мин
Количество просмотров1.8K

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать дальше →
Всего голосов 5: ↑3 и ↓2+3
Комментарии1

Самые популярные LLM бенчмарки

Время на прочтение7 мин
Количество просмотров1.7K

Зачем использовать бенчмарки для оценки LLM?


Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

  • «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
  • Способы передачи входных промтов в LLM
  • Способы интерпретации/сбора ответов
  • Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать дальше →
Всего голосов 5: ↑4 и ↓1+8
Комментарии0

Pet-проекты и данные для Data-Engineer

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.3K

При изучении дата‑инжиниринга часто возникает вопрос: «откуда брать данные?»

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet‑проекты c использованием разнообразных данных.

Читать далее
Всего голосов 10: ↑7 и ↓3+6
Комментарии1

Как сделать так, чтобы ваши открытые данные были никому не интересны

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров17K

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией. 

Лучший выход из подобной ситуации — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными. 

Читать далее
Всего голосов 35: ↑31 и ↓4+34
Комментарии9

Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.6K

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open-source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.

Читать далее
Всего голосов 14: ↑12 и ↓2+12
Комментарии6

Как растут компании

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.3K

В прошлой статье мы обсудили кто такой дата-инженер. Давайте теперь обсудим на каком этапе жизненного цикла компании он появляется в команде/компании.

В этой статье вы узнаете как могут развиваться компании и какие роли бывают в ней, и как они влияют на её развитие.

Читать далее
Всего голосов 4: ↑0 и ↓4-4
Комментарии1

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Как наука о данных трансформирует здравоохранение

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Наука о данных трансформирует медицинский сектор, подвергая фундаментальным изменениям основы мониторинга и профилактики заболеваний, диагностики и лечения. В этой статье рассматривается роль Data Science в медицинской сфере, её основные применения, преимущества, проблемы, а также будущие тенденции.

Читать далее
Всего голосов 9: ↑8 и ↓1+17
Комментарии0

Sapiens: фундаментальная CV-модель для задач с людьми

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.3K

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша.

Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает.

Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

Читать далее
Всего голосов 12: ↑12 и ↓0+15
Комментарии2

Топ 5 продвинутых инструментов Data Science. Изучи за выходные и будешь выделяться

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров15K

Привет, чемпионы! Сегодня рассмотрим, как облегчить себе жизнь, применяя 5 инструментов в своих проектах. Эти инструменты улучшат ваш код, сделают ваш pipeline более стабильным и позволят не писать один код по 10 раз. Круто? Погнали!

Изучать новое!
Всего голосов 13: ↑11 и ↓2+13
Комментарии14

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.4K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее
Всего голосов 10: ↑10 и ↓0+17
Комментарии1

Распознаем беспилотники малых размеров с помощью ИИ

Время на прочтение8 мин
Количество просмотров7.8K

Беспилотные летательные аппараты (БПЛА), или дроны, становятся всё более распространёнными в различных областях — от коммерческой доставки и мониторинга сельскохозяйственных угодий до разведывательных миссий и обеспечения безопасности. Однако, по мере роста их числа, возрастает и сложность задачи их распознавания, идентификации и трекинга, особенно когда речь идёт о малых дронах.

Читать далее ->
Всего голосов 21: ↑18 и ↓3+19
Комментарии27

Что можно узнать из текста в телеграмм-канале?

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.5K

Два года назад я создал свой канал, где делился всем, что меня увлекает — от личных заметок и искусства до новостей Data Science и ИИ. За это время мой канал стал обширным хранилищем текстов, и я решил проанализировать их. Я применил статистический анализ, тематическое моделирование, нейросети и кластерный анализ, чтобы вытащить из данных как можно больше информации. В своей статье я подробно описываю весь процесс и делюсь полученными результатами.

Приглашаю вас на препарацию моих мыслей, заметок и идей!

В препараторскую 👉
Всего голосов 10: ↑9 и ↓1+10
Комментарии5

Инфраструктура для data engineer Kafka

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3K

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать далее
Всего голосов 9: ↑5 и ↓4+1
Комментарии0

Вклад авторов

Работа

Data Scientist
78 вакансий