All streams
Search
Write a publication
Pull to refresh
10
0
Ассоциация больших данных @RUBDA

User

Send message

Доменная модель песочницы данных: на чём зиждется Data Fusion

Level of difficultyMedium
Reading time17 min
Views2.7K

Доменная модель песочницы данных: на чём зиждется Data Fusion

Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.

Читать далее

Как обезличить персональные данные

Reading time8 min
Views11K

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее

Игры для самых больших: песочница данных и её безопасность

Reading time8 min
Views2.5K

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.

Читать далее

Что такое Brain2Logic: Data Science без кода для юниоров

Reading time11 min
Views3.1K

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.

Читать далее

Tfidfvectorizer, BERT, LASER: векторизация данных и кластерный анализ для улучшения рекомендательной системы

Reading time9 min
Views13K

Мир онлайн-покупок становится всё привычнее, а значит, и обезличенных данных про каждого пользователя всё больше. Билайн ТВ использует для онлайн-кинотеатра рекомендательную систему на основе данных: она советует пользователю новый триллер, если он уже посмотрел пять похожих фильмов. 

Чтобы реализовать такую систему, компания CleverData (группа ЛАНИТ) сформировала эмбеддинги для пользователей Билайн ТВ. Ассоциация больших данных помогла сделать этот кейс возможным. 

В этой статье расскажем подробности этой задачи:

Читать далее

Information

Rating
Does not participate
Works in
Registered
Activity