Как стать автором
Обновить

Компания Ассоциация больших данных временно не ведёт блог на Хабре

Сначала показывать

Доменная модель песочницы данных: на чём зиждется Data Fusion

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.4K

Доменная модель песочницы данных: на чём зиждется Data Fusion

Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Как обезличить персональные данные

Время на прочтение8 мин
Количество просмотров8.5K

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Игры для самых больших: песочница данных и её безопасность

Время на прочтение8 мин
Количество просмотров2K

Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить удивительные вещи, не содержавшиеся ни в одном из них отдельно.

Однако нельзя просто так взять и отдать свои данные кому попало. То, что может принести пользу, могут использовать и во вред. Данные, которые компании генерируют в процессе своей работы, часто (или вообще всегда) содержат чувствительную информацию о клиентах, финансах и тому подобном. Синергия данных сулит большую выгоду, но как извлечь её без риска?

Именно эту проблему решает песочница данных, созданная Ассоциацией больших данных. В ней большие игроки могут обмениваться своими игрушками, не опасаясь, что их отберут хулиганы. Почему они могут не опасаться — читайте под катом.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Что такое Brain2Logic: Data Science без кода для юниоров

Время на прочтение11 мин
Количество просмотров2.8K

Современное машинное обучение не только перенимает крутые математические методы, но и подстраивается под стремление человека автоматизировать управление процессами. Природа явления остаётся загадкой. То ли мы добиваемся лаконичности, то ли убиваемся собственной ленью — неважно, если результат оправдывает затраты.

Одним из таких результатов стала AutoML-платорма Brain2Logic стартапа Mavericka, которая недавно была пропилотирована в песочнице Ассоциации больших данных. Платформу помог протестировать Билайн, поставив задачу построить модели для рекомендаций фильмов. В этой статье представлен общий взгляд на современные AutoML-решения с акцентом на проект Brain2Logic (B2L).

Если вам интересно, что смогли придумать в Mavericka, посмотреть на тестирование и почитать наши рассуждения про AutoML — добро пожаловать под кат.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Tfidfvectorizer, BERT, LASER: векторизация данных и кластерный анализ для улучшения рекомендательной системы

Время на прочтение9 мин
Количество просмотров11K

Мир онлайн-покупок становится всё привычнее, а значит, и обезличенных данных про каждого пользователя всё больше. Билайн ТВ использует для онлайн-кинотеатра рекомендательную систему на основе данных: она советует пользователю новый триллер, если он уже посмотрел пять похожих фильмов. 

Чтобы реализовать такую систему, компания CleverData (группа ЛАНИТ) сформировала эмбеддинги для пользователей Билайн ТВ. Ассоциация больших данных помогла сделать этот кейс возможным. 

В этой статье расскажем подробности этой задачи:

Читать далее
Всего голосов 24: ↑24 и ↓0+24
Комментарии0