Pull to refresh
10
0
Sharipov Rinat @kent2171

Lead Software Engineer at CleverDATA

Send message

Масштабируемый подход к частично локальному федеративному обучению

Reading time9 min
Views2.8K

Данный текст является авторским переводом поста A Scalable Approach for Partially Local Federated Learning (https://ai.googleblog.com/2021/12/a-scalable-approach-for-partially-local.html).


Примечания: 

Меня довольно сильно интересует тема распределенного обучения ML моделей и в свободное время стараюсь изучать материалы, связанные с этой темой. Материалов не так уж и много, на самом деле, поэтому любая новая публиках на эту тему привлекает внимание. И 16 декабря в блоге Google AI был опубликован новый пост на эту тему, в котором авторы описывают новый подход в Федеративному обучения и я решил перевести его на русский язык, наедаясь, что кому нибудь этот материал так же может показаться интересным.

Для тех, кто не сильно знаком с этом темой, хочется сделать несколько вводных пояснений. Federated Learning (далее FL для сокращения) (так называется совокупность методов обучения ML моделей на распределённых данных) в общем то изначально дразнится Google и поддерживается в наборе инструментов TensorFlow. Почему именно Google? Дело в том, что FL решает следующую проблему: в стандартных подходах ML все базируется на том, что все данные, необходимые для обучения, доступны в рамках единого пространства памяти (централизованы на одном сервере/кластере), но есть много случаем, когда по соображениям конфиденциальности (связанными как с коммерческой тайной, так и с вопросами privacy и защиты пользовательских данных) мы не может все данные скопировать в единое хранилище. Вот FL и предлагает различные методики обучения, которые позволяют натренировать модель без централизации данных. Google с этой проблематикой сталкивается потому что является разработчиком мобильной операционной системы Android, многие функции которой требуют применения ML подходов. В частности, у них есть приложение GBoard - это мобильная клавиатура, которая подсказывает пользователю следующее слово в набираемой фразе, тем самым позволяя экономить время пользователю при наборе текста. Для того, что бы натренировать предсказательную модель, требуется обработка текстов, которые пользователи вводят в рамках переписки в мессенджерах и тп, и тут как раз и возникает проблема работы с приватными данными. Поэтому надо еще раз подчеркнуть, что текст ниже и прочие публикации Google на эту тему следует воспринимать в контексте именно этой проблематики, хотя подобные методы можно применять и в большом количестве других кейсов.

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments1

Data Fabric — основы концепций и ключевые различия с Data Mesh и Data Lake

Reading time3 min
Views9.8K

Добрался тут изучить ряд статей на тему Data Fabric, последнее время довольно много публикуется материала на эту тему: как про Data Fabric в целом, так и сравнения этого подхода с такими модными понятиями как Data Lake и Data Mesh. Собственно говоря, целью этого материла является кристаллизация основной составляющей концепции DF, в которой хочется оставить только саму суть.

Итак, что такое Data Fabric?

Это архитектура, подход, который говорит - не надо централизовать данные, надо навести в них порядок там, где они есть изначально и сделать над ними слой виртуализации данных, через ĸоторый потребители будут получать ĸ этим данным доступ. Data Fabric не требует замены существующей инфраструĸтуры, а вместо этого добавляет дополнительный технологичесĸий уровень поверх существующей инфраструĸтуры, ĸоторый занимается управлением метаданными и доступом ĸ данным.

Ну или чуть более длинно: “A data fabric is a modern, distributed data architecture that includes shared data assets and optimized data management and integration processes that you can use to address today’s data challenges in a unified way.” - тут и переводить не надо и таĸ все ĸрасиво написано :)

Каĸую проблему решает этот подход? Он борется с вариативностью данных. Когда у вас много источниĸов, много потребителей и все источниĸи довольно разнородны не тольĸо в плане того, что ĸаждый источниĸ - данные в разной струĸтуре, но и в плане того, что ĸаждый источниĸ - данные разных типов и разных лоĸализаций (облачные сервисы,собственные базы данных и т.п). В этом случае подходы централизации данных перестают быть эффеĸтивными, требуют много ресурсов на реализацию и поддержĸу.

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments0

Онбординг наставников или быстрое погружение в наставничество

Reading time5 min
Views14K

«Ты будешь наставником! Новый сотрудник выходит завтра» — именно так начинается история про то, как я стала наставником. У новенького наставника рождается масса вопросов: Смогу ли я? С чего начать? Как преподнести информацию и ничего не забыть?

При этом я в Екатеринбурге, а новый сотрудник в Москве. Страх, испуг и непонимание.

В Альфе мы решили бороться с такой ситуацией и придумали онбординг для новых наставников. В итоге мы получили подготовленного наставника и довольного испытательным сроком нового сотрудника. Но не будем забегать вперед, а начнем сначала. 

Что мы сделали

- Придумали формат общения руководителя и наставника.

- Подготовили памятку для наставника.

- Создали обучение для новых наставников.

- Разработали процесс онбординга с шаблонами планов на 100 дней (испытательный срок). 

Читать далее
Total votes 10: ↑9 and ↓1+17
Comments12

Уроки волшебства для кота, дейтинг для беременных и астрология

Reading time10 min
Views7.7K

Data Scientists узнают, что интересует людей и на что они тратят деньги


В ходе исследований различных аудиторий Data Scientists наблюдают как закономерные, так и удивительные факты, которые ярко характеризуют социум вокруг нас. В этой статье я расскажу о тех курьёзах и необычных случаях, которые заметила при выполнении задач, связанных с аудиторным анализом, исследованием интересов пользователей Интернета и покупательского поведения различных социальных групп. 

Какие социологические особенности удалось выяснить благодаря применению моделей машинного обучения? Что мы знаем о покупателях? 
 
Источник
Читать дальше →
Total votes 46: ↑45 and ↓1+53
Comments13

Natural Language Processing онлайн-чеков: курс уроков волшебства для обычного кота и другие проблемы

Reading time10 min
Views7.9K
Компания CleverDATA занимается разработкой платформы для работы с большими данными. В частности, на нашей платформе есть возможность работать с  информацией из чеков онлайн-покупок. Перед нами стояла задача научиться обрабатывать текстовые данные чеков и строить на них выводы о потребителях для создания соответствующих характеристик на бирже данных. Было естественно для решения этой задачи обратиться к машинному обучению. В этой статье мы хотим рассказать про проблемы, с которыми встретились при классификации текстов онлайн-чеков. 

Источник
Читать дальше →
Total votes 68: ↑66 and ↓2+64
Comments5

Как интеллект-карты помогают вести IT-проекты

Reading time10 min
Views49K
В продолжение статьи о тайм-менеджменте предлагаю вашему вниманию историю о своем опыте использования инструмента по работе с интеллект-картами. Последние десять лет я занимаюсь управлением проектами в ИТ и телекоме, и всё это время я использую MindJet MindManager. Сегодня я расскажу, как с его помощью можно организовать задачи проекта и всё то, что происходит в голове проектного менеджера. Рассчитываю, что вы прочтете эту статью, пока пьёте одну чашку кофе, а за несколько последующих — мы с вами её обсудим.

Из этого поста вы узнаете о принципах формирования интеллект-карт, основных фишках MindJet MindManager (далее — Mind) и особенностях его применения в проектной работе управленца.

Я не хотел превращать эту статью в инструкцию или в руководство пользователя. Не судите строго, но информация, приведенная ниже, действительно эффективна, и мне хочется ею с вами поделиться.

Источник
Читать дальше →
Total votes 68: ↑66 and ↓2+64
Comments44

Java конференция с английскими корнями. Обзор размера XXXL

Reading time8 min
Views5.7K
Друзья, мы с kent2171, моим коллегой из CleverDATA, побывали на одной из крупнейших конференций Европы – Jax London 2017, посвященной экосистеме Java и всему, что ее окружает в современном мире, – микросервисной архитектуре, Continuous Delivery, а также культуре и практикам DevOps.

Объем полученной за четыре дня информации оказался настолько огромным, что обзор пришлось разбить на две части. Сегодня мы предлагаем вашему вниманию первую часть, в которой расскажем о Chaos Engineering подходе к построению устойчивых распределенных систем, а также о том, как контейнеризация java-приложений сказывается на процессе разработки и какие преимущества кроме синтаксиса дают lambda выражения. Это основные моменты. Остальное — под катом.


Читать дальше →
Total votes 41: ↑40 and ↓1+39
Comments0

Information

Rating
Does not participate
Location
Балашиха, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity