Articles / Bookmarks / Profile of OLZ1 / Habr

Олег Захаров @OLZ1

Senior data scientist

Profile Publications 5Comments 49Bookmarks 68

AlexeyNadezhin Sep 27 2021 at 19:41

Идеальная светодиодная лампа за 21 рубль

3 min

79K

LampTest corporate blogGadgets

Удивительно осознавать, что достаточно сложное электронное устройство, которым является светодиодная лампочка, может стоить 21 рубль.

Ещё сложнее поверить, что эта лампочка безукоризненна по всем параметрам.

Читать дальше →

+223

204

GetMeIT Sep 25 2021 at 16:32

Гид по предварительной обработке текста с помощью BERT

6 min

8.1K

Get me IT corporate blogMachine learning*Natural Language Processing*

Recovery Mode

Translation

Современные NLP-приложения, например, для анализа настроения, поиска ответов на вопросы, смарт-ассистенты и т. п., используют огромное количество данных. Такой объём данных можно напрямую передать в модель машинного обучения. Почти все текстовые приложения требуют большой предварительной обработки текстовых данных — создания вложенных векторов с нуля с использованием счётчика частоты слов. На это уходит много сил и времени. Чтобы избежать этого, для всех сложных задач предварительной обработки используются модели Transfer Learning. Им нужно просто передать необработанный текст, об остальном модель позаботится сама.

Небольшая ремарка. Данный материал является переводом, и мы не несем ответственности за факты, представленные автором в первоисточнике.

Ключевая тенденция рынка чат-ботов — это работа над эффективностью в определении намерений пользователя. Для себя мы поставили данную задачу во главе узла: нам критически важно сделать продукт удобным и практичным именно для разработчиков. Поэтому мы сейчас думаем о том, чтобы внедрить BERT в нашу работу. Технология для нас новая, мы читаем и переводим очень много информации по данному вопросу. Наиболее интересными материалами мы поделимся с вами в рамках данного блога.

В этой статье мы обсудим один из фреймворков трансферного обучения — BERT. Рассмотрим, как использовать модуль предварительной обработки BERT, чтобы создавать вложения слов без усилий. Основные моменты, которые будут рассмотрены в этой статье...

LinuxCertifiedInstructor Aug 31 2021 at 10:01

Многообразие Linux-дистрибутивов

Easy

54 min

162K

ГК ЛАНИТ corporate blogConfiguring Linux**nix*

FAQ

Цель этой статьи показать и объяснить многообразие дистрибутивов Линукс. Показать основные сходства (они же все почему то называются "Линуксы" или даже правильнее "GNU/Linux") и основные различия (если бы не было различий их бы столько не существовало).

Плюс рассмотрим несколько наиболее задаваемых новичками вопросов:
- Сколько их (Linux-дистрибутивов)? Зачем так много?
- Основанный на другом дистрибутиве" - не пиратство ли это?
- Платный Linux - Как можно продавать то, что по определению распространяется бесплатно?
- Что такое "отечественный Linux"?

+191

132

YuraDorn Jun 7 2021 at 16:34

«Работе с данными нельзя научить»: Александр Дьяконов для OzonMasters

15 min

7.8K

Ozon Tech corporate blogMathematics*Machine learning*Studying in IT

Поговорили с Александром Дьяконовым — преподавателем курса по машинному обучению OzonMasters и одним из самых известных специалистов по машинному обучению в России о старте карьеры в Data Science, соревнованиях и о своем опыте преподавания.

redhatrussia Jun 3 2021 at 14:35

Новые функции в Python 3.0, шпаргалка по grep, бесплатные онлайн-курсы и вторая часть Red Hat Summit Virtual Experience

2 min

Red Hat corporate blogStudying in ITCloud computing*Virtualization*Open source*

Image (c) Opensource.com

Новая порция инсайтов, мероприятий, книжек и шпаргалок. Оставайтесь с нами – станьте частью DevNation!

Читать дальше: Новые функции в...

mvideo May 25 2021 at 13:49

Слушаем 15 лучших ИТ-подкастов

5 min

44K

М.Видео-Эльдорадо corporate blogReading room

Один из признаков настоящего профи — интерес к выбранному делу и готовность узнавать новое, расширяя границы выбранной профессии. Это утверждение на 100% подходит к ИТ-индустрии, которая продолжает стремительно развиваться. Мы выбрали для вас 15 интересных подкастов на эту тему.

Читать дальше →

+45

MaxRokatansky May 20 2021 at 18:40

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

13 min

70K

OTUS corporate blogMachine learning*Python*

Translation

Если вы только собираетесь начать работу с визуализацией в Python, количество библиотек и решений вас определенно поразит:

- Matplotlib

- Seaborn

- Plotly

- Bokeh

- Altair

- Folium

Но какую из этих библиотек лучше выбрать для визуализации DataFrame? Некоторые библиотеки имеют больше преимуществ для использования в некоторых конкретных случаях. В этой статье приведены плюсы и минусы каждой из них. Прочитав эту статью, вы будете разбираться в функционале каждой библиотеки и будете способны подбирать для ваших потребностей оптимальную.

+19

4002 Nov 17 2015 at 09:48

Power Query: стероиды для MS Excel и Power BI

7 min

212K

Big Data*Data Mining*

В данной статье я хочу рассказать о некоторых возможностях бесплатной и крайне полезной, но пока еще мало известной надстройки над MS Excel под названием Power Query.

Power Query позволяет забирать данные из самых разных источников (таких как csv, xls, json, текстовых файлов, папок с этими файлами, самых разных баз данных, различных api вроде Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch и много чего еще), создавать повторяемые последовательности обработки этих данных и загружать их внутрь таблиц Excel или самого data model.

И вот под катом вы можете найти подробности всего этого великолепия возможностей.

Читать дальше →

+34

InlyIT Apr 8 2021 at 07:26

Обновление списка Top50: курс на рост

3 min

2.3K

InlyIT corporate blogHigh performance*Supercomputers

В конце марта вычислительный центр МГУ имени М.В. Ломоносова и Межведомственный Суперкомпьютерный Центр РАН в очередной, тридцать четвертый раз опубликовали рейтинг российских суперкомпьютеров, где представлена информация об отечественных машинах с наибольшими мощностями. Ниже вы найдете общую сводку изменений за прошедшие полгода.

Читать дальше →

DimaFromMai Mar 27 2021 at 17:06

Развертывание ML модели в Docker с использованием Flask (REST API) + масштабирование нагрузки через Nginx балансер

5 min

16K

DevOps*Flask*Nginx*Machine learning*Microservices*

Tutorial

Как известно настройка и обучение моделей машинного обучения это только одна из частей цикла разработки, не менее важной частью является развертывание модели для её дальнейшего использования. В этой статье я расскажу о том, как модель машинного обучения может быть развернута в виде Docker микросервиса, а также о том, как можно распараллелить работу микросервиса с помощью распределения нагрузки в несколько потоков через Load balancer. В последнее время Docker набрал большую популярность, однако здесь будет описан только один из видов стратегий развертывания моделей, и в каждом конкретном случае выбор лучшего варианта остаётся за разработчиком.

Читать дальше →

pxeno Mar 24 2021 at 11:23

Полное руководство по созданию Docker-образа для обслуживания системы машинного обучения в продакшене

8 min

18K

VK corporate blogMachine learning*

Translation

Команда Mail.ru Cloud Solutions перевела полное пошаговое руководство для создания образа Docker (GPU или CPU) вместе с объяснением всех передовых методов, которые следует использовать для обслуживания любого программного обеспечения на основе машинного обучения. Далее текст от лица автора.

Обычно создание Docker-образа считается простой задачей по сравнению с разработкой других компонентов системы машинного обучения, таких как конвейер данных, обучение модели, обслуживающая инфраструктура и т. д. Но неэффективный и громоздкий Docker-образ способен сильно понизить производительность или даже положить инфраструктуру.

Эта статья посвящена сборке идеального образа, а не рассмотрению его достоинств или применяемых в образе концепций. Я исхожу из того, что у вас есть базовые знания:

об общей работе Docker;
о том, как собирать и запускать Docker;
о создании и синтаксисе Dockerfile.

Читать дальше →

+34

volinski Mar 17 2021 at 18:02

MLOps без боли в облаке: как развернуть Kubeflow в продакшен-кластере Kubernetes

10 min

8.5K

VK corporate blogData Engineering*Kubernetes*DevOps*Machine learning*

Tutorial

Новые экспериментальные модели машинного обучения важно быстро разворачивать в продакшене, иначе данные устареют и появятся проблемы воспроизводимости экспериментов. Но не всегда это можно сделать быстро, так как часто процесс передачи модели от Data Scientist к Data Engineer плохо налажен. Эту проблему решает подход MLOps, но, чтобы его реализовать, нужны специальные инструменты, например Kubeflow.

При этом установка и настройка Kubeflow — довольно непростой процесс. Хотя существует официальная документация, она не описывает, как развернуть Kubeflow в продакшен-варианте, а не просто на тестовой локальной машине. Также в некоторых инструкциях встречаются проблемы, которые нужно обходить и искать их решения.

Я Александр Волынский, архитектор облачной платформы Mail.ru Cloud Solutions. В этой статье познакомлю вас с Kubeflow на базовом уровне и покажу, как его разворачивать. Мы не будем подробно знакомиться со всеми компонентами Kubeflow, потому что это выходит за рамки базового ознакомления.

+28

LinuxCertifiedInstructor Feb 24 2021 at 10:01

Использование быстрых клавиш в командной строке Linux (BASH)

14 min

97K

ГК ЛАНИТ corporate blogConfiguring Linux**nix*

Эта статья посвящена наиболее часто используемым комбинациям клавиш при работе в командной строке Linux (в основном в командном интерпретаторе bash).

Она точно будет полезна начинающим своё знакомство с Linux и, уверен, пригодится тем, кто уже имеет опыт (не всегда годы практики учат работать быстрее).

Никогда не развивал навыка быстрой печати, но знание не одного десятка hotkey'ев, перечисленных в этом материале, позволяет набирать команды со скоростью мысли.

Я попытался продемонстрировать многие примеры при помощи анимированных gif'ок – иногда несколько кадров больше скажут, чем несколько абзацев текста.

+141

dariazimina Oct 29 2020 at 10:26

Самые интересные идеи ИИ-проектов, поданные на Архипелаг 20.35

8 min

12K

Leader-ID corporate blogArtificial IntelligenceMachine learning*Product Management*Studying in IT

Воскресенье — последний день подачи заявок на наш акселератор ИИ-проектов Архипелаг 20.35. Сейчас в базе больше тысячи проектов разной стадии проработки и 13 тысяч участников, которые стоят за ними или пришли в одиночку, чтобы присоединиться к одной из команд.

Не дожидаясь окончания приема заявок, мы заглянули в их описания и обнаружили массу интересного — от роботов, играющих в шашки и го, до построения цифровых моделей социума. Под катом — подборка интересных идей и продуктов, которые мы там нашли.

Кстати, еще не поздно присоединиться: на первую ступень акселератора мы планируем взять 1000 стартапов, отсеяв из поданных нерелевантные.

Читать дальше →

+19

skillfactory_school Jul 7 2020 at 12:08

Чеклист для проекта по машинному обучению

5 min

5.9K

Skillfactory corporate blogStudying in ITProject management*Machine learning*

Translation

В этом посте я собрал чеклист, на который я постоянно ссылаюсь, работая над комплексным проектом по машинному обучению.

Зачем мне вообще нужен чеклист?

Поскольку вам необходимо иметь дело с многочисленными элементами проекта (подготовка, вопросы, модели, подстройка и т. д.), Легко потерять след. Он проведет вас через следующие шаги и подтолкнет вас к проверке, было ли выполнено каждое задание успешно или нет.

Иногда мы пытаемся найти отправную точку, чеклист помогает вам извлечь правильную информацию (данные) из правильных источников, чтобы установить отношения и раскрыть корреляционные идеи.

Рекомендуется, чтобы каждая часть проекта проходила парадигму проверок.

Как говорит Атул Гаванде в своей книге ”The Checklist Manifesto”,

объем и сложность того, что мы знаем, превзошли нашу индивидуальную способность правильно, безопасно и надежно предоставлять свои преимущества.
Итак, позвольте мне провести вас по этому четкому и краткому списку действий, которые уменьшат вашу рабочую нагрузку и улучшат ваши результаты…

Чеклист проектов по машинному обучению

Читать дальше →

DmitrySpb79 Jul 4 2020 at 23:13

Как сбросить вес, не занимаясь спортом? Личный опыт

9 min

177K

HealthLifehacks for geeksPopular science

Tutorial

Привет, Хабр!

По моим наблюдениям, всех людей можно разделить на три категории: счастливчиков с нормальным телосложением, худых, кто не знает как бы поправиться, и полных, кто не знает как бы похудеть. Мне угораздило попасть в третью категорию, и всю взрослую жизнь мой вес колебался в районе 95кг при росте 1.74м, что соответствует BMI=31.4 или ожирению. И хотя в принципе, это ничуть не мешало, но все же лишний вес накладывает определенные ограничения, как в перспективе состояния здоровья, так и в плане личной жизни. Наконец, в один прекрасный день я решил что «пора», и занялся этим вопросом более серьезно.

Думаю, среди IT-шников, работающих в офисе, немало людей с похожими проблемами, и надеюсь, мой опыт будет им полезен.

+122

590

Vszlo93 Jul 3 2020 at 19:27

9 ключевых алгоритмов машинного обучения простым языком

15 min

86K

Big Data*Algorithms*Machine learning*

From sandbox

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

ikryakin Jul 3 2020 at 10:06

MLOps — Cook book, chapter 1

10 min

10K

КРОК corporate blogDevOps*Python*Machine learning*Development Management*

Tutorial

Всем привет! Я CV-разработчик в КРОК. Уже 3 года мы реализуем проекты в области CV. За это время чего мы только не делали, например: мониторили водителей, чтобы во время движения они не пили, не курили, по телефону не разговаривали, смотрели на дорогу, а не сны или в облака; фиксировали любителей ездить по выделенным полосам и занимать несколько мест на парковке; следили за тем, чтобы работники носили каски, перчатки и т.п.; идентифицировали сотрудника, который хочет пройти на объект; подсчитывали всё, что только можно.

Я все это к чему?

В процессе реализации проектов мы набили шишки, много шишек, с частью проблем вы или знакомы, или познакомитесь в будущем.

Моделируем ситуацию

Представим, что мы устроились в молодую компанию “N”, деятельность которой связана с ML. Работаем мы над ML (DL, CV) проектом, потом по каким-либо причинам переключаемся на другую работу, в общем делаем перерыв, и возвращаемся к своей или чужой нейроночке.

Наступает момент истины, нужно как-то вспомнить на чем ты остановился, какие гиперпараметры пробовал и, самое главное, к каким результатам они привели.

Читать дальше →

+24

An_Zi Jul 2 2020 at 17:21

Что делать, если в вашей команде появился «эффективный» менеджер?

12 min

185K

Development Management*Project management*Product Management*

From sandbox

Пару лет назад друзья скинули очень забавный комикс под названием “Сова — эффективный менеджер”. Я посмеялась, подумала, что смешно, такого же не бывает, как классно утрированы ситуации. Но очень скоро этот комикс стал моей реальностью — в нашей команде появился он: “эффективный” менеджер, и стало не до смеха.

Итак, с этого момента начинается вызов для продакт/проджект менеджера и команды. В ходе этой истории все стороны понесли огромные потери: и инвестор, и продукт, и команда. Но главное, что из подобных ситуаций выход есть, а масштабы бедствия можно локализовать и сократить.

Читать дальше →

+242

266

ru_vds Jun 30 2020 at 12:12

Новичкам фондового рынка: честный разговор об акциях

17 min

131K

RUVDS.com corporate blogLifehacks for geeksFinance in IT

Tutorial

Телеграмму накатал:

«Шлите денег — отбатрачу,
Я их все прохохотал».

_{/В.Высоцкий/}

Тот, кто впервые выходит на фондовый рынок как частный инвестор, сразу думает о двух активах: акциях и валюте. Эти инструменты кажутся простыми и прозрачными. Но если бы всё было так просто, эту статью писал бы долларовый миллионер для долларовых миллионеров. Акции — инструмент коварный и крайне непростой, он требует профессионального подхода и не прощает ошибок. Это уже далеко не те случаи, которые показывают в захватывающих фильмах про биржевиков XX века — это фондовый рынок 2020. Даже первый шаг должен быть очень серьёзным.

Источник

Читать дальше →

+64

2 3 4