Статьи / Закладки / Профиль OLZ1 / Хабр

Олег Захаров @OLZ1

Senior data scientist

Профиль Публикации 5Комментарии 49Закладки 68

AlexeyNadezhin 27 сен 2021 в 19:41

Идеальная светодиодная лампа за 21 рубль

3 мин

79K

Блог компании LampTestГаджеты

Удивительно осознавать, что достаточно сложное электронное устройство, которым является светодиодная лампочка, может стоить 21 рубль.

Ещё сложнее поверить, что эта лампочка безукоризненна по всем параметрам.

Читать дальше →

+223

204

GetMeIT 25 сен 2021 в 16:32

Гид по предварительной обработке текста с помощью BERT

6 мин

8.1K

Блог компании Get me ITМашинное обучение*Natural Language Processing*

Recovery Mode

Перевод

Современные NLP-приложения, например, для анализа настроения, поиска ответов на вопросы, смарт-ассистенты и т. п., используют огромное количество данных. Такой объём данных можно напрямую передать в модель машинного обучения. Почти все текстовые приложения требуют большой предварительной обработки текстовых данных — создания вложенных векторов с нуля с использованием счётчика частоты слов. На это уходит много сил и времени. Чтобы избежать этого, для всех сложных задач предварительной обработки используются модели Transfer Learning. Им нужно просто передать необработанный текст, об остальном модель позаботится сама.

Небольшая ремарка. Данный материал является переводом, и мы не несем ответственности за факты, представленные автором в первоисточнике.

Ключевая тенденция рынка чат-ботов — это работа над эффективностью в определении намерений пользователя. Для себя мы поставили данную задачу во главе узла: нам критически важно сделать продукт удобным и практичным именно для разработчиков. Поэтому мы сейчас думаем о том, чтобы внедрить BERT в нашу работу. Технология для нас новая, мы читаем и переводим очень много информации по данному вопросу. Наиболее интересными материалами мы поделимся с вами в рамках данного блога.

В этой статье мы обсудим один из фреймворков трансферного обучения — BERT. Рассмотрим, как использовать модуль предварительной обработки BERT, чтобы создавать вложения слов без усилий. Основные моменты, которые будут рассмотрены в этой статье...

LinuxCertifiedInstructor 31 авг 2021 в 10:01

Многообразие Linux-дистрибутивов

Простой

54 мин

161K

Блог компании ГК ЛАНИТНастройка Linux**nix*

FAQ

Цель этой статьи показать и объяснить многообразие дистрибутивов Линукс. Показать основные сходства (они же все почему то называются "Линуксы" или даже правильнее "GNU/Linux") и основные различия (если бы не было различий их бы столько не существовало).

Плюс рассмотрим несколько наиболее задаваемых новичками вопросов:
- Сколько их (Linux-дистрибутивов)? Зачем так много?
- Основанный на другом дистрибутиве" - не пиратство ли это?
- Платный Linux - Как можно продавать то, что по определению распространяется бесплатно?
- Что такое "отечественный Linux"?

+191

132

YuraDorn 7 июн 2021 в 16:34

«Работе с данными нельзя научить»: Александр Дьяконов для OzonMasters

15 мин

7.8K

Блог компании Ozon TechМатематика*Машинное обучение*Учебный процесс в IT

Поговорили с Александром Дьяконовым — преподавателем курса по машинному обучению OzonMasters и одним из самых известных специалистов по машинному обучению в России о старте карьеры в Data Science, соревнованиях и о своем опыте преподавания.

redhatrussia 3 июн 2021 в 14:35

Новые функции в Python 3.0, шпаргалка по grep, бесплатные онлайн-курсы и вторая часть Red Hat Summit Virtual Experience

2 мин

Блог компании Red HatOpen source*Виртуализация*Облачные вычисления*Учебный процесс в IT

Image (c) Opensource.com

Новая порция инсайтов, мероприятий, книжек и шпаргалок. Оставайтесь с нами – станьте частью DevNation!

Читать дальше: Новые функции в...

mvideo 25 мая 2021 в 13:49

Слушаем 15 лучших ИТ-подкастов

5 мин

44K

Блог компании М.Видео-ЭльдорадоЧитальный зал

Один из признаков настоящего профи — интерес к выбранному делу и готовность узнавать новое, расширяя границы выбранной профессии. Это утверждение на 100% подходит к ИТ-индустрии, которая продолжает стремительно развиваться. Мы выбрали для вас 15 интересных подкастов на эту тему.

Читать дальше →

+45

MaxRokatansky 20 мая 2021 в 18:40

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

13 мин

70K

Блог компании OTUSМашинное обучение*Python*

Перевод

Если вы только собираетесь начать работу с визуализацией в Python, количество библиотек и решений вас определенно поразит:

- Matplotlib

- Seaborn

- Plotly

- Bokeh

- Altair

- Folium

Но какую из этих библиотек лучше выбрать для визуализации DataFrame? Некоторые библиотеки имеют больше преимуществ для использования в некоторых конкретных случаях. В этой статье приведены плюсы и минусы каждой из них. Прочитав эту статью, вы будете разбираться в функционале каждой библиотеки и будете способны подбирать для ваших потребностей оптимальную.

+19

4002 17 ноя 2015 в 09:48

Power Query: стероиды для MS Excel и Power BI

7 мин

211K

Big Data*Data Mining*

В данной статье я хочу рассказать о некоторых возможностях бесплатной и крайне полезной, но пока еще мало известной надстройки над MS Excel под названием Power Query.

Power Query позволяет забирать данные из самых разных источников (таких как csv, xls, json, текстовых файлов, папок с этими файлами, самых разных баз данных, различных api вроде Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch и много чего еще), создавать повторяемые последовательности обработки этих данных и загружать их внутрь таблиц Excel или самого data model.

И вот под катом вы можете найти подробности всего этого великолепия возможностей.

Читать дальше →

+34

InlyIT 8 апр 2021 в 07:26

Обновление списка Top50: курс на рост

3 мин

2.3K

Блог компании InlyITСуперкомпьютерыВысокая производительность*

В конце марта вычислительный центр МГУ имени М.В. Ломоносова и Межведомственный Суперкомпьютерный Центр РАН в очередной, тридцать четвертый раз опубликовали рейтинг российских суперкомпьютеров, где представлена информация об отечественных машинах с наибольшими мощностями. Ниже вы найдете общую сводку изменений за прошедшие полгода.

Читать дальше →

DimaFromMai 27 мар 2021 в 17:06

Развертывание ML модели в Docker с использованием Flask (REST API) + масштабирование нагрузки через Nginx балансер

5 мин

16K

Микросервисы*Машинное обучение*Nginx*Flask*DevOps*

Туториал

Как известно настройка и обучение моделей машинного обучения это только одна из частей цикла разработки, не менее важной частью является развертывание модели для её дальнейшего использования. В этой статье я расскажу о том, как модель машинного обучения может быть развернута в виде Docker микросервиса, а также о том, как можно распараллелить работу микросервиса с помощью распределения нагрузки в несколько потоков через Load balancer. В последнее время Docker набрал большую популярность, однако здесь будет описан только один из видов стратегий развертывания моделей, и в каждом конкретном случае выбор лучшего варианта остаётся за разработчиком.

Читать дальше →

pxeno 24 мар 2021 в 11:23

Полное руководство по созданию Docker-образа для обслуживания системы машинного обучения в продакшене

8 мин

18K

Блог компании VKМашинное обучение*

Перевод

Команда Mail.ru Cloud Solutions перевела полное пошаговое руководство для создания образа Docker (GPU или CPU) вместе с объяснением всех передовых методов, которые следует использовать для обслуживания любого программного обеспечения на основе машинного обучения. Далее текст от лица автора.

Обычно создание Docker-образа считается простой задачей по сравнению с разработкой других компонентов системы машинного обучения, таких как конвейер данных, обучение модели, обслуживающая инфраструктура и т. д. Но неэффективный и громоздкий Docker-образ способен сильно понизить производительность или даже положить инфраструктуру.

Эта статья посвящена сборке идеального образа, а не рассмотрению его достоинств или применяемых в образе концепций. Я исхожу из того, что у вас есть базовые знания:

об общей работе Docker;
о том, как собирать и запускать Docker;
о создании и синтаксисе Dockerfile.

Читать дальше →

+34

volinski 17 мар 2021 в 18:02

MLOps без боли в облаке: как развернуть Kubeflow в продакшен-кластере Kubernetes

10 мин

8.5K

Блог компании VKData Engineering*Kubernetes*DevOps*Машинное обучение*

Туториал

Новые экспериментальные модели машинного обучения важно быстро разворачивать в продакшене, иначе данные устареют и появятся проблемы воспроизводимости экспериментов. Но не всегда это можно сделать быстро, так как часто процесс передачи модели от Data Scientist к Data Engineer плохо налажен. Эту проблему решает подход MLOps, но, чтобы его реализовать, нужны специальные инструменты, например Kubeflow.

При этом установка и настройка Kubeflow — довольно непростой процесс. Хотя существует официальная документация, она не описывает, как развернуть Kubeflow в продакшен-варианте, а не просто на тестовой локальной машине. Также в некоторых инструкциях встречаются проблемы, которые нужно обходить и искать их решения.

Я Александр Волынский, архитектор облачной платформы Mail.ru Cloud Solutions. В этой статье познакомлю вас с Kubeflow на базовом уровне и покажу, как его разворачивать. Мы не будем подробно знакомиться со всеми компонентами Kubeflow, потому что это выходит за рамки базового ознакомления.

+28

LinuxCertifiedInstructor 24 фев 2021 в 10:01

Использование быстрых клавиш в командной строке Linux (BASH)

14 мин

96K

Блог компании ГК ЛАНИТНастройка Linux**nix*

Эта статья посвящена наиболее часто используемым комбинациям клавиш при работе в командной строке Linux (в основном в командном интерпретаторе bash).

Она точно будет полезна начинающим своё знакомство с Linux и, уверен, пригодится тем, кто уже имеет опыт (не всегда годы практики учат работать быстрее).

Никогда не развивал навыка быстрой печати, но знание не одного десятка hotkey'ев, перечисленных в этом материале, позволяет набирать команды со скоростью мысли.

Я попытался продемонстрировать многие примеры при помощи анимированных gif'ок – иногда несколько кадров больше скажут, чем несколько абзацев текста.

+141

dariazimina 29 окт 2020 в 10:26

Самые интересные идеи ИИ-проектов, поданные на Архипелаг 20.35

8 мин

12K

Блог компании Leader-IDУчебный процесс в ITУправление продуктом*Машинное обучение*Искусственный интеллект

Воскресенье — последний день подачи заявок на наш акселератор ИИ-проектов Архипелаг 20.35. Сейчас в базе больше тысячи проектов разной стадии проработки и 13 тысяч участников, которые стоят за ними или пришли в одиночку, чтобы присоединиться к одной из команд.

Не дожидаясь окончания приема заявок, мы заглянули в их описания и обнаружили массу интересного — от роботов, играющих в шашки и го, до построения цифровых моделей социума. Под катом — подборка интересных идей и продуктов, которые мы там нашли.

Кстати, еще не поздно присоединиться: на первую ступень акселератора мы планируем взять 1000 стартапов, отсеяв из поданных нерелевантные.

Читать дальше →

+19

skillfactory_school 7 июл 2020 в 12:08

Чеклист для проекта по машинному обучению

5 мин

5.9K

Блог компании SkillfactoryУчебный процесс в ITУправление проектами*Машинное обучение*

Перевод

В этом посте я собрал чеклист, на который я постоянно ссылаюсь, работая над комплексным проектом по машинному обучению.

Зачем мне вообще нужен чеклист?

Поскольку вам необходимо иметь дело с многочисленными элементами проекта (подготовка, вопросы, модели, подстройка и т. д.), Легко потерять след. Он проведет вас через следующие шаги и подтолкнет вас к проверке, было ли выполнено каждое задание успешно или нет.

Иногда мы пытаемся найти отправную точку, чеклист помогает вам извлечь правильную информацию (данные) из правильных источников, чтобы установить отношения и раскрыть корреляционные идеи.

Рекомендуется, чтобы каждая часть проекта проходила парадигму проверок.

Как говорит Атул Гаванде в своей книге ”The Checklist Manifesto”,

объем и сложность того, что мы знаем, превзошли нашу индивидуальную способность правильно, безопасно и надежно предоставлять свои преимущества.
Итак, позвольте мне провести вас по этому четкому и краткому списку действий, которые уменьшат вашу рабочую нагрузку и улучшат ваши результаты…

Чеклист проектов по машинному обучению

Читать дальше →

DmitrySpb79 4 июл 2020 в 23:13

Как сбросить вес, не занимаясь спортом? Личный опыт

9 мин

177K

Туториал

Привет, Хабр!

По моим наблюдениям, всех людей можно разделить на три категории: счастливчиков с нормальным телосложением, худых, кто не знает как бы поправиться, и полных, кто не знает как бы похудеть. Мне угораздило попасть в третью категорию, и всю взрослую жизнь мой вес колебался в районе 95кг при росте 1.74м, что соответствует BMI=31.4 или ожирению. И хотя в принципе, это ничуть не мешало, но все же лишний вес накладывает определенные ограничения, как в перспективе состояния здоровья, так и в плане личной жизни. Наконец, в один прекрасный день я решил что «пора», и занялся этим вопросом более серьезно.

Думаю, среди IT-шников, работающих в офисе, немало людей с похожими проблемами, и надеюсь, мой опыт будет им полезен.

+122

590

Vszlo93 3 июл 2020 в 19:27

9 ключевых алгоритмов машинного обучения простым языком

15 мин

86K

Big Data*Алгоритмы*Машинное обучение*

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

ikryakin 3 июл 2020 в 10:06

MLOps — Cook book, chapter 1

10 мин

10K

Блог компании КРОКDevOps*Python*Машинное обучение*Управление разработкой*

Туториал

Всем привет! Я CV-разработчик в КРОК. Уже 3 года мы реализуем проекты в области CV. За это время чего мы только не делали, например: мониторили водителей, чтобы во время движения они не пили, не курили, по телефону не разговаривали, смотрели на дорогу, а не сны или в облака; фиксировали любителей ездить по выделенным полосам и занимать несколько мест на парковке; следили за тем, чтобы работники носили каски, перчатки и т.п.; идентифицировали сотрудника, который хочет пройти на объект; подсчитывали всё, что только можно.

Я все это к чему?

В процессе реализации проектов мы набили шишки, много шишек, с частью проблем вы или знакомы, или познакомитесь в будущем.

Моделируем ситуацию

Представим, что мы устроились в молодую компанию “N”, деятельность которой связана с ML. Работаем мы над ML (DL, CV) проектом, потом по каким-либо причинам переключаемся на другую работу, в общем делаем перерыв, и возвращаемся к своей или чужой нейроночке.

Наступает момент истины, нужно как-то вспомнить на чем ты остановился, какие гиперпараметры пробовал и, самое главное, к каким результатам они привели.

Читать дальше →

+24

An_Zi 2 июл 2020 в 17:21

Что делать, если в вашей команде появился «эффективный» менеджер?

12 мин

185K

Управление продуктом*Управление проектами*Управление разработкой*

Из песочницы

Пару лет назад друзья скинули очень забавный комикс под названием “Сова — эффективный менеджер”. Я посмеялась, подумала, что смешно, такого же не бывает, как классно утрированы ситуации. Но очень скоро этот комикс стал моей реальностью — в нашей команде появился он: “эффективный” менеджер, и стало не до смеха.

Итак, с этого момента начинается вызов для продакт/проджект менеджера и команды. В ходе этой истории все стороны понесли огромные потери: и инвестор, и продукт, и команда. Но главное, что из подобных ситуаций выход есть, а масштабы бедствия можно локализовать и сократить.

Читать дальше →

+242

266

ru_vds 30 июн 2020 в 12:12

Новичкам фондового рынка: честный разговор об акциях

17 мин

131K

Блог компании RUVDS.comЛайфхаки для гиковФинансы в IT

Туториал

Телеграмму накатал:

«Шлите денег — отбатрачу,
Я их все прохохотал».

_{/В.Высоцкий/}

Тот, кто впервые выходит на фондовый рынок как частный инвестор, сразу думает о двух активах: акциях и валюте. Эти инструменты кажутся простыми и прозрачными. Но если бы всё было так просто, эту статью писал бы долларовый миллионер для долларовых миллионеров. Акции — инструмент коварный и крайне непростой, он требует профессионального подхода и не прощает ошибок. Это уже далеко не те случаи, которые показывают в захватывающих фильмах про биржевиков XX века — это фондовый рынок 2020. Даже первый шаг должен быть очень серьёзным.

Источник

Читать дальше →

+64

2 3 4