Articles / Bookmarks / Profile of ervin-x / Habr

How to become an author

Data Scientist

Profile Publications 2Comments 5Bookmarks 201

ivan_bragin Jul 8 2022 at 08:17

Оптимизация сервинга нейросетей

10 min

4.4K

ОК corporate blogData Engineering*Python*

Я работаю ML-инженером в OK и последнее время занимался оптимизацией скорости инференса нейросетей, поэтому сегодня расскажу о них. И не просто о нейросетях, а о нейросетях в продакшене.

Читать далее

+18

NewTechAudit Aug 27 2022 at 07:57

Визуализация данных с помощью фреймворка Dash (часть 3)

4 min

5.9K

Python*Programming*Data visualization*

Привет, Хабр! Я расскажу о трех опциональных, но довольно полезных инструментах фреймворка dash, которые сделают ваш dashbord показательным и интерактивным.

Читать далее

0

edyanakov Aug 26 2022 at 11:14

Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения

12 min

7.6K

Альфа-Банк corporate blogBig Data*Machine learning*Data Engineering*

Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих оценок очень мало содержательных текстовых комментариев, а самый популярных среди них (за 2021 год) — «Вопрос не решен!»

Чтобы решить эту проблему, Альфа-Банк собирает дополнительно до 500 тысяч отзывов в год. Этим занимается команда по сохранению лояльности клиентов: обзванивает клиентов, которые поставили негативную оценку, подробно их опрашивает, и старается решить проблему клиента на звонке, формируя свой экспертный отзыв.

Накапливаемые данные практически невозможно анализировать в ручном режиме в полном объеме, но можно сократить объем труда за счет машинного обучения. О том, как мы помогли оптимизировать процесс вычитки с помощью суммаризации на основе тематических моделей и будет эта статья.

Читать далее

+19

mr-pickles Aug 29 2022 at 12:05

Логирование в Python: руководство разработчика

13 min

196K

Wunder Fund corporate blogWebsite development*Python*Programming*

Translation

Сталкивались ли вы с трудностями при отладке Python-кода? Если это так — то изучение того, как наладить логирование (журналирование, logging) в Python, способно помочь вам упростить задачи, решаемые при отладке.

Если вы — новичок, то вы, наверняка, привыкли пользоваться командой print(), выводя с её помощью определённые значения в ходе работы программы, проверяя, работает ли код так, как от него ожидается. Использование print() вполне может оправдать себя при отладке маленьких Python-программ. Но, когда вы перейдёте к более крупным и сложным проектам, вам понадобится постоянный журнал, содержащий больше информации о поведении вашего кода, помогающий вам планомерно отлаживать и отслеживать ошибки.

Из этого учебного руководства вы узнаете о том, как настроить логирование в Python, используя встроенный модуль logging. Вы изучите основы логирования, особенности вывода в журналы значений переменных и исключений, разберётесь с настройкой собственных логгеров, с форматировщиками вывода и со многим другим.

Вы, кроме того, узнаете о том, как Sentry Python SDK способен помочь вам в мониторинге приложений и в упрощении рабочих процессов, связанных с отладкой кода. Платформа Sentry обладает нативной интеграцией со встроенным Python-модулем logging, и, кроме того, предоставляет подробную информацию об ошибках приложения и о проблемах с производительностью, которые в нём возникают.

Читать далее

+20

Artezio_team Sep 6 2022 at 10:01

Последствия пандемии в ИТ: удаленка, зарплаты, вакансии

7 min

17K

ГК ЛАНИТ corporate blogRemote workPersonnel Management*Project management*

Про последствия пандемии для ИТ-компаний как-то не принято говорить. Считается, что среди других бизнесов именно программная разработка была лучше всего подготовлена к разобщению мира, закрытым границам и массовому выносу стульев, мониторов и ноутбуков для надомного труда. И первое время, пока вирус косил один бизнес за другим, казалось, что ИТ-сфера справляется с современными вызовами лучше всех. Спрос на программную разработку вырос, но вместе с ним обострилась проблема нехватки кадров, стали разогреваться зарплаты разработчиков, а удаленка постепенно утратила свой шарм. Пандемия сильнее ударила по ИТ, чем кажется. Мы попросили представителей индустрии рассказать о ключевых трендах двух пандемийных лет: что хорошего и плохого появилось в ИТ-индустрии из-за пандемии и могут ли стать произошедшие изменения необратимыми.

Читать далее

+73

kkalmutskiy Jun 30 2022 at 09:00

«Скоро приедем?»: как оценить время в пути

13 min

8.5K

2ГИС corporate blogAlgorithms*Geoinformation services*Big Data*Machine learning*

В этом году мы много работали над качеством предсказания времени в пути (ETA) в навигаторе 2ГИС и на 30% увеличили количество маршрутов, у которых прогнозное время совпадает с реальным с точностью до минуты. Меня зовут Кирилл, я Data Scientist в 2ГИС, и я расскажу, как максимально точно рассчитывать время прибытия из точки А в точку Б в условиях постоянного изменения дорожной ситуации.

Поговорим про то, как мы постепенно меняли подходы к оценке времени в пути: от простой аддитивной модели до использования ML-моделей прогноза пробок и корректировки ETA. Ввели Traversal Time на смену GPS-скоростей, а ещё проводили эксперименты и оценивали качество изменений алгоритма, чистили мусор из данных и закатывали модели в продакшн. Обо всём по порядку.

Читать далее

+17

fom_alex Aug 18 2022 at 10:01

10 антилайфхаков удаленки

4 min

30K

ГК ЛАНИТ corporate blogRemote workLifehacks for geeks

В 2022 году удаленная работа кажется настолько обыденной, что не вызывает никакого удивления. Но в начале 2020 года об удаленке многие, в том числе и авторы статьи, только мечтали (давно и много). Переход к такому формату оказался менее радужным, чем наши мечты. Выяснилось, что коммуникация по проекту с коллегами на удаленке может превратиться в квест, особенно если коллеги слишком увлечены домашними делами.

В блоге ЛАНИТ мы хотим поделиться своими наблюдениями и представляем ТОП-10 антилайфхаков удаленки. Итак, вот что точно не стоить делать, работая дистанционно.

Читать далее

+96

GKasatkin Aug 9 2022 at 10:01

Технология разработки оптимальных составов жаропрочных сплавов

9 min

9.5K

ГК ЛАНИТ corporate blogPopular sciencePhysicsChemistry

В телепередачах и кинофильмах мы часто видим эффектный взлет истребителей в ночное небо, как из сопла двигателей рвется раскаленное пламя с температурой выше 1100 градусов и не задумываемся, какие же материалы могут работать в этой раскаленной среде. Такие металлические сплавы существуют, и разработка их началась еще в 30-е годы прошлого века. Сегодня в блоге ЛАНИТ я расскажу о некоторых вариантах разработки составов таких сплавов.

Читать далее

+64

lanit_team Aug 11 2022 at 10:26

Cемь фильмов о цифровом мире на фестивале Doker

3 min

1.7K

ГК ЛАНИТ corporate blogArtificial Intelligence

С 15 по 24 августа в Москве в восьмой раз пройдет международный фестиваль документального кино «Докер». С 2016 года ЛАНИТ поддерживает «Докер» и вместе с оргкомитетом проводит единственный в мире конкурс фильмов об информационных технологиях – «Let IT dok!».

В этом году документалисты продолжают исследовать и фиксировать, что происходит с нашей жизнью, в которую все глубже проникают цифровые технологии. В этой статье мы подробнее расскажем о каждом фильме-финалисте программы «Let IT dok!». Увидеть их на большом экране можно будет в кинотеатре «Октябрь» на Новом Арбате в дни проведения фестиваля.

Читать далее

+16

boygenius Feb 14 2022 at 13:30

Проблемы современного машинного обучения

41 min

43K

Open Data Science corporate blogMachine learning*Popular scienceArtificial IntelligenceNatural Language Processing*

Technotext 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

Читать далее

+102

Picard Jul 8 2022 at 19:49

Как писать преобразователи данных в Sklearn

7 min

9.6K

Skillfactory corporate blogPython*Programming*Machine learning*

Tutorial

Translation

Сегодня разбираемся, как создавать собственные преобразователи Sklearn, позволяющие интегрировать практически любую функцию или преобразование данных в классы конвейера Sklearn. Подробности под катом к старту флагманского курса по Data Science.

Читать далее

+2

Jul 11 2022 at 10:49

Ищем кротовые норы с помощью big data

1 min

17K

VK corporate blogBig Data*Data Engineering*

Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую ~~и по приемлемой цене~~ — чтобы забронировать телепортацию.

В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.

Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!

Пройти тест

+41

DELTA37 Jul 15 2022 at 15:25

Обучение алгоритма генерации текста на основе высказываний философов и писателей

7 min

4.7K

Machine learning*Data Engineering*

Tutorial

Наверняка вы мечтали поговорить с великим философом: задать ему вопрос о своей жизни, узнать его мнение или просто поболтать. В наше время это возможно за счет чат-ботов, которые поддерживают диалог, имитируя манеру общения живого человека. Подобные чат-боты создаются благодаря технологиям обработки естественного языка и генерации текста. Уже сейчас существуют обученные модели, которые неплохо справляются с данной задачей.

В этой статье я расскажу о своем опыте обучения алгоритма генерации текста, основанного на высказываниях великих личностей. В датасете для обучения модели используются цитаты десяти известных философов, писателей и ученых.

Читать далее

+2

empenoso Jun 22 2020 at 05:26

Скрипт выборки российских облигаций по параметрам

6 min

30K

API*JavaScript*Node.JS*Data visualization*Finance in IT

Уже несколько лет я пользуюсь облигациями в качестве замены депозита, потому что процент дохода, который можно получить со вклада стабильно падает. В отличии от ситуации с депозитом, в облигациях всегда можно найти большую доходность. И в этой ситуации меня не устраивало только количество времени на механическую работу по поиску подходящих вариантов бумаг.

Работа скрипта по поиску облигаций на Московской бирже

Так как сервисов по поиску российских облигаций много, но ни один из них не имеет достаточной гибкости и простоты и поэтому на работу с ними тратится достаточно много времени. Исходя из этого и решил разработать собственный скрипт для поиска облигаций.

Сделал это на Node.js с выводом полученных результатов в локальный html файл с интерактивной таблицей от Google Charts (а в случае, если JavaScript отключен в браузере, что например происходит при открытии этого html файла из мессенджера на iPhone, то отображается статическая версия таблицы, также сгенерированная скриптом).

Поиски замены вклада на Мосбирже

+45

yorko Jun 30 2022 at 16:01

Эй-Яй, крипта, MLOps и командный пет-проджект

16 min

10K

Open Data Science corporate blogOpen source*Data Mining*Machine learning*Project management*

В этой статье я расскажу, как мы командой пилили пет-проджект в рамках курса ODS по MLOps. Покажу не только финальный результат, но и немного расскажу про процесс работы, какие были сложности, как организовывали эффективную работу в команде. Может оказаться полезным для тех, кто хочет окунуться в Machine Learning и сделать свой пет-проджект, но пока чего-то не хватало. Также будет полезно тем, кто уже работает в области Data Science, но пока не окунулся в атмосферу DS, нет крутых коллег и разгвооров про фреймворки у кофемашины, а опыт командной работы именно в области DS получить хочется.

Сразу про то, что получилось на выходе: https://cryptobarometer.org/

Читать далее

+22

SpeechTechML Jul 1 2022 at 21:25

Персонифицированные чат боты. Краткое руководство разработчика

9 min

6.4K

ITMO corporate blogMachine learning*Natural Language Processing*

Tutorial

В этой статье мы поговорим о ранжирующих (retrieval) моделях диалоговых систем, и методах их персонификации.

Данный текст не является подробной и всеобъемлющей, пошаговой инструкцией по созданию диалогового агента и не претендует на большую научную ценность. Эта статья, скорее, представляет собой краткий обзор существующих методов и инструментов, применяющихся в наши дни и единственная ее задача - заинтересовать читателя и дать начальное представление о такого рода моделях оставив большой простор для собственных экспериментов.

Краткий список всего необходимого: базовое знания Python и PyTorch (если вы являетесь адептом TensorFlow, не пугайтесь, здесь будут показаны общие приемы, которые легко реализовать в других библиотеках), желательно знание библиотеки transformers, а также полезным будет минимальный опыт написания ботов для telegram (это, совершенно, не обязательно, ведь, с ботом можно общаться и в терминале) Ну что ж если вы готовы, то мы отправляемся в наше небольшое путешествие по миру диалоговых моделей.

Читать далее

+10

b1rt Jul 12 2022 at 10:01

Законы мира информационных технологий

5 min

26K

ГК ЛАНИТ corporate blogProgramming*Development Management*Project management*

Technotext 2022

Всем известный закон Мёрфи гласит: «Если что-то плохое может случиться, то оно обязательно произойдет». Согласитесь, не самая позитивная установка, особенно когда это касается работы. И тут мне стало любопытно, а есть ли такие законы, которые мне, как ИТ-специалисту, максимально помогут избежать «чего-то плохого». К своему удивлению, я их нашел, и даже не один. Потому делюсь с вами сегодня своими сакральными знаниями в блоге ЛАНИТ.

Читать далее

+146

arlol Jul 5 2022 at 12:09

Идея о «печатном станке»: системные алгоритмы на рынке спортивных событий

8 min

4.7K

Finance in ITStart-up developmentMathematics*Algorithms*

Традиционно рынок спортивных событий воспринимается обществом весьма негативно. Принято считать, что какой-либо заработок в этой области маловероятен или невозможен вовсе, а мат. аппарат в лице теории вероятностей и математической статистики представляет мало интереса с точки зрения эффективного для заработка применения.

В какой-то мере такая позиция является обоснованной, ведь эффективность исследования этого рынка напрямую определяется пониманием, достичь которого не так просто. Сегодня мы с вами рассмотрим рынок спортивных событий под абсолютно новым углом, сделав акцент на системности и распределениях, а за одним и узнаем, при чём же здесь печатный станок.

Читать дальше →

+1

mr-pickles Jun 21 2022 at 11:05

Обучение с подкреплением: сети Deep Q

5 min

6.8K

Wunder Fund corporate blogProgramming*Algorithms*Machine learning*

Translation

В предыдущих материалах из этой серии мы рассказали о том, что такое обучение с подкреплением (Reinforcement learning, RL), поговорили о том, почему это важно, разобрались с математическим аппаратом, используемым для создания RL-агентов.

Читать далее

+16

mr-pickles Jun 27 2022 at 12:07

Обучение с подкреплением: практические рекомендации по обучению сетей Deep Q

5 min

5.1K

Wunder Fund corporate blogMachine learning*Algorithms*Programming*

Translation

В предыдущем материале из этой серии мы рассказали о сетях Deep Q (Deep Q Network, DQN) и написали алгоритм их обучения на псевдокоде. Хотя такие сети, в принципе, работоспособны, практическая реализация алгоритмов обучения с подкреплением (Reinforcement Learning, RL), выполняемая без понимания их ограничений, может вести к нестабильности создаваемых систем и к плохим результатам обучения. В этом материале мы обсудим два важных ограничения, две проблемы, способных привести к нестабильности Q-обучения. Мы поговорим и о том, как, на практике, решать эти проблемы. Вспомните о том, что уравнение Беллмана связывает, с помощью рекурсии, Q-функции для текущего и следующего временных шагов.

Читать далее

+13

2

3 4 ...