Search
Write a publication
Pull to refresh
126
0
Алексей @Sterhel

User

Send message

MLOps: как не потеряться в 10 тысячах фич, часть 1

Reading time4 min
Views29K

Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.

Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI). 

Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.

Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно. 

Читать далее

Как сделать видео на стриминге легче и не погрязнуть в шакалах: опыт Кинопоиска

Reading time13 min
Views7.2K

Привет! Меня зовут Михаил Мазанов, я отвечаю за технологический стек работы с медиаданными в Кинопоиске: от съёмок оригинальных проектов до доставки и просмотра видео на всех экранах. Для нашей пятой ежегодной конференции про стриминг PlayButton 2024 я готовил большой доклад про оптимизацию качества видео Кинопоиска, а для Хабра решил пересобрать его в виде статьи — для тех, кому текстовый формат предпочтительнее видео.

Кроме технических графиков, вас ждёт ещё и наглядная разница в работе алгоритмов сжатия на примере «Рика и Морти» и «Джона Уика».

Читать далее

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Level of difficultyMedium
Reading time5 min
Views7.1K

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

Читать далее

Как мы подбирали ключи. Внедрение мониторинга APM Ключ-Астром

Level of difficultyMedium
Reading time4 min
Views2.1K

Краткая справка: Ключ-Астром – система мониторинга класса АРМ (application performance monitoring). Штука платная, лицензируется по объему оперативной памяти на серверах приложений и по сессиям мобилок или веб-приложений.

Полезна для мониторинга работы приложений, под капотом ИИ, который оперативно перестраивает пороги и следит за серьезными изменениями, например, рост количества ошибок и ухудшение времени отклика операций. Также находит связь между событиями и объединяет их в проблемы, обозначая все затронутые ИТ-системы, стоящие на мониторинге. И указывает количество затронутых пользователей.

Используется для:

Сквозного транзакционного мониторинга
Поиска первопричины сбоя
Поиска узких мест
Поиска наиболее медленно выполняющейся операции в цепочке
Сбора клиентского пути (клиентского опыта)
Сравнению работы новых релизов с текущим PROD-ом.

Читать далее

Apache Flink: Flink Table API & SQL, часть 1

Level of difficultyMedium
Reading time5 min
Views6.5K

Привет! Меня зовут Александр Булатов, я старший инженер данных в Блоке Данных билайна. В этой серии статей я расскажу, как выглядит создание Source и Sink для Table API & SQL и как Table API взаимодействует с DataStream API.

Я работаю на проекте Radcom, в котором мы получаем данные о детализации звонков. И есть источник потоковых данных, которые мы получаем с Kafka. Таких потоков у нас внутри Radcom одиннадцать штук, и данные от них идут в формате csv. Формат не самый удобный для обработки, потому что он не имеет в себе схему — нам присылают просто голые строки csv, без какой-либо схемы, и нам нужно парсить эти строки относительно ее. 

В одном подобном потоке вполне может находиться сто миллиардов записей в сутки, а это со всех потоков почти семь терабайт в день. У нас в билайне это считается одним из самых больших потоков, которому требуется очень много ресурсов, в год с учетом репликации мы занимаем почти семь петабайт данных. 

Так вот, мы принимаем данные в csv и должны их сохранять в Hive в колоночных форматах, чтобы впоследствии аналитики и Data Scientists могли пользоваться этими данными. У нас принято использовать либо ORC, либо Parquet. Мы попробовали оба формата, пришли к Parquet. 

Читать далее

Искусство баланса: как совместить работу и хобби

Level of difficultyEasy
Reading time6 min
Views1K

Привет! Меня зовут Александр Кузьмичев, я эксперт по автоматизированному тестированию веб-приложений: помогаю ребятам строить автоматизацию и развиваю коммьюнити организации, разрабатывая стандарты проектов для поддержания оптимального баланса между рутиной (читай: соблюдением правил) и творчеством.

Школа Java в SM Lab

Первый поток по Java и автоматизации тестирования стартовал в декабре 2021 г. Школа создавалась для решения следующей задачи: максимально быстро погрузить ручных тестировщиков в программирование и дать им компетенции для разработки автотестов. Первый поток мы отчитали за 9 месяцев, второй, по записям первой, — за 6. Обе цифры оказались и для нас, и для студентов гигантскими, поэтому мы пришли к мысли, что нужны мини-курсы — эдакий шведский стол в мире образования, когда люди записываются на тот блок, который им интересен.

Каждый мини-курс достаточно информативен для того, чтобы новичок понял, нужен он ему или нет.

Читать далее

Многослойная архитектура FrontEnd-приложений на основании SOLID, часть 2

Level of difficultyMedium
Reading time6 min
Views11K

Итак, в предыдущем посте мы многое разложили по полочкам и разобрали проблемы кодовой базы. Осталось есть ощущение, будто что-то еще не так. Хочется чего-то более элегантного.

В этом посте подойдем к проблеме пошире и начнем с архитектуры. Вот для примера довольно стандартная архитектура.

Большинство нормально структурированных приложений придерживается ее высокоуровнево, но на деле она вас не особо ограничивает. Есть много сходств со стандартной MVC-архитектурой:

Читать далее

Мне просто нужен программист

Reading time3 min
Views23K

Недавно со мной связался один старый приятель, у него было ко мне предложение.

«Привет, я слышал, ты программист! Это отлично, потому что у меня и моего друга есть одна идея для бизнеса. Со всем важным мы разобрались, и нам просто нужен программист, чтобы соединить всё это вместе».

Поначалу кажется, что в этом заявлении нет ничего странного. Эти ребята знают, чего хотят от приложения, им «просто» нужны технические знания для его реализации. Поэтому подавив своё желание сказать нечто жёсткое, я придумал разумный ответ.

«Сейчас у меня есть несколько других проектов, но я всегда с радостью готов изучить что-то новое и посмотреть, подойдёт ли это мне. Если ты хочешь, чтобы это был просто обмен денег на труд, то чтобы заинтересовать меня, нужно примерно $X в час. С другой стороны, если у тебя нет капитала для стартапа и ты хочешь оплатить работу долей в бизнесе, то я хочу примерно X% от компании (и этот вариант, разумеется, будет зависеть от того, покажется ли мне бизнес жизнеспособным и интересным для моих вложений)».

На самом деле я не ожидал, что его заинтересуют подобные условия, но думал, что он сделает контроффер или, по крайней мере, покажет, что ему больше нравится сумма/доля Y, а не X. Однако его ответ меня немного удивил.
Читать дальше →

Многослойная архитектура FrontEnd-приложений на основании SOLID, часть 1

Level of difficultyMedium
Reading time6 min
Views9K

Представьте образ, отражающий содержимое репозитория вашего проекта. Если он похож на захламленный балкон, то, вероятно, вы разработчик среднестатистического проекта. Если вы хотите делать проект, в котором все разложено по полочкам, то нужно следить как за качеством кода каких-то конкретных сущностей, так и всей архитектуры в целом.

Но в основном сначала получается та самая картина с балконом.

Читать далее

Я – наставник. Фантастические люди и где они обитают

Reading time6 min
Views3.2K

Как бы я ни старалась развиваться в логистике, все равно рано или поздно переходила в IT. Я решила, что это знак: Иванова Татьяна = IT. 

Сейчас я старший аналитик 1С и PL продукта в IT-команде SM Lab. Мы работаем в блоке МУРИ (Модуль управления развития инфраструктуры) и занимаемся автоматизацией процессов бюджетирования вычислительных мощностей, планированием закупки и управлением распределения ресурсов.

Наставничество

Всем нам известно, что  наставничество это обучение личным примером, практическая передача знаний и навыков от опытного человека новичку.

Суть наставничества это подготовка и развитие человека для дальнейшего роста.

Читать далее

Фич и Баг: как геймификация и киберпанк помогают обучаться

Level of difficultyMedium
Reading time4 min
Views965

Привет! На связи Елена Платковская. В компании SM Lab я занимаюсь построением процессов и процедур для IT-команд.

Мы работаем по собственной методике. Если совсем коротко, то команды объединены в большие структуры-«поезда», которые «едут» по единым правилам и расписанию.

Читать далее

Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Level of difficultyMedium
Reading time7 min
Views3K

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и конвергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.  

Начнем с того, что мы понимаем под продажами ШПД и конвергенции. 

Читать далее

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Level of difficultyMedium
Reading time7 min
Views40K

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения. 

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты. 

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте. 

Но прежде всего давайте определим для чего нам это, в принципе, нужно.

Читать далее

От хаоса к инфраструктуре

Level of difficultyMedium
Reading time12 min
Views13K

Всем привет. Сегодня я хочу рассказать о том, как мы прошли наш путь от хаоса к нашим Paas внутри нашего внутреннего облака. Меня зовут Михаил Марченко, я руководитель центра компетенций, сопровождения и построения процессов разработки. Это наше подразделение, где мы сосредотачиваем экспертизу DevOps. В девопсе я уже семь лет, из них последние три года в билайне. 

В большой бренд билайна входят достаточно большое число юрлиц, такие как Вымпелком, Датафорт, который реализует публичное облако билайна, и другие. И мы поняли, что IT у нас абсолютно распределённая и существует во всех юрлицах, во всех подразделениях и во всех командах, которые внутри этих юридических лиц. И внутри Вымпелкома есть отдельное подразделение, которое  возглавляю я, в котором сосредоточена экспертиза DevOps, мы его называем "DevOps Governance".

Делим мы его на две части. 

Читать далее

ПОТРАЧЕНО. Как тестировать локализацию переводов, чтобы потом не было стыдно

Level of difficultyEasy
Reading time7 min
Views5.5K

Привет! Меня зовут Михаил Кургузов, я из отдела локализации и переводов SM Lab. В этом цикле постов я расскажу о локализации и ее интеграции в процесс тестирования ПО. 

Пост #1 (вы находитесь здесь) — общая вводная про локализация и интернационализацию, важные примеры, лингвистические ошибки и функциональные баги, особенности разных языков.

Пост #2 — особенности тестирования локализации, кто чем занимается, как проходит процесс.

Пост #3 — чеклист, лучшие практики, дополнительные материалы и много полезных примеров.

Начать хочу с пары историй. Например, всем известная Windows Vista очень сильно пострадала при выходе на японский рынок от некорректно выполненной локализации

Читать далее

Лучшее резюме из тех, что я видел

Level of difficultyEasy
Reading time5 min
Views109K

Позвольте мне рассказать историю о лучшем из виденных мною резюме облачного разработчика. В нём совершенно отсутствовал профессиональный опыт в ИТ, и оно было великолепным в том числе и поэтому. Но чтобы полностью передать всё великолепие этого резюме, мне нужно начать с самого начала. С неприятно пахнущего начала.

Вонючее начало


В момент начала пандемии COVID-19 Дэниелу Синглтери уже осточертела его работа. Работая сантехником в коммерческих и жилых зданиях Атланты, он в свои 11-часовые смены решал самые грязные и вонючие проблемы в стране.

Возьмём для примера день, когда ему позвонили с жалобой на неожиданный запах в торговом комплексе. Дэниел с коллегой отправились на место происшествия. Да, запах присутствовал, в этом не было никакой ошибки. Воняло канализацией, и очень жёстко.

Зайдя с целью разведки в туалеты, Дэниел заметил нечто странное: по низу помещений дул поток воздуха. Отодвинув унитаз, от отшатнулся: в нос ему ударил отвратительно пахнущий ветер. Позже он писал: «Представьте, что мощный насос подаёт вам в лицо канализационный газ». Это не просто необычно, такого просто не должно быть возможно.

Трубы канализации не выдувают воздух. Тем не менее, весь торговый центр превратился в газопровод.
Читать дальше →

Обход блокировки YouTube без VPN и GoodbyeDPI

Level of difficultyEasy
Reading time4 min
Views206K

Клешни постепенно сжимаются.
С момента замедления YouTube, по данным СМИ, его трафик для России снизился на 50%. Роскомнадзор активно блокирует VPN-сервисы.

Все больше блогеров переносят свои видео из YouTube на отечественные платформы, и вероятно, в ближайшие месяцы нас ожидает полная блокировка ресурса.
Лягушку медленно нагревают, давая ей время адаптироваться...

Что же делать?

Читать далее

Дашборд как инструмент взаимодействия с бизнесом

Level of difficultyEasy
Reading time6 min
Views5.9K

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками. 

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.

Читать далее

Знакомьтесь, «Незнакомое». Как мы сделали новый режим для Моей волны

Reading time8 min
Views8.6K

Привет! Меня зовут Савва Степурин, я старший разработчик в группе рекомендательных продуктов в Фантехе Яндекса. Сегодня расскажу вам про то, как мы сделали «Незнакомое» для Моей волны — специальный режим для активного поиска музыкальных открытий.

«Незнакомое» позволяет вам получать от Моей волны те треки, которые вы ещё не слушали (возможно, даже не знаете про их существование), но которые с большой долей вероятности могут попасть в ваши музыкальные предпочтения. Если Моя волна в чистом виде — это идеальный баланс между любимыми композициями и чем-то новым, то «Незнакомое» помогает выйти из музыкального информационного пузыря и послушать новые треки. 

Под катом — техническая эволюция «Незнакомого» от фильтра до отдельного продукта, описание новой модели ранжирования и многое другое.

Читать далее

Пара тупых ответов про эволюцию

Reading time9 min
Views66K


В школе я очень любил биологию, но у неё была очевидная проблема. Эволюция — суть жадный алгоритм, который мгновенно вознаграждает за небольшие улучшения. Тысячи лет постепенных улучшений, и вот перед вами утконос.

Проблема в том, что у него есть глаз. И другие сложные органы. А у тех же птиц есть крылья. И никакой жадный алгоритм не даёт понять, как можно тысячелетиями отращивать половинку крыла. Эта штука не просто не помогает, а откровенно мешает.

Крыло работает только тогда, когда целое. Половина крыла не даёт оторваться от земли.

Примерно такой же вопрос к сложным мутациям. Как так можно поменять пару букв в коде, чтобы он вдруг стал отлаженной библиотекой с чем-то полезным?

Ну или вот хвост павлина. Как можно развить такую длинную бесполезную штуку, которая люто нравится хищникам? Разве не должны были выжившие павлины стать ловкими и короткохвостыми?

Свои ответы я получил уже довольно поздно, но помню, как был рад их услышать. И наблюдая за идущим сейчас холиваром про теорию Дарвина, вижу много людей, которые задают те же самые вопросы.
Читать дальше →

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity