Articles / Bookmarks / Profile of Sterhel / Habr

How to become an author

Алексей @Sterhel

User

ProfileArticles222PostsNewsComments3.1K

Beeline_tech Dec 21 2024 at 13:21

MLOps: как не потеряться в 10 тысячах фич, часть 1

4 min

29K

билайн corporate blogArtificial IntelligenceDevOps*Big Data*Machine learning*

Tutorial

Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.

Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI).

Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.

Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно.

Читать далее

+15

zarin Dec 20 2024 at 09:30

Как сделать видео на стриминге легче и не погрязнуть в шакалах: опыт Кинопоиска

13 min

7.2K

Яндекс corporate blogData compression*High performance*Algorithms*Working with video*

Привет! Меня зовут Михаил Мазанов, я отвечаю за технологический стек работы с медиаданными в Кинопоиске: от съёмок оригинальных проектов до доставки и просмотра видео на всех экранах. Для нашей пятой ежегодной конференции про стриминг PlayButton 2024 я готовил большой доклад про оптимизацию качества видео Кинопоиска, а для Хабра решил пересобрать его в виде статьи — для тех, кому текстовый формат предпочтительнее видео.

Кроме технических графиков, вас ждёт ещё и наглядная разница в работе алгоритмов сжатия на примере «Рика и Морти» и «Джона Уика».

Читать далее

+39

Nina_Feshchenko Dec 9 2024 at 17:19

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Medium

5 min

7.1K

билайн corporate blogMachine learning*Statistics in ITBig Data*

Tutorial

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

Читать далее

+14

Iga_mr Dec 5 2024 at 11:05

Как мы подбирали ключи. Внедрение мониторинга APM Ключ-Астром

Medium

4 min

2.1K

Московский кредитный банк corporate blogIT-companiesSystem administration*DevOps*IT Infrastructure*

Retrospective

Краткая справка: Ключ-Астром – система мониторинга класса АРМ (application performance monitoring). Штука платная, лицензируется по объему оперативной памяти на серверах приложений и по сессиям мобилок или веб-приложений.

Полезна для мониторинга работы приложений, под капотом ИИ, который оперативно перестраивает пороги и следит за серьезными изменениями, например, рост количества ошибок и ухудшение времени отклика операций. Также находит связь между событиями и объединяет их в проблемы, обозначая все затронутые ИТ-системы, стоящие на мониторинге. И указывает количество затронутых пользователей.

Используется для:

• Сквозного транзакционного мониторинга
• Поиска первопричины сбоя
• Поиска узких мест
• Поиска наиболее медленно выполняющейся операции в цепочке
• Сбора клиентского пути (клиентского опыта)
• Сравнению работы новых релизов с текущим PROD-ом.

Читать далее

+4

Beeline_tech Dec 3 2024 at 19:26

Apache Flink: Flink Table API & SQL, часть 1

Medium

5 min

6.5K

билайн corporate blogIT Infrastructure*Apache*Data storage*Programming*

Tutorial

Привет! Меня зовут Александр Булатов, я старший инженер данных в Блоке Данных билайна. В этой серии статей я расскажу, как выглядит создание Source и Sink для Table API & SQL и как Table API взаимодействует с DataStream API.

Я работаю на проекте Radcom, в котором мы получаем данные о детализации звонков. И есть источник потоковых данных, которые мы получаем с Kafka. Таких потоков у нас внутри Radcom одиннадцать штук, и данные от них идут в формате csv. Формат не самый удобный для обработки, потому что он не имеет в себе схему — нам присылают просто голые строки csv, без какой-либо схемы, и нам нужно парсить эти строки относительно ее.

В одном подобном потоке вполне может находиться сто миллиардов записей в сутки, а это со всех потоков почти семь терабайт в день. У нас в билайне это считается одним из самых больших потоков, которому требуется очень много ресурсов, в год с учетом репликации мы занимаем почти семь петабайт данных.

Так вот, мы принимаем данные в csv и должны их сохранять в Hive в колоночных форматах, чтобы впоследствии аналитики и Data Scientists могли пользоваться этими данными. У нас принято использовать либо ORC, либо Parquet. Мы попробовали оба формата, пришли к Parquet.

Читать далее

+18

smlab_stories Dec 3 2024 at 11:48

Искусство баланса: как совместить работу и хобби

Easy

6 min

1K

SM Lab corporate blogJava*IT careerStudying in ITPersonnel Management*

Case

Привет! Меня зовут Александр Кузьмичев, я эксперт по автоматизированному тестированию веб-приложений: помогаю ребятам строить автоматизацию и развиваю коммьюнити организации, разрабатывая стандарты проектов для поддержания оптимального баланса между рутиной (читай: соблюдением правил) и творчеством.

Школа Java в SM Lab

Первый поток по Java и автоматизации тестирования стартовал в декабре 2021 г. Школа создавалась для решения следующей задачи: максимально быстро погрузить ручных тестировщиков в программирование и дать им компетенции для разработки автотестов. Первый поток мы отчитали за 9 месяцев, второй, по записям первой, — за 6. Обе цифры оказались и для нас, и для студентов гигантскими, поэтому мы пришли к мысли, что нужны мини-курсы — эдакий шведский стол в мире образования, когда люди записываются на тот блок, который им интересен.

Каждый мини-курс достаточно информативен для того, чтобы новичок понял, нужен он ему или нет.

Читать далее

+7

Beeline_tech Nov 29 2024 at 17:48

Многослойная архитектура FrontEnd-приложений на основании SOLID, часть 2

Medium

6 min

11K

билайн corporate blogProgramming*Perfect code*ReactJS*

Tutorial

Итак, в предыдущем посте мы многое разложили по полочкам и разобрали проблемы кодовой базы. Осталось есть ощущение, будто что-то еще не так. Хочется чего-то более элегантного.

В этом посте подойдем к проблеме пошире и начнем с архитектуры. Вот для примера довольно стандартная архитектура.

Большинство нормально структурированных приложений придерживается ее высокоуровнево, но на деле она вас не особо ограничивает. Есть много сходств со стандартной MVC-архитектурой:

Читать далее

+18

JustJeremy Nov 29 2024 at 10:08

Мне просто нужен программист

3 min

23K

SM Lab corporate blogDevelopment Management*Personnel Management*Programming*IT career

Opinion

Translation

Недавно со мной связался один старый приятель, у него было ко мне предложение.

«Привет, я слышал, ты программист! Это отлично, потому что у меня и моего друга есть одна идея для бизнеса. Со всем важным мы разобрались, и нам просто нужен программист, чтобы соединить всё это вместе».

Поначалу кажется, что в этом заявлении нет ничего странного. Эти ребята знают, чего хотят от приложения, им «просто» нужны технические знания для его реализации. Поэтому подавив своё желание сказать нечто жёсткое, я придумал разумный ответ.

«Сейчас у меня есть несколько других проектов, но я всегда с радостью готов изучить что-то новое и посмотреть, подойдёт ли это мне. Если ты хочешь, чтобы это был просто обмен денег на труд, то чтобы заинтересовать меня, нужно примерно $X в час. С другой стороны, если у тебя нет капитала для стартапа и ты хочешь оплатить работу долей в бизнесе, то я хочу примерно X% от компании (и этот вариант, разумеется, будет зависеть от того, покажется ли мне бизнес жизнеспособным и интересным для моих вложений)».

На самом деле я не ожидал, что его заинтересуют подобные условия, но думал, что он сделает контроффер или, по крайней мере, покажет, что ему больше нравится сумма/доля Y, а не X. Однако его ответ меня немного удивил.

Читать дальше →

+62

Beeline_tech Nov 22 2024 at 13:25

Многослойная архитектура FrontEnd-приложений на основании SOLID, часть 1

Medium

6 min

9K

билайн corporate blogReactJS*Perfect code*Programming*

Tutorial

Представьте образ, отражающий содержимое репозитория вашего проекта. Если он похож на захламленный балкон, то, вероятно, вы разработчик среднестатистического проекта. Если вы хотите делать проект, в котором все разложено по полочкам, то нужно следить как за качеством кода каких-то конкретных сущностей, так и всей архитектуры в целом.

Но в основном сначала получается та самая картина с балконом.

Читать далее

+19

IvanovaTS2401 Nov 21 2024 at 12:09

Я – наставник. Фантастические люди и где они обитают

6 min

3.2K

SM Lab corporate blogPersonnel Management*Studying in ITIT-companies

Opinion

Как бы я ни старалась развиваться в логистике, все равно рано или поздно переходила в IT. Я решила, что это знак: Иванова Татьяна = IT.

Сейчас я старший аналитик 1С и PL продукта в IT-команде SM Lab. Мы работаем в блоке МУРИ (Модуль управления развития инфраструктуры) и занимаемся автоматизацией процессов бюджетирования вычислительных мощностей, планированием закупки и управлением распределения ресурсов.

Наставничество

Всем нам известно, что наставничество — это обучение личным примером, практическая передача знаний и навыков от опытного человека новичку.

Суть наставничества — это подготовка и развитие человека для дальнейшего роста.

Читать далее

+4

Elena_Platkovskaja Nov 19 2024 at 12:15

Фич и Баг: как геймификация и киберпанк помогают обучаться

Medium

4 min

965

SM Lab corporate blogIT-companiesPersonnel Management*Product Management*Project management*

Case

Привет! На связи Елена Платковская. В компании SM Lab я занимаюсь построением процессов и процедур для IT-команд.

Мы работаем по собственной методике. Если совсем коротко, то команды объединены в большие структуры-«поезда», которые «едут» по единым правилам и расписанию.

Читать далее

+3

Nina_Feshchenko Nov 15 2024 at 12:00

Прогнозирование продаж с использованием библиотеки Prophet, часть 1

Medium

7 min

3K

билайн corporate blogStatistics in ITBig Data*Machine learning*

Tutorial

Прогнозирование можно считать одной из основных задач аналитика. Прогноз продаж, оттока, выручки, затрат – всех основных KPI развития бизнеса – может потребоваться где и когда угодно, начиная от небольших ad hoc кейсов до масштабных задач вроде процесса бюджетирования на предстоящий год.

Меня зовут Нина Фещенко, я работаю в команде аналитики продаж FTTB-FMC (или иначе – ШПД и конвергентных продуктов) Билайн. В данной статье мы рассмотрим прогнозирование продаж FTTB-FMC для целей ежедневной отчетности.

Начнем с того, что мы понимаем под продажами ШПД и конвергенции.

Читать далее

+7

Beeline_tech Nov 1 2024 at 09:07

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Medium

7 min

40K

билайн corporate blogBig Data*Data storage*

Tutorial

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения.

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты.

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте.

Но прежде всего давайте определим для чего нам это, в принципе, нужно.

Читать далее

+8

Beeline_tech Oct 24 2024 at 15:59

От хаоса к инфраструктуре

Medium

12 min

13K

билайн corporate blogDevOps*Information Security*IT Infrastructure*Kubernetes*

Case

Всем привет. Сегодня я хочу рассказать о том, как мы прошли наш путь от хаоса к нашим Paas внутри нашего внутреннего облака. Меня зовут Михаил Марченко, я руководитель центра компетенций, сопровождения и построения процессов разработки. Это наше подразделение, где мы сосредотачиваем экспертизу DevOps. В девопсе я уже семь лет, из них последние три года в билайне.

В большой бренд билайна входят достаточно большое число юрлиц, такие как Вымпелком, Датафорт, который реализует публичное облако билайна, и другие. И мы поняли, что IT у нас абсолютно распределённая и существует во всех юрлицах, во всех подразделениях и во всех командах, которые внутри этих юридических лиц. И внутри Вымпелкома есть отдельное подразделение, которое возглавляю я, в котором сосредоточена экспертиза DevOps, мы его называем "DevOps Governance".

Делим мы его на две части.

Читать далее

+13

nattramnrussia Oct 10 2024 at 11:11

ПОТРАЧЕНО. Как тестировать локализацию переводов, чтобы потом не было стыдно

Easy

7 min

5.5K

SM Lab corporate blogWeb services testing*Language localisation*IT-companiesInterfaces*

Tutorial

Привет! Меня зовут Михаил Кургузов, я из отдела локализации и переводов SM Lab. В этом цикле постов я расскажу о локализации и ее интеграции в процесс тестирования ПО.

Пост #1 (вы находитесь здесь) — общая вводная про локализация и интернационализацию, важные примеры, лингвистические ошибки и функциональные баги, особенности разных языков.

Пост #2 — особенности тестирования локализации, кто чем занимается, как проходит процесс.

Пост #3 — чеклист, лучшие практики, дополнительные материалы и много полезных примеров.

Начать хочу с пары историй. Например, всем известная Windows Vista очень сильно пострадала при выходе на японский рынок от некорректно выполненной локализации

Читать далее

+10

JustJeremy Oct 5 2024 at 09:11

Лучшее резюме из тех, что я видел

Easy

5 min

109K

SM Lab corporate blogCloud services*Personnel Management*Studying in IT

Case

Translation

Позвольте мне рассказать историю о лучшем из виденных мною резюме облачного разработчика. В нём совершенно отсутствовал профессиональный опыт в ИТ, и оно было великолепным в том числе и поэтому. Но чтобы полностью передать всё великолепие этого резюме, мне нужно начать с самого начала. С неприятно пахнущего начала.

Вонючее начало

В момент начала пандемии COVID-19 Дэниелу Синглтери уже осточертела его работа. Работая сантехником в коммерческих и жилых зданиях Атланты, он в свои 11-часовые смены решал самые грязные и вонючие проблемы в стране.

Возьмём для примера день, когда ему позвонили с жалобой на неожиданный запах в торговом комплексе. Дэниел с коллегой отправились на место происшествия. Да, запах присутствовал, в этом не было никакой ошибки. Воняло канализацией, и очень жёстко.

Зайдя с целью разведки в туалеты, Дэниел заметил нечто странное: по низу помещений дул поток воздуха. Отодвинув унитаз, от отшатнулся: в нос ему ударил отвратительно пахнущий ветер. Позже он писал: «Представьте, что мощный насос подаёт вам в лицо канализационный газ». Это не просто необычно, такого просто не должно быть возможно.

Трубы канализации не выдувают воздух. Тем не менее, весь торговый центр превратился в газопровод.

Читать дальше →

+65

zhirnoov Oct 4 2024 at 02:31

Обход блокировки YouTube без VPN и GoodbyeDPI

Easy

4 min

206K

Network technologies*Information Security*Cloud services*Development for Android*

Клешни постепенно сжимаются.
С момента замедления YouTube, по данным СМИ, его трафик для России снизился на 50%. Роскомнадзор активно блокирует VPN-сервисы.

Все больше блогеров переносят свои видео из YouTube на отечественные платформы, и вероятно, в ближайшие месяцы нас ожидает полная блокировка ресурса.
Лягушку медленно нагревают, давая ей время адаптироваться...

Что же делать?

Читать далее

+28

Beeline_tech Oct 2 2024 at 09:27

Дашборд как инструмент взаимодействия с бизнесом

Easy

6 min

5.9K

билайн corporate blogData visualization*System Analysis and Design*Statistics in ITBig Data*

Case

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.

Читать далее

+16

savastep Sep 25 2024 at 07:02

Знакомьтесь, «Незнакомое». Как мы сделали новый режим для Моей волны

8 min

8.6K

Яндекс corporate blogAlgorithms*Machine learning*Sound

✏️ Technotext 7

Привет! Меня зовут Савва Степурин, я старший разработчик в группе рекомендательных продуктов в Фантехе Яндекса. Сегодня расскажу вам про то, как мы сделали «Незнакомое» для Моей волны — специальный режим для активного поиска музыкальных открытий.

«Незнакомое» позволяет вам получать от Моей волны те треки, которые вы ещё не слушали (возможно, даже не знаете про их существование), но которые с большой долей вероятности могут попасть в ваши музыкальные предпочтения. Если Моя волна в чистом виде — это идеальный баланс между любимыми композициями и чем-то новым, то «Незнакомое» помогает выйти из музыкального информационного пузыря и послушать новые треки.

Под катом — техническая эволюция «Незнакомого» от фильтра до отдельного продукта, описание новой модели ранжирования и многое другое.

Читать далее

+67

Milfgard Sep 23 2024 at 13:46

Пара тупых ответов про эволюцию

9 min

66K

Popular scienceBiology

В школе я очень любил биологию, но у неё была очевидная проблема. Эволюция — суть жадный алгоритм, который мгновенно вознаграждает за небольшие улучшения. Тысячи лет постепенных улучшений, и вот перед вами утконос.

Проблема в том, что у него есть глаз. И другие сложные органы. А у тех же птиц есть крылья. И никакой жадный алгоритм не даёт понять, как можно тысячелетиями отращивать половинку крыла. Эта штука не просто не помогает, а откровенно мешает.

Крыло работает только тогда, когда целое. Половина крыла не даёт оторваться от земли.

Примерно такой же вопрос к сложным мутациям. Как так можно поменять пару букв в коде, чтобы он вдруг стал отлаженной библиотекой с чем-то полезным?

Ну или вот хвост павлина. Как можно развить такую длинную бесполезную штуку, которая люто нравится хищникам? Разве не должны были выжившие павлины стать ловкими и короткохвостыми?

Свои ответы я получил уже довольно поздно, но помню, как был рад их услышать. И наблюдая за идущим сейчас холиваром про теорию Дарвина, вижу много людей, которые задают те же самые вопросы.

Читать дальше →

+337

2

3 4 ...