Search
Write a publication
Pull to refresh
0
@nowhereboyread⁠-⁠only

User

Send message

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

Reading time16 min
Views51K
В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

  • Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
  • Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
  • Как исследовать влияние гиперпараметров модели LightGBM на её производительность.


Давайте начнём

Простой Telegram-бот на Python за 30 минут

Reading time4 min
Views1.4M
На Хабре, да и не только, про ботов рассказано уже так много, что даже слишком. Но заинтересовавшись пару недель назад данной темой, найти нормальный материал у меня так и не вышло: все статьи были либо для совсем чайников и ограничивались отправкой сообщения в ответ на сообщение пользователя, либо были неактуальны. Это и подтолкнуло меня на написание статьи, которая бы объяснила такому же новичку, как я, как написать и запустить более-менее осмысленного бота (с возможностью расширения функциональности).

Читать дальше →

Взрывная FoodTech-инновация в Кыргызстане: автоматизация доставки в сельском магазине

Reading time4 min
Views7.2K

Привет! Меня зовут Максим Павлов, я управляющий партнёр KTS.

Этой осенью я и другие основатели KTS оказались в кыргызском пансионате с ближайшим продуктовым магазином в двух километрах. Нам быстро надоело тратить час на дорогу за чипсами: в статье рассказываю, как всего за пару дней мы создали местный сервис доставки.

Читать далее

42 оператора расширенного поиска Google (полный список)

Reading time15 min
Views330K
Те, кто давно занимается поисковой оптимизацией, хорошо знают об операторах расширенного поиска Google. Например, почти все знают об операторе site:, который ограничивает поисковую выдачу одним сайтом.

Большинство операторов легко запомнить, это короткие команды. Но уметь эффективно их использовать — совсем другая история. Многие специалисты знают основы, но немногие по-настоящему овладели этими командами.

В этой статье я поделюсь советами, которые помогут освоить поисковые операторы для 15 конкретных задач.
Читать дальше →

Краткое введение в MLOps

Reading time6 min
Views5K

Возможно, вы слышали, что 90% моделей ML не добираются до стадии продакшена. На самом деле, любой человек из сферы ИТ знает, что внедрение ПО в продакшен — долгий и сложный процесс. Однако с того момента, как люди впервые написали условный оператор, происходили постоянные совершенствования процессов, способов разработки, развёртывания и обслуживания. Это привело к появлению процессов и инструментов, называемых DevOps. Сегодня они стали неотъемлемой частью практически любой компании, создающей серьёзное ПО, будь то в игровой, производственной, финансовой или медицинской отрасли. По этой теме написаны сотни, если не тысячи веб-страниц и статей.

Однако в последние годы в мире появилось новое подмножество типов ПО, а именно системы на основе AI. Они используют существенно отличающийся подход к решению задач, основанный на статистике, вероятности и, что самое важное, большом объёме данных. Это создаёт новые сложности, которые невозможно эффективно устранять при помощи стандартных методологий DevOps (потому что процессы тем или иным образом различаются). Многие компании, пытавшиеся использовать их, потерпели поражение.
Читать дальше →

Цифровое хомячество и цифровой минимализм — противоположные концепции и стили жизни

Reading time7 min
Views23K
Отбракованные фотографии на блошином рынке средней школы Фэрфакса, Калифорния. Иллюстрация из статьи про вещизм и скопидомство в Los Angeles Times (2014 год)

Имея в своём распоряжении петабайтные диски, появляется соблазн сохранять абсолютно всё. Все интересные фильмы и музыку, которые мы видели и слышали, семейные видео и фото. Прочитанные книги, написанный код. Письма, полученные и отправленные. Документы, мысли, заметки в Obsidian или Evernote (система типа «второй мозг»). Действительно, зачем удалять хоть один файл, если места хватает?

Противоположный подход — изначально ограничивать себя в потреблении информации, игр, фильмов, любого контента, чтобы не захламлять диск (и сознание) ненужной информацией. И хранить только самое лучшее, в минимальном количестве.
Читать дальше →

Фракталы, порожденные zeta-функцией

Reading time2 min
Views7.8K

В своей последней статье я попытался создать фрактал, порожденный простыми числами. Но он меня не очень устроил эстетически. Поэтому я решил воспользоваться zeta функцией Римана для создания фракталов.

Будет много картинок и мало формул!

Читать далее

FeatureWeek: как мы повысили вовлеченность команды и заполнили бэклог

Reading time9 min
Views5.6K

Привет! Я Саша Пургина, руководитель отдела развития data-продуктов в Lamoda. В этой статье хочу рассказать, как мы использовали экспертизу разных команд для генерации 200+ новых гипотез и сплотили весь отдел вокруг решения пользовательских проблем.

Статья будет полезна продактам, проджектам и лидам команд, которые ищут варианты роста вовлеченности коллег на базе продуктовых вопросов в условиях удаленной работы и без больших затрат. В конце вас ждет чек-лист и шаблон презентации, чтобы было проще реализовать похожую идею у себя.

Кому статья точно НЕ будет полезна: компаниям, которые не готовы брать гипотезы от разработки и других отделов в продуктовый бэклог для проверки и реализации.

Читать далее

Мирно пашущий подводный трактор

Reading time4 min
Views15K
image

Услышав фамилию «Рено» абсолютное большинство читателей сразу же вспомнит соответствующую марку автомобилей. Многие вспомнят известного актёра Жана Рено. Но вот американского конструктора Джесса Уилфорда Рено скорее всего мало кто назовёт.
А ведь самым известным его изобретением жители столиц пользуются ежедневно и по несколько раз, да и все остальные тоже нередко.
Читать дальше →

Разбор Memory Forensics с OtterCTF и знакомство с фреймворком Volatility

Level of difficultyMedium
Reading time25 min
Views40K

Привет, Хабр!


Недавно закончился OtterCTF (для интересующихся — ссылка на ctftime), который в этом году меня, как человека, достаточно плотно связанного с железом откровенно порадовал — была отдельная категория Memory Forensics, которая, по сути, представляла из себя анализ дампа оперативной памяти. Именно ее я хочу разобрать в этом посте, всем кому интересно — добро пожаловать под кат.

Читать дальше →

PostgreSQL Antipatterns: простой(?) INSERT… VALUES

Reading time3 min
Views18K

Представим, что у вас есть некоторая табличка статистики, куда вы периодически скидываете таймстамп последнего "текущего" состояния в паре координат - например, (ID организации, ID сотрудника).

Как больно наступить на грабли в совсем простом, казалось бы, запросе?

Читать далее

Каким должен быть Feature Store, чтобы оптимизировать работу с ML-моделями

Reading time6 min
Views7.9K

В работе с данными для обучения нейросетей много рутины: под каждую ML-модель нужно создать датасет, потом «вычеркнуть» лишние признаки (фичи) и протестировать точность предсказаний. Иногда при изменении датасета нужно собирать данные по новой. Это неудобно, если нужно переиспользовать уже собранные фичи для обучения новых моделей. Чтобы оптимизировать работу с данными, ML-инженеры объединили разные практики и сформировали парадигму Feature Store.

По мотивам выступления Артёма Глазкова (@Allront), ведущего эксперта MLOps в Polymatica, рассказываем о том, что нужно бизнесу от Feature Store сегодня, и разбираем архитектуру «эталонного» решения. Подробности под катом.
Читать дальше →

Чему мы научились после того, как я случайно уничтожил продуктивную базу данных

Reading time9 min
Views34K

«Собственно, б***ь, вот…», думал я, пока в телефонной трубке звучали длинные гудки. Я звонил своему боссу — не сомневаюсь, этим ясным пятничным утром он только и мечтал услышать, как его старший разработчик только что своими руками, не нарочно, удалил базу данных бэк-офиса.

Гудки напомнили мне писк больничной аппаратуры — когда монитор отмеряет последние пульсы умирающего больного. В данном случае, речь шла о моей карьере. Наконец, трубку на том конце кто-то снял. Мне оставалось уповать лишь на мудрость моего начальника. В глубине души я верил, что, выслушав меня, он произнесет какую-нибудь вдохновляющую речь, после которой я найду в себе силы всё исправить. Но он сказал: «Как это, мать твою, вообще случилось?!».

Что ж, сейчас я расскажу вам, как.

Читать далее

Почему я перешёл на фултайм в НКО

Reading time6 min
Views32K

Привет, Хабр!

Люди, обладающие практическими навыками в сфере IT, востребованы в некоммерческом секторе все сильнее. В ОВД-Инфо, независимом правозащитном проекте, спрос на таких людей постоянно растет. В своей работе мы применяем много интересных инструментов и технологий, некоторые из которых разрабатываем сами, например, наш самый известный сервис — правовой бот для помощи задержанным OvdInfoBot. Мы считаем IT одной из своих важных и сильных составляющих.

Меня зовут Костя, я представляю IT-команду ОВД-Инфо, и начиная с этой статьи мы с коллегами хотим делиться с сообществом нашей внутренней технической кухней, разработками и практиками, которые мы используем, чтобы получить полезную критику и привлечь к нашему и другим некоммерческим проектам дополнительную экспертизу.

Начать хочется с личной истории — расскажу вам о том, как случился крутой поворот в моей карьере и как решение стать участником IT-команды ОВД-Инфо изменило мою жизнь к лучшему.

Читать далее

Как я бесплатно издал книгу: мой путь, мои ошибки

Reading time6 min
Views6.8K

Всем привет! Недавно вышла моя книга и в тематических постах мне задавали вопросы насчет издания книги и что я для этого сделал. Попробую описать свой путь (именно мой, без претензии на истину в последней инстанции), подвести итоги и дать осторожные рекомендации.

Читать далее

Инженерия данных != инженерия ПО

Reading time13 min
Views5.9K

В последние годы мы видим, как инженерия данных всё больше сливается с индустрией DevOps. В обоих этих направлениях для доставки надёжных цифровых продуктов клиентам используется облачная инфраструктура, контейнеризация, CI/CD и GitOps. Это схождение в плане использования одного набора инструментов заставило многих думать, что инженерия данных не имеет значительных отличий от инженерии программного обеспечения. Как следствие, первая оказывается «несовершенной», поскольку дата-инженеры отстают с внедрением эффективных практик разработки ПО.

Но такая оценка ошибочна. Несмотря на то что в обработке данных и разработке ПО используется много общих инструментов и практик, между ними есть ряд существенных отличий. Игнорирование этих отличий и управление командой дата-инженеров по аналогии с командой разработки ПО является ошибкой. Так что цель данной статьи – подчеркнуть некоторые уникальные проблемы в инженерии данных и пояснить, почему в этой области иногда требуется особый подход.
Читать дальше →

Orange Pi OS: операционная система от создателей конкурента Raspberry Pi. Возможности ОС

Reading time3 min
Views35K

Мы не раз и не два публиковали обзоры одноплатников, в число которых входили и представители линейки Orange Pi. Эти устройства выделяются на фоне многих других — не сказать, что они идеальны, но соотношение цена/качество неплохое. Сегодня, правда, поговорим не об одноплатниках, а программном обеспечении для них. Дело в том, что появилась вполне функциональная ОС, которая получила название Orange Pi OS. Интересно то, что есть несколько версий этой операционной системы, которые базируются на Arch Linux, Android и платформе Open Harmony. Подробности — под катом.
Читать дальше →

«Кто согласовал такую фигню?» — будни переговорщиков из IT

Reading time8 min
Views14K

Привет, Хабр! Я работаю исполнительным директором в HFLabs, а до того, как им стать, больше восьми лет занимался продажами в B2B. Моя первая сделка началась с того, что меня позвали на переговоры с вице-президентом банка. Я подумал: не с моей же рожей к вице-президентам ходить. И позвал взрослых — генерального. В день встречи утром он мне позвонил и сказал, что я уже готов к таким встречам и могу смело идти один. Было страшно.

Так вот, лето, жара, погода изматывающая. Приходит вице-президент и начинает разговор примерно так: «Вот видите во дворе Audi стоят? Я их все купил со скидкой 60%. Так что и вам придется нас услышать». Но вся штука была в том, что я уже успел по этому проекту дать скидку 30%. И это был хороший жизненный урок: скидку я дал вообще не тому человеку — он не был тем самым ЛПР. Я не разобрался в процессе и даже не спросил, кто и как будет решать по сделке. Пришлось в итоге каждый пункт коммерческого предложения объяснять, каждую строчку сметы. Например, написано у нас тестирование 2 дня. А клиент мне в ответ — зачем два, давайте один день будете тестировать!..

Дальше расскажу, какие еще истории у нас случались на переговорах и вокруг них. 

Читать далее

Information

Rating
Does not participate
Registered
Activity