Articles / Bookmarks / Profile of savvadesogle / Habr

@savvadesogle

User

Profile Publications Comments 32Bookmarks 235

Jungles Dec 23 2024 at 19:14

Пишем свой PyTorch на NumPy. Часть 1

Easy

16 min

5.8K

Python*Machine learning*Programming*

Tutorial

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

+38

antonaleks605 Jun 27 2024 at 13:33

Непреодолимая легкость повышения утилизации GPU

12 min

Selectel corporate blogIT Infrastructure*IT-companiesHigh performance*Machine learning*

Привет, Хабр! Я Антон, DevOps-инженер в Selectel. В апреле у нас проходил ML-митап, где я и мой коллега, ML-Ops инженер Ефим Головин, рассказали, как подбираем конфигурацию ML-инфраструктуры и повышаем утилизацию GPU. Запись нашего выступления можно посмотреть на YouTube. Материал вышел интересным, поэтому мы решили оформить пересказ в текстовый формат.

В этой статье вы узнаете, как перенести лучшие практики из мира производства в сферу машинного обучения, подобрать конфигурацию вычислительной инфраструктуры под ML-нагрузки и максимально эффективно ее использовать. Впереди много интересного, так что давайте начнем!

Читать дальше →

+43

artur_sosnovikov Jul 28 2023 at 16:22

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Medium

11 min

18K

Точка corporate blogArtificial IntelligenceMachine learning*Algorithms*

Review

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

+17

jularina Jun 8 2021 at 17:09

Методы сбора ансамблей алгоритмов машинного обучения: стекинг, бэггинг, бустинг

5 min

34K

Big Data*Machine learning*

Ансамбль - это просто несколько алгоритмов машинного обучения, собранных в единое целое. Такой подход часто используется для того, чтобы усилить "положительные качества" отдельно взятых алгоритмов, которые сами по себе могут работать слабо, а вот в группе - ансамбле давать хороший результат. При использовании ансамблевых методов алгоритмы учатся одновременно и могут исправлять ошибки друг друга. Типичными примерами методов, направленных на объединение "слабых" учеников в группу сильных являются стекинг, бэггинг, бустинг, которые и будут рассмотрены далее.

Ananiev_Genrih Dec 20 2019 at 15:18

EDA под другим углом

10 min

22K

R*Data visualization*

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.

Читать дальше →

a-pichugin Mar 6 2018 at 12:59

Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?

6 min

27K

New Professions Lab corporate blogBig Data*Data Mining*Data visualization*Machine learning*

Привет, Хабр! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне признаков, среди которых может быть множество зашумленных и/или линейно зависимых, от них нам, конечно, хотелось бы избавиться. Наконец, уменьшение размерности пространства значительно ускоряет обучение моделей, а все мы знаем, что время — это наш самый ценный ресурс.

UMAP (Uniform Manifold Approximation and Projection) — это новый алгоритм уменьшения размерности, библиотека с реализацией которого вышла совсем недавно. Авторы алгоритма считают, что UMAP способен бросить вызов современным моделям снижения размерности, в частности, t-SNE, который на сегодняшний день является наиболее популярным. По результатам их исследований, у UMAP нет ограничений на размерность исходного пространства признаков, которое необходимо уменьшить, он намного быстрее и более вычислительно эффективен, чем t-SNE, а также лучше справляется с задачей переноса глобальной структуры данных в новое, уменьшенное пространство.

В данной статье мы постараемся разобрать, что из себя представляет UMAP, как настраивать алгоритм, и, наконец, проверим, действительно ли он имеет преимущества перед t-SNE.

Читать дальше →

+20

frickelangelo Jul 24 2019 at 09:48

BTRFS для самых маленьких

22 min

147K

Veeam Software corporate blog*nix*Open source*Data recovery*Backup*

Доброго времени суток, Хабравчане. Я работаю в компании Veeam Software и являюсь одним из разработчиков нашего решения для бэкапа линукс систем. По роду занятий мне довелось столкнуться с BTRFS. Совсем недавно она перешла из статуса «еще не пригодно» в статус «стабильна». И пока её первые пользователи в сети обсуждали проблемные места и вопросы стабильности, мы в Veeam тыкали её палочкой и пытались бэкапить. Получалось, мягко говоря, не очень — слишком уж она другая, не похожая на традиционные файловые системы. Пришлось изучить немало аспектов и собрать множество граблей, прежде чем научились с ней работать. В процессе изучения BTRFS сумела произвести на меня впечатление как в хорошем смысле, так и не очень. Уверен, она не оставит равнодушным ни одного айтишника из мира линукс: одни будут плеваться, другие восхвалять.

Если вы слышали об этой файловой системе, но не знаете, зачем она, интересуетесь подробностями или ищете, с чего начать знакомство с ней — приглашаю под кат.

Читать дальше →

+30

FFormula Jul 16 2021 at 12:01

Теория графов. Термины и определения в картинках

5 min

214K

OTUS corporate blogAlgorithms*

В этой статье мы познакомимся с основными терминами и определениями Теории графов. Каждый термин схематично показан на картинках.

Граф - это топологичекая модель, которая состоит из множества вершин и множества соединяющих их рёбер. При этом значение имеет только сам факт, какая вершина с какой соединена.

Теория графов

+16

VolKarev Oct 25 2018 at 17:49

Бэкдоры в микрокоде ассемблерных инструкций процессоров x86

6 min

69K

Assembler*Information Security*Computer hardwareCPU

Софту мы не доверяем уже давно, и поэтому осуществляем его аудит, проводим обратную инженерию, прогоняем в пошаговом режиме, запускаем в песочнице. Что же насчёт процессора, на котором выполняется наш софт? – Мы слепо и беззаветно доверяем этому маленькому кусочку кремния. Однако современное железо имеет те же самые проблемы, что и софт: секретную недокументированную функциональность, ошибки, уязвимости, малварь, трояны, руткиты, бэкдоры.

ISA (Instruction Set Architecture) x86 – одна из самых долгих непрерывно изменяющихся «архитектур набора команд» в истории. Начиная с дизайна 8086, разработанного в 1976 году, ISA претерпевает постоянные изменения и обновления; сохраняя при этом обратную совместимость и поддержку исходной спецификации. За 40 лет своего взросления, архитектура ISA обросла и продолжает обрастать множеством новых режимов и наборов инструкций, каждый из которых добавляет к предшествующему дизайну, и без того перегруженному, новый слой. Из-за политики полной обратной совместимости, в современных процессорах x86 присутствуют даже те инструкции и режимы, которые на сегодняшний день уже преданы полному забвению. В результате мы имеем архитектуру процессора, которая представляет собой сложно переплетающийся лабиринт новых и антикварных технологий. Такая чрезвычайно сложная среда – порождает множество проблем с кибербезопасностью процессора. Поэтому процессоры x86 не могут претендовать на роль доверенного корня критической киберинфраструктуры.

Читать дальше →

+137

polnd Oct 23 2018 at 10:59

Сравнительный и подробный анализ плагинов кеширования для WordPress

6 min

18K

WordPress*Website development*

Плагинов кеширования много с большим набором параметров и функций – без тщательного анализа невозможно сделать грамотный выбор. Полистав интернет, не нашел реально нормальных сравнений. Есть только посты исключительно для привлечения внимания – описания плагинов. Обычное дело — SEO пульсы, так сказать. Видел даже попытку сравнительного анализа трех плагинов, но дальше замера скорости загрузки через онлайн сервис больше ничего приведено не было. А как внутри все устроено, на что влияют оптимизации – не сказано. Ведь каждый сайт индивидуален – все равно нужна тонкая подстройка – необходимо понимать принцип работы для оптимального выбора.

Данная статья создана одновременно с созданием материала, акцент в котором сделан на использование результатов анализа. Здесь же я хочу поделиться больше деталями и методикой этого анализа с искушенными людьми и братьями по цеху.

Читать дальше →

+14

Faight Sep 21 2016 at 17:04

Использование Google Cloud Speech API v2 в Asterisk для распознавания русской речи

6 min

46K

API*Asterisk*Google API*Yandex API*

From sandbox

Добрый вечер, коллеги. Недавно возникла необходимость добавить систему голосовых заявок в нашу ticket-систему. Но не всегда удобно каждый раз прослушивать голосовой файл, поэтому возникла идея добавить к этому систему автоматического распознавания голоса, к тому же в будущем она бы пригодилась в других проектах. В ходе этой работы были испробованы два варианта API наиболее популярных систем распознавания речи от google и yandex. В конечном итоге выбор пал на первый вариант. К сожалению, не нашел подробной информации об этом в интернете, поэтому решил поделиться полученным опытом. Если интересно, что из этого получилось добро пожаловать под кат.

Читать дальше →

+20

Stepik Oct 22 2008 at 20:56

Инструкция по развёртыванию полноценной среды для совместной удалённой разработки с Django в Windows. Для абсолютных новичков.

3 min

93K

Django*

Статья не претендует на универсальность, но статья — есть работоспособная инструкция по развёртке среды «с нуля» до этапа «пишем первую строчку кода». В комментариях принимаются советы и рекоммендации по улучшению инструкции.

Далее инструкция

+33

yorko Mar 31 2016 at 14:33

16 ядер и 30 Гб под капотом Вашего Jupyter за $0.25 в час

8 min

32K

Amazon Web Services*Python*Data Mining*

Tutorial

Если Вам не очень повезло, и на работе нет n-ядерного монстра, которого можно загрузить своими скриптами, то эта статья для Вас. Также если Вы привыкли запускать скрипты на всю ночь (и утром читать, что где-то забыли скобочку, и 6 часов вычислений пропали) — у Вас есть шанс наконец познакомиться с Amazon Web Services.

В этой статье я расскажу, как начать работать с сервисом EC2. По сути это пошаговая инструкция по полуавтоматической аренде спотового инстанса AWS для работы с Jupyter-блокнотами и сборкой библиотек Anaconda. Будет полезно, например, тем, кто в соревнованиях Kaggle все еще пользуется своим игрушечным маком.

Читать дальше →

+18

AloneCoder Mar 9 2016 at 17:11

Интерфейсы — важнейшая концепция в разработке ПО

20 min

49K

VK corporate blogSystem Analysis and Design*Website development*Programming*

Translation

Интерфейс можно считать своеобразным договором между системой и внешним окружением. В рамках компьютерной программы «система» — рассматриваемая функция или модуль, а «окружение» — весь остальной проект. Интерфейс формально описывает, какие данные могут передаваться между системой и окружением. А «реализацию» можно охарактеризовать как «система минус интерфейс». В языках наподобие Haskell интерфейсы могут быть крайне специфическими. А в языках вроде Python они, напротив, очень обыденны. Выбранный тип интерфейса может повлиять на размер созданного технического долга и производительность программиста. О том, как это посчитать, написано ниже. Также будет предложен метод для оценки и сравнения разных интерфейсов. На основании этих сравнений вы сможете сами понаблюдать за способами использования языка или программного инструмента.

Читать дальше →

+10

dzavalishin Mar 3 2016 at 17:03

Обзор примитивов синхронизации — mutex и cond

6 min

57K

Programming*Programming microcontrollers*System Programming*

Синхронизация нужна в любой малтитредной программе. (Если, конечно, она не состоит из локлесс алгоритмов на 100%, что вряд ли). Будь то приложение или компонента ядра современной операционной системы.

Меня всё нижесказанное, конечно, больше волнует с точки зрения разработки ядра ОС. Но почти всё применимо и к пользовательскому коду.

Кстати, ядра старых ОС в примитивах синхронизации не нуждались, поскольку преемптивной мультизадачности внутри ядра в старые добрые времена не было. (Уж за Юникс 7-й версии я отвечаю. Не было.) Точнее, единственным методом синхронизации был запрет прерываний. Но об этом позже.

Сначала перечислим героев. Мне известны следующие примитивы синхронизации:

User/kernel mode: mutex+cond, sema, enter/leave critical section.
Kernel only: spinlock, управление прерываниями.

Зачем всё это нужно, читатель, наверное, знает, но всё же уточним.

Если некоторая структура данных может быть доступна двум параллельно работающим нитям (или нити и прерыванию), и являет собой сущность, к которой нельзя обеспечить атомарный доступ, то работу с такой структурой нужно производить так, чтобы только одна нить одновременно выполняла сложные манипуляции с состоянием структуры.

Читать дальше →

+21

dzavalishin Mar 6 2016 at 02:54

Обзор примитивов синхронизации — Семафор и немного lockless-а

6 min

29K

Programming*Programming microcontrollers*System Programming*

В прошлой заметке мы обсудили самую известную пару из лагеря инструментов синхронизации тредов — mutex и cond. Сегодня встретимся с sema — примитивом, который умеет заменять предыдущие два в одиночку.

Но сначала — пара слов о случайных пробуждениях. (Спасибо xaizek, который мне об этом напомнил.) В принципе, строго реализованные механизмы синхронизации этим не страдают, но, тем не менее, опытный программист на это никогда не полагается.

Напомню фрагмент кода:

while(total_free_mem <= 0)
    {
    wait_cond(&got_free_mem, &allocator_mutex);
    }

Здесь цикл вокруг wait_cond гарантирует нам, что даже если мы вернёмся из ожидания события случайно или по ошибке, ничего страшного не случится — проверка в while обеспечит нам уверенность, что нужное состояние проверяемого объекта достигнуто. Если нет — поспим ещё в ожидании.

Отметим ещё раз, что проверяем мы состояние объекта (total_free_mem <= 0) при запертом мьютексе, то есть никто не может его менять в то же самое время.

Читать дальше →

+26

igor_rnc2002 Feb 8 2016 at 02:23

Онлайн игра руками дилетанта. Часть 2: «Сказ о пиаре»

11 min

7.1K

Проект «СуперНова» corporate blogGames monetization*Internet marketing*

В прошлой части своего рассказа я поведал вам о том, как прошел путь от идеи, до игры, реализованной в коде. Читателю, не знакомому с преамбулой рекомендую сначала ознакомиться с ней. В этой части я поведаю вам поучительную историю о том, как я по дилетантски её пиарил. Я постарался свести к минимуму нудистику типа графиков и диаграмм, оставив квинтэссенцию сути.

Итак, игра создана, сервер открыт и я – единственный его обитатель. Игра казалась мне настолько хорошей, что я был уверен в том, что лягу спать, а проснусь среди сотни тысяч набежавших игроков, которые будут биться в экстазе восторга и называть детей в мою честь. Ну или в честь игры, в самом крайнем случае. Однако, как уже догадался пытливый читатель, я был единственным обитателем сервера и на следующий день, и на следующий, и на следующий…

Окей, я не робкого десятка, и закатав рукава ломанулся нести в мир знание о моём великолепном творении. Начать я решил с поискового продвижения. Ведь именно поисковики в современном мире решают все проблемы рядового пользователя. Начиная с поиска картинок мимимишных котиков и заканчивая решением дифференциальных уравнений.

Вперёд! Навстречу приключениям!

+11

yarigpopov Jan 12 2016 at 15:03

Опыт переезда для работы программистом в Берлин (часть 1)

7 min

76K

IT career

From sandbox

Добрый день.

Представляю на суд общественности материал о том, как я за четыре месяца получил визу, переехал в Германию и нашел там работу.

Считается, что для переезда в другую страну нужно сначала долго искать работу удаленно, потом, в случае успеха, ждать решения по визе, и лишь после паковать чемоданы. Я решил, что это далеко не оптимальный способ, поэтому пошел другим путем. Вместо того, чтобы искать работу удаленно, я получил так называемую «визу на поиск работы», въехал в Германию, нашел здесь работу и уже после подал документы на Blaue Karte. Во-первых, в этом случае документы не ездят из страны в страну, и время ожидания визы значительно уменьшается. Во-вторых, поиск работы на месте радикально повышает ваши шансы, и это тоже заметно ускоряет процесс.

Читать дальше →

+47

156

Nicholas_Savelev Oct 22 2015 at 10:47

10 способов слить бюджет на контекст. Часть 1

3 min

Web analytics*Internet marketing*Contextual advertising*

Нет списка минус-слов или он очень мал

Если все наши фразы не «заковыченны», что бывает в большинстве случаев, то нам нужен хороший список минус-слов. Что будет, если его не сделать? Мы будем показываться по куче нецелевых запросов, снижая наш CTR. А так как с 1 сентября 2015 года Яндекс ввёл новый аукцион на поиске, CTR наших объявлений напрямую влияет на то, сколько мы будем платить за клик. И теперь объявления будут сортироваться в блоках по тем же показателям, что и отбираться в них — по комбинации CTR, ставки и коэффициента качества. Например — ваш CTR 5% — стоимость третьего места в спецразмещении 10 рублей. Если CTR 10% — то при прочих равных, ставка для объявления на эту же позицию будет 5 рублей.

Читать дальше →

for7raid Mar 9 2015 at 15:05

Простой разбор URL с помощью изоморфного Javascript

4 min

66K

JavaScript*Node.JS*

Translation

Во многих веб-приложениях требуется разбор URL, такой как извлечение доменного имени, имплиментация REST API или поиск пути к файлам изображений. Типичная структура URL показана на рисунке ниже:

Читать дальше →

+11

2 3 ...

11 12