Articles / Bookmarks / Profile of anikitoz / Habr

Андрей @anikitoz^{read⁠-⁠only}

Пользователь

Profile Bookmarks 261

egor_labintcev May 12 2017 at 13:59

Метрики в задачах машинного обучения

9 min

624K

Python*Data Mining*Mathematics*Machine learning*Open Data Science corporate blog

Привет, Хабр!

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Читать дальше →

+38

MaxRokatansky Nov 11 2020 at 17:59

Быстрый градиентный бустинг с CatBoost

5 min

77K

Python*Programming*Machine learning*OTUS corporate blog

Translation

Привет, хабровчане! Подготовили перевод статьи для будущих учеников базового курса Machine Learning.

В градиентном бустинге прогнозы делаются на основе ансамбля слабых обучающих алгоритмов. В отличие от случайного леса, который создает дерево решений для каждой выборки, в градиентном бустинге деревья создаются последовательно. Предыдущие деревья в модели не изменяются. Результаты предыдущего дерева используются для улучшения последующего. В этой статье мы подробнее познакомимся с библиотекой градиентного бустинга под названием CatBoost.

Источник

Читать дальше →

badcasedaily1 Dec 7 2023 at 08:06

CatBoost

Easy

11 min

9.1K

Programming*Algorithms*OTUS corporate blog

Review

Добрый день, уважаемые читатели Хабра!

CatBoost – алгоритм, разработанный специалистами из Yandex, представляет собой нечто большее, чем просто ещё один инструмент в арсенале данных науки. CatBoost – это гармоничное сочетание инноваций и эффективности, особенно когда дело доходит до работы с категориальными данными.

Первые шаги CatBoost были сделаны в 2017 году, когда мир уже знал о таких гигантах, как XGBoost и LightGBM. В чем же заключается уникальность CatBoost? Его разработка была направлена на решение специфических проблем, связанных с категориальными данными – той самой головной боли многих специалистов в области машинного обучения. С тех пор CatBoost прошёл долгий путь развития и совершенствования, став не просто эффективным инструментом, но и частью больших исследовательских проектов в различных сферах от финансов до биоинформатики.

CatBoost выделяется на фоне других алгоритмов градиентного бустинга благодаря ряду ключевых особенностей:

+14

user_a Jan 2 at 10:54

Как я с 0 поднял свой уровень английского до B2 и подтвердил этот уровень на экзамене IELTS Academic

Easy

10 min

152K

Learning languages

Tutorial

Привет, Хабр!

В этой статье я расскажу о своем опыте изучения английского языка и поделюсь вещами которые работали и не работали для меня. Процесс изучения языка очень индивидуален, и никогда нельзя утверждать что верный какой-то один метод / схема (хотя некоторые статьи на Хабре прямо говорят: вот этот метод правильный, а вот этот нет).

Начнем с бекграунда и причин.

Я – инженер машиностроитель (мой профиль – торцевые уплотнения вращающихся валов). Я начал работать в своей отрасли сразу после бакалавра, параллельно заканчивая магистратуру, и как только я начал работать, я стал стараться впитать как можно больше теоретических знаний по моей специальности из академических источников. Достаточно бысто я понял, что последняя серьезная книга по моей специальности на русском языке была написана в 1978 году. И спустя больше чем 40 лет технологии сильно поменялись, а вот их описание на русском языке отсутствовает. Зато я нашел на reddit людей работающих в штатах в моей же отрасли. Они мне насоветовали кучу классной литературы. Разумееется, она вся на английском, и русского перевода не имеет.

Начал свой путь изучения языка я в январе 2022 года с около нулевого уровня. В всех моих школах преподование английского языка было не на самомом высоком уровне, а в университете было достаточно выучить 30 предложений наизусть чтобы получить достойную оценку на экзамене.

Конечно, перед началом обучения я прочитал много статей на хабре о том как люди учат языки. Некоторые из них поражали скоростью овладения материалом (что-то вроде с нуля до fluent за 4 месяца). Но одна вещь была неизменна – у всех был какой-то план изучения языка.

+165

220

Realife Jan 5 at 00:04

Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

Easy

8 min

75K

Working with video*Machine learning*Artificial IntelligenceSound

From sandbox

Улучшение Том и Джерри из 480p в 1440p

С чего всё началось? Как-то я решил в третий раз с детства пересмотреть всю оригинальную коллекцию "Том и Джерри", но я, в отличие от маленького ребёнка, не потребляю любой контент вне зависимости от его качества. И вот я собрался посмотреть самую доступную версию, а там вот это цветошоу с постоянными царапинами на всём экране.

Мур-мур-мур

+387

193

devops_ht Sep 13 2023 at 11:30

Сам себе DevOps: как разобраться с доступами в Yandex Cloud

16 min

7.7K

Information Security*Cloud services*Yandex Cloud & Yandex Infrastructure corporate blogHilbert Team corporate blog

Tutorial

✏️ Technotext 2023

Предположим, у вас появилась задача развернуть сервис на виртуальной машине в Yandex Cloud. Казалось бы, всё просто: создал виртуальную машину, развернул приложение, и всё готово. В общем случае это работает именно так, но лишь при условии, что кто-то уже настроил для вас все доступы и выдал вам все необходимые права.

Но что делать, если тот самый человек, которому нужно всё настроить — это вы сами? Для этого разберёмся с базовыми особенностями ресурсной модели в Yandex Cloud.

dpivovarov Sep 7 2023 at 15:47

Дёшево, сердито и не жмёт: как работает запуск контейнеров в Yandex Serverless Containers

Easy

8 min

4.2K

DevOps*Microservices*Serverless*Yandex Cloud & Yandex Infrastructure corporate blog

Tutorial

Если нужно запустить сайт или веб-приложение в облаке, то привычным для многих способом будет аренда виртуальной машины с определённым объёмом памяти и параметрами CPU. Берём ресурсы чуть-чуть с запасом, чтобы приложение не тормозило и не теряло пользовательские запросы, и платим постоянный тариф за аренду мощностей провайдера. Но в таком случае всегда есть переплата за фактически неиспользуемую часть ресурсов, а часть ответственности за надёжность решения несёт сам пользователь.

Облачные решения сегодня предлагают несколько вариантов запуска контейнеров, и serverless-подход — один из них. Если разместить код приложения в Serverless Containers, облако само запустит нужный контейнер с вашим сервисом тогда, когда появится потребность в его вызове. Разница не только в тарификации по времени работы контейнера, но и в эластичности. Если нагрузка резко возрастёт, то сервис запустит дополнительные экземпляры контейнера. Но и здесь есть свои ограничения.

В этой статье покажем, какие есть способы запуска контейнеров в Yandex Cloud, и расскажем, как и когда лучше запускать контейнеры в Serverless Containers. Материал может пригодиться бэкенд-разработчикам, DevOps-инженерам и системным администраторам.

Читать дальше →

+10

IT_invest Nov 19 2014 at 14:30

Способы передачи финансовых данных #2: протокол FAST

8 min

29K

Website development*Programming*XML*ITI Capital corporate blog

В одном из прошлых топиков мы рассмотрели протокол FIX, который был создан для передачи финансовой информации и автоматизации коммуникаций на фондовом рынке. Однако этот протокол оказался не самым идеальным инструментом в условиях все увеличивающихся объёмов финансовых данных, поэтому в качестве его развития был создан новый стандарт — протокол FAST (FIX Adapted for STreaming). Сегодня мы поговорим об этой технологии.

Читать дальше →

+16

KonstantinKG Jun 19 2018 at 23:12

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

33 min

19K

Python*Data Mining*Big Data*Machine learning*

From sandbox

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Читать дальше →

+17

Aleron75 Aug 3 2022 at 12:00

Feature Engineering или стероиды для ML моделей

6 min

14K

Python*Big Data*RUVDS.com corporate blogData Engineering*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными 😉.

Читать дальше →

+38

lexnekr May 25 2020 at 09:21

Шпаргалка по визуализации данных в Python с помощью Plotly

62 min

277K

Python*Data visualization*

Tutorial

Technotext 2020

Plotly — библиотека для визуализации данных, состоящая из нескольких частей:

Front-End на JS
Back-End на Python (за основу взята библиотека Seaborn)
Back-End на R

В этой простыне все примеры разобраны от совсем простых к более сложным, так что разработчикам с опытом будет скучно. Так же эта «шпаргалка» не заменит на 100% примеры из документации.

Читать дальше →

+15

fivelife Feb 5 2016 at 08:07

Построение стакана котировок (FullOrderBook) по историческим данным

4 min

31K

Programming*Java*Algorithms*

From sandbox

Совсем недавно решал задачу построения стакана котировок на основе исторических данных Московской Биржи. В открытых источниках ничего подобного не нашел, пришлось начинать с нуля и копать самому. Есть некоторые нюансы, о которых нужно знать. Про них буду упоминать по ходу.

Про биржевую торговлю, инфраструктуру и тестирование алгоритмов на исторических данных много писал и пишет IT Invest, спасибо ему. От себя добавлю, что на данных OrderLogs мы анализируем глубину рынка, ликвидность, спреды и еще много чего. Результаты используем в наших торговых алгоритмах.

Специально выбрал Фондовый рынок, так как тут больше всего вопросов. Валютный и Срочный рынок имеют свои особенности, но там проще. Реализация алгоритма на Java, код на GitHub.

Цель: Получить стакан котировок на любой момент времени.

Читать дальше →

Eljah Jul 13 2023 at 11:27

Какими приключениями грозит невключенная двухфакторная аутентификация на Госуслугах

Easy

9 min

48K

Information Security*

Reportage

Я был достаточно неосмотрителен, чтобы эта история произошла со мной, но, возможно, достаточно технически грамотен, чтобы рассказать ее детали, сдерживая эмоции и понимая, что происходит, в отличии от большинства людей, оказашимихся в этой ситуации еще и с ощущением полного неведения.

Когда появились госуслуги, на них не было автоматического информирования о входах в аккаунт с непривычного IP, не предлагалась двухфакторная авторизация. Я создал пароль достаточно надежный - не использованный нигде ранее, и считал,что все отлично, не меняя его 5 лет. На портал заходил я редко, но авторизовывал через ЕСИА государственные сервисы. Госуслуги присылали рассылки на почту, а я был уверен, что при авторизации с подозрительного IP или попытки брутфорса меня уведомят, а аккаунт заблокируют, ведь телефонный номер Госуслуги и так знают.

По-видимому, пароль от Госуслуг мне пришел в голову еще раз в качестве пароля от какого-то сайта, где я зарегистрировался с той же почтой, и с тех пор пара "почта-пароль" слилась в базы злоумышленников. Это все, что вам нужно знать о причинах произошедшего. Теперь о последствиях.

Утром 11 июля мне потребовалось авторизоваться на сайте Госуслуг, но "пользователь с таким email не зарегистрирован". Я набрал службу поддержки, назвал свой номер СНИЛС, а мне (не спрашивая всяких контрольных вопросов, что в моем случае было как раз хорошо) техподдержка заявила, что с этим номером СНИЛС аккаунт заведен 5 июля, почта и телефон там другие, а тот, в котором была ваша почта и телефон, удалены того же числа.

+126

191

Shannon Aug 1 2023 at 07:06

Linux для игр, Windows для работы. С чего начать, как установить и настроить

Easy

12 min

68K

Configuring Linux*Games and game consoles

Tutorial

Пора попробовать новый взгляд, когда Windows для работы, а Linux для отдыха. Ведь Linux очень удобен как раз для игр или экспериментов с софтом, чтобы ничего не отвлекало, не было соблазна ещё немного поработать, что возможно только в Windows.

И если вы не знаете с чего начать, но хотели или задумывались о том, чтобы попробовать линукс, но абсолютно не понимаете как его установить, настроить. Или просто хотите посмотреть как запускать игры, то эта статья поможет найти ответы на эти вопросы.

+79

196

TyVik Jun 2 2023 at 10:15

Что делает ChatGPT… и почему это работает?

Medium

75 min

146K

Algorithms*Machine learning*Artificial IntelligenceNatural Language Processing*

Translation

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+248

121

feanoref Mar 21 2023 at 17:21

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Easy

8 min

23K

Selectel corporate blogMathematics*Machine learning*Artificial IntelligenceData Engineering*

Opinion

Привет, Хабр! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!

Читать дальше →

+59

wilelf Feb 1 2023 at 11:18

Полная история создания игры Elite (1984). Часть 2

29 min

19K

Game development*Game design*History of ITOld hardwareGames and game consoles

Retrospective

Elite — компьютерная игра, которую выпустила Acornsoft в 1984 году для компьютеров BBC Micro. Ее создали два 19-летних студента — Дэвид Брабен и Йен Белл.

Это прорывной для своего времени космический симулятор с открытым миром и элементами экономической стратегии, который удалось уместить в 22К памяти!

Перед вами вторая часть истории о том, как создавалась игра, почему она стала хитом, и какие предпосылки послужили к ее появлению.

В первой части читайте о том, как из старой машины с 16КБ памяти получилось «выжать» трехмерную графику. В комментариях к первой части – ссылка на сайт Йена Белла с материалами Elite.

Читать дальше →

+108

slivka_83 Nov 10 2022 at 19:52

Voila: из ноутбука в веб-приложение

5 min

8.8K

Python*Data Mining*Big Data*Machine learning*Artificial Intelligence

Tutorial

Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...

Wolchara000 Dec 17 2021 at 15:44

Maltego для бедных или какие есть бесплатные дополнения к ней

4 min

22K

Information Security*Open source*Social networks and communitiesT.Hunter corporate blog

Давным-давно я задумал написать статью про удешевление работы с Maltego. Продукт, безусловно, классный. Но очень уж дорогой. Особенно для среднестатистического отечественного осинтера, у которого нет 4.000$ на закупку самого визуализатора и всех самых сочных модулей к нему.

Поэтому наша сегодняшняя тема касается возможности использования некоммерческой версии Maltego CE (Community Edition), а также бесплатных трансформов к ней.

mrzerg Oct 23 2021 at 18:21

Самый полный чек-лист для защиты от мошенников

17 min

156K

Information Security*Legislation in IT

From sandbox

Несколько месяцев я изучал тему интернет мошенничества с целью собрать наиболее полный список действий, которые обезопасили бы меня от жуликов и их махинаций. Итогом изучения стал чек-лист, которым хочу поделиться со всеми. Его цель - сделать взлом цифровых активов сложным и бессмысленным.

+144

169

2 3 ...

13 14