Articles / Bookmarks / Profile of avdosev / Habr

Авдосев Никита @avdosev

ML-разработчик

Profile Publications 5Comments 206Bookmarks 455

egor_labintcev May 12 2017 at 13:59

Метрики в задачах машинного обучения

9 min

654K

Python*Data Mining*Mathematics*Machine learning*Open Data Science corporate blog

Привет, Хабр!

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Читать дальше →

+38

virtual_explorer Sep 19 2023 at 14:31

Алхимия XXI века

5 min

4.4K

FirstVDS corporate blogMachine learning*History of ITArtificial Intelligence

Языковые модели становятся всё лучше в прохождении тестов. Они уже побеждают среднестатистического человека в математике (в том числе находят нестандартные решения для теорем). И получают более высокие оценки при поступлении в вузы, чем сами студенты. Остается всё меньше сфер, в которых можно гордиться тем, что ты человек, а не робот.

До последнего мы убеждали себя, что, по крайней мере, у ИИ нет креативности. Они просто берут то, что в них вложено, и немного переосмысляют. И не создают ничего нового! Поэтому настоящие творцы (картин, скульптур, программ, мелодий) могут спать спокойно. По крайней мере, такое мнение выразила Эллен Шейдлин в недавнем интервью Дудю. Развитие ИИ-моделей её совсем не волнует, она считает, что они помогают творить. Но оказалось, что для обычного человека это далеко не так.

+12

ru_vds Sep 6 2023 at 16:00

S3-FIFO: новый эффективный алгоритм вытеснения из кэша на основе очередей FIFO

Medium

18 min

8.1K

Algorithms*Server optimization*Data storage*RUVDS.com corporate blog

Analytics

Translation

В этой статье я расскажу о простом и масштабируемом (Simple, Scalable) алгоритме вытеснения данных из кэша на основе трёх статических (Static) очередей FIFO (S3-FIFO). После проверки на 6594 трассировках кэшей 14 компаний мы показали, что S3-FIFO имеет меньшую частоту промахов, чем 12 лучших алгоритмов, разработанных в прошлые десятилетия. Более того, эффективность S3-FIFO устойчива — он имеет наименьший средний показатель промахов для 10 из 14 датасетов. Использование очередей FIFO позволяет S3-FIFO достичь хорошей масштабируемости с пропускной способностью в шесть раз больше по сравнению с оптимизированным LRU в cachelib на 16 потоках.

Мы пришли к выводу, что доступ к большинству объектов в смещённых нагрузках кэша выполняется только за короткий промежуток времени, поэтому критически важно быстро вытеснять их из кэша. А главная особенность S3-FIFO — это небольшая очередь FIFO, отфильтровывающая большинство объектов, не давая им попасть в основной кэш.

Иллюстрация работы S3-FIFO (с использованием порогового значения перехода из маленького в основной кэш, равного 1)

Читать дальше →

+69

EvilMan Sep 5 2023 at 22:29

Поиск по регулярным выражениям может быть простым и быстрым

Medium

28 min

9.6K

Programming*System Programming*

Translation

Данный пост является переводом первой статьи 2007 года про устройство регулярных выражений от автора библиотеки RE2. Для понимания требуется немного терпения и свободного времени, чтобы осилить прочтение статьи до конца. Будет плюсом знакомство с теорией автоматов и языком программирования Си (но это необязательное требование).

Так же в статье приводится интереснейшая историческая справка и краткий обзор возможностей современных регулярных выражений.

Как оказалось, с тех пор мало что поменялось, так что статья не потеряла своей актуальности.

Обо всех ошибках и опечатках большая просьба сообщать, чтобы я мог их поправить.

Заблудиться в тёмном лесу

+32

EvilMan Aug 21 2023 at 17:05

Regex engine internals as a library [full]

Hard

77 min

5.2K

Programming*Rust*

Translation

Это полный перевод большой и сложной статьи по внутреннему устройству крейта regex свежей версии. Перевод большей частью выполнялся для себя, чтобы поднабить скилл в английском. По возможности постарался сохранить авторский стиль.

Если всегда было интересно, как оно там под капотом устроено, а в книге Фриддла или в книге дракона вы не нашли подробностей, то добро пожаловать - будет интересно и очень сложно. Для понимания требуются знания основ теории автоматов (знать и понимать отличия ДКА от НКА) и иметь базовое представление о том, что такое регулярные выражения.

Так же прошу сообщать об ошибках и опечатках, чтобы я мог их исправить.

Прыгнуть в кроличью нору

+32

barbalion Aug 19 2023 at 05:49

Пишем самую тупую на свете сортировку

Medium

7 min

23K

Abnormal programming*Algorithms*

И это не пузырьковая, а нечто гораздо более тупое.

Как-то после обеда, стоя за чашечкой кофе, мне пришла в голову мысль. Что ведь для того чтобы убедиться что массив отсортирован, надо сделать `n-1` сравнение. Например для массива длины 4 таких сравнения будет 3:

Дальше тупее

+85

PaulBoston Aug 18 2023 at 11:13

Как стать руководителем и не помереть

Easy

10 min

19K

Альфа-Банк corporate blogProject management*Personnel Management*IT career

Opinion

✏️ Technotext 2023

Всегда мечтал управлять процессами, работать с людьми. Казалось, что я «знаю как правильно», как изменять процессы или учить ребят, чтобы они работали лучше. Хотелось помогать ребятам жить в лучшем мире. Мечта сбылась. Но, как говорится, есть нюанс.

Поговорим о том, что вас ждёт, когда вы станете руководителем.

Чтож начнем!

+50

agpankova Jul 17 2023 at 15:11

Эволюция метрик качества машинного перевода. Часть 2

Easy

5 min

3.9K

Machine learning*Natural Language Processing*

Review

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 2: референсные нейросетевые метрики.

BarsMonster Nov 17 2012 at 06:37

Делаем свой локальный DNS (PDNSD), с блэкджеком и быстрее Google Public DNS

3 min

158K

System administration*IT Infrastructure*Network technologies*

С каждым годом скорость интернета — как последней мили, так и магистральных каналов становится все выше. Лишь одно неизменно — латентность уже уперлась в физические ограничения: скорость света в оптоволокне — около 200тыс километров в секунду, и соответственно, быстрее чем за ~150ms ответ от сервера через атлантический океан не получить в обозримой перспективе (хотя конечно есть изыски, вроде оптоволокна с воздушной сердцевиной или радиорелейной связи, но это для простых смертных едва-ли доступно).

Когда мы пытаемся например из России открыть web-сайт, расположенный в США (его NS сервера вероятно там же), и домен не нашелся в DNS-кэше вашего провайдера — то ждать придется долго даже на гигабитном интернете, возможно даже целую секунду: пока мы через океан получим имена NS серверов домена, пока разрезолвим их IP, пока отправим и получим собственно сам DNS запрос…

Пару лет назад Google завела свои публичные DNS сервера, а для агитации перехода на них — они разработали утилитку NameBench, которая прогоняет тесты DNS по вашей истории серфинга и показывает, насколько Google DNS быстрее DNS сервера вашего провайдера.

Но мне удалось сделать свой DNS сервер, который работает быстрее Google Public DNS, и в этой краткой заметке хочу поделится результатами.

Читать дальше →

+56

CatScience Jul 7 2023 at 16:16

Град

Easy

5 min

20K

Popular science

Град – страшная штука. Как от него защититься? Конечно, противоградовыми ракетами! Надо действовать быстро, время на реакцию после обнаружения цели – буквально несколько минут. Берешь артиллерийскую установку Эльбрус-А, заряжаешь 60-миллиметровыми ракетами Алазань-9 – и вот уже в небо летит полукилограммовый заряд йодистого серебра… и вместо града на землю выпадает обычный безопасный дождь.

(Теперь вы знаете, как правильно начинать светские беседы о погоде и сможете прекратить любую возникшую неловкую паузу.)

Поговорим о граде и борьбе с ним.

+94

ru_vds Jun 26 2023 at 16:00

Выбор структур данных для самописного текстового редактора

Medium

13 min

11K

Programming*C++*Algorithms*Data storage*RUVDS.com corporate blog

Tutorial

Translation

Программирование текстовых редакторов может быть очень интересной и сложной задачей. Типы задач, которые должны решать текстовые редакторы, варьируются от тривиальных до невероятно трудных. Недавно я занимался переработкой внутренних структур данных редактора, над которым я работаю. В частности, самой фундаментальной для любого текстового редактора структуры данных: текста.

Ресурсы

Прежде чем мы приступим к разбору того, что я сделал, важно упомянуть очень полезные ресурсы для создания собственного текстового редактора:

Build Your Own Text Editor — наверно, самый фундаментальный пост о создании текстового редактора с нуля, который я видел. Это превосходный туториал на случай, если вы хотите начать писать собственный текстовый редактор. Стоит заметить, что в редакторе из этого туториала в качестве внутренней структуры для текста используется, по сути, вектор строк.
Text Editor: Data Structures — отличный обзор множества структур данных, которые можно использовать при реализации текстового редактора. (Спойлер: как минимум одна из них будет рассмотрена в моём посте)
Плейлист Ded (Text Editor) на YouTube — это потрясающая серия, в которой @tscoding фиксирует процесс создания с нуля текстового редактора. Эти видео стали для меня источником вдохновения.

Зачем?

Если в сети есть так много хороших ресурсов о создании собственного текстового редактора (не говоря уже о том, что уже существует множество феноменальных текстовых редакторов), то зачем я это пишу? На то есть несколько причин:

Я хотел заняться проектом, непохожим ни на один свой прошлый.
Я хотел создать инструмент, которым смогу пользоваться.
Мне всегда хотелось глубже разобраться с созданием собственных структур данных.

Читать дальше →

+58

Zangasta Jun 23 2023 at 13:26

Дядя Фёдор и методы рационального мышления

Easy

21 min

26K

Reading roomScience fiction

Opinion

Несколько лет назад я с удовольствием прочитал фанфик «Гарри Потер и методы рационального мышления» Элиезера Юдковского. Несмотря на подростковую направленность книжки, она получилась интересной. И умопомрачительно смешной – особенно на контрасте с оригинальным произведением.

К сожалению, написав эту книгу, Элиезер запер избушку на клюшку – переключившись с юмористических фанфиков на серьёзные философские статьи. Которые и вполовину не так хороши, как его литературное творчество. Ну, разве что, кроме последней, в которой он предлагает бомбить дата-центры ГПТ-подобных нейронных сетей, чтоб избежать наступления апокалипсиса.

Мне очень понравился формат книги Элиезера – в которой он объяснял серьезные научные концепции на примере знакомых с детства персонажей. Читая, я задавал себе вопрос: Какими бы получились «Гарри Потер и Методы», если бы Элиезер жил в России? Какую книгу он выбрал бы для основы? Приключения Буратино заняты покойным Константином Крыловым, так что остается только Незнайка и дядя Фёдор. При этом дядя выглядит тут предпочтительнее – Незнайка слишком оторван от окружающей нас реальности, которая требует осмысления.

Взявшись писать, я решил немного осовременить исходную книгу. Мне не нравится, что современные писатели-фантасты, вместо того чтоб отвечать на заданные социумом вопросы, попрятались в виртуальные миры и носа не кажут наружу. Поэтому моему Дяде будет четырнадцать. Это интеллигентный московский подросток из хорошей семьи, который бежит в деревню – где погружается в лютую русскую хтонь…

Читать первую главу:

+111

153

rebuilder Jun 9 2023 at 22:17

Задача коммивояжёра — ещё немного больше, ещё немного быстрее

Medium

16 min

8.1K

Python*Algorithms*

И снова здравствуйте, уважаемые читатели Хабра. Мы продолжаем наше путешествие в мир алгоритмов поиска оптимального пути.

В прошлой работе мы уже узнали, как можно найти оптимальный путь в графе в несколько сотен вершин. В данной работе хочу более подробно остановится на сути метода, а также разобрать возможность по его ускорению на графах от тысячи элементов.

+23

rsk Jun 5 2023 at 16:10

Оптимизируем кодирование u128 в base62

Medium

4 min

3.1K

Programming*Rust*

From sandbox

В процессе работы над своим приложением для заметок, когда я дошел до сохранения данных в базу данных я стал использовать для идентификации записей uuid4 идентификаторы, которые обычно выглядят примерно так, когда представлены в виде строки:

32dca18531a1435480461f99837a5b1d

По некоторым причинам использовать uuid мне не очень нравилось: это довольно длинная строка из 32 символов, а мне надо будет иногда показывать ее пользователям, 6 бит в uuid4 не используются, это константы, расточительно.

+16

orenty7 Jun 2 2023 at 20:47

Ломаем хаскелем Brainfuck

Hard

28 min

10K

Abnormal programming*Haskell*Compilers*Brainfuck*

Немного о bfc

Brainfuck — очень глупый язык. Там есть лента из 30к ячеек, по байту каждая. Команды bfc это:

Передвижение по ленте влево и вправо (символы < и >)
Увеличение и уменьшение значения в ячейке (символы + и -)
Ввод и вывод текущей ячейки (символы . и ,)
И цикл while, который продолжается пока значение в текущей ячейке не ноль. [ и ] это начало и конец цикла соответственно

Программировать на bfc сложно. Но, как известно, любую проблему можно решить добавлением слоя абстракции (кроме проблемы большого количества абстракций).

Читать дальше →

+84

DewT-Mag Jun 1 2023 at 11:34

2 года, 7 попыток, 0 распознанных бордюров: как мы учились детектить ДТП в реалтайм без датасета

Medium

10 min

6.9K

Algorithms*Machine learning*TransportMagnus Tech corporate blog

Case

✏️ Technotext 2023

Привет, Хабр! Это команда дата-сайентистов Magnus Tech. В этом посте мы расскажем, как работали над одним общественно полезным проектом — алгоритмом, который распознает ДТП по видео с дорожных камер. Кейс будет интересен широкому кругу разработчиков, которые занимаются технологиями машинного зрения и обучения. В нем — наш долгий путь из множества попыток сделать точный алгоритм, несмотря на его настойчивые попытки быть неточным.

За два года мы наступили на все возможные грабли, протестировали уйму гипотез и подходов к задаче. В итоге пришли к рабочему алгоритму, который, наконец-то, научился отличать машины от бордюров. В этом посте мы поделимся инсайтами, расскажем о неудачных гипотезах, распишем архитектуру последней версии нашего алгоритма и объясним, почему для выхода на прод нам все-же понадобится датасет.

+45

alextretyak Jun 1 2023 at 00:00

Простейший алгоритм разделения слова на слоги

3 min

Algorithms*

Однажды на проводимом мной практическом занятии [по ЯП] я, скучая, разглядывал список студентов группы. Глаз зацепился за знак ударения в фамилии Лемзекóв, который я поставил [для себя] после того, как произнёс фамилию этого студента неправильно. Я мысленно прочёл эту фамилию по слогам, и тут у меня возник вопрос: «а по какому алгоритму мозг разбивает слова по слогам?» Почему-то интуитивно получается "Лем-зе-ков", а не "Ле-мзе-ков" или "Лем-зек-ов". Я выписал ещё несколько примеров, и разглядывая их размышлял о том, как перевести это в алгоритм.

Читать дальше →

+17

Frontir May 31 2023 at 13:34

Сколько стоит твоя жизнь?

12 min

34K

Reading roomBrainHealthBiology

Opinion

Сколько стоит человеческая жизнь? Да-да, в рублях.

Обычная реакция на такой вопрос, что-то вроде: как ты смеешь говорить о цене человеческой жизни, ведь она бесценна?

Обсудим?

+41

107

Catx2 May 26 2023 at 16:16

Как я секреты римской брони в лаборатории разгадывал

10 min

15K

Popular science

Салют. За время изучения римской брони, у меня осталось несколько зависших в воздухе вопросов. Поскольку ответить на них могла лишь экспериментальная археология, то я пошел по пути изготовления "аналогов" доспехов и их последующего тестирования в лаборатории. Вся история мучений на этом пути, а также что показали испытания в материале ниже.

Год назад в своей статье «Римские и средневековые доспехи. Что лучше?» в качестве одного из параметров сравнения я использовал ударную вязкость. Чтобы понимать, как работает связка свойств – твердость/ударная вязкость в доспехах, представьте себе пластилин и стекло. Если давить пальцем на стекло, то оно будет какое-то время сопротивляться вашему нажиму, но с определенного уровня – трескаться и рассыпаться. Пластилин, напротив, будет тянуться, не давая проникнуть «за». Для доспехов в идеале должны работать оба свойства, но поскольку они противоположны, то на практике нужен компромисс.

Готовы?

+121

Maxilect May 26 2023 at 14:08

Как айтишник гигантские арбузы в средней полосе выращивал. Часть 1

Easy

8 min

24K

Maxilect corporate blogLifehacks for geeksHealthBiology

Tutorial

Хобби коллег очень многогранны. Сегодня расскажем об ИТ-шном подходе к выращиванию арбузов в регионе, где, казалось бы, нормально вызревать они не должны. Наш девопс, Игорь Иванов, объединил системный подход к сбору информации и комплектующие с AliExpress и из магазинов для садоводов, и уже не первый год собирает отличный урожай.

Своеобразная “инструкцию для начинающих” получилась довольно объемной. Мы разделили ее на две части: в первой автор разбирает теоретические основы, а во второй переходит к практике.

Осторожно, много фото!

+84

1 2 3

5 6 ...

21 22