Articles / Bookmarks / Profile of skolpin / Habr

@skolpin

User

Profile Publications Comments 2Bookmarks 9

Nikuson Sep 13 2022 at 16:00

Как работает DALL-E

Medium

9 min

20K

RUVDS.com corporate blogArtificial IntelligenceMachine learning*

Technotext 2022

В Январе 2021 года Open AI показали DALL-E, генерирующую любые изображения по текстовому описанию, на хабре уже успели разобрать тему генерации изображений нейросетями, но мне захотелось разобраться в теме более детально и показать всё в коде.

Сейчас мы разберём, как работает Text2Image нейросеть DALL-E, посмотрим на хардкор математики, а также убедимся, что это сможет повторить каждый, написав реализацию DALL-E почти с нуля.

Читать дальше →

+39

kucev Jun 1 2022 at 09:18

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision

7 min

7.4K

Big Data*Data Mining*Machine learning*Image processing*

Translation

Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.

Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.

Читать дальше →

ZlodeiBaal Jun 15 2020 at 11:03

Самая сложная задача в Computer Vision

13 min

71K

Recognitor corporate blogPython*Artificial IntelligenceMachine learning*Image processing*

Tutorial

Среди всего многообразия задач Computer Vision есть одна, которая стоит особняком. К ней обычно стараются лишний раз не притрагиваться. И, если не дай бог работает, — не ворошить.
У неё нет общего решения. Практически для каждого применения существующие алгоритмы надо тюнинговать, переобучать, или судорожно копаться в куче матриц и дебрях логики.

Статья о том как делать трекинг. Где он используется, какие есть разновидности. Как сделать стабильное решение.

+127

AbellAI Aug 9 2020 at 23:54

Как работает Object Tracking на YOLO и DeepSort

12 min

82K

Artificial IntelligenceMathematics*Machine learning*

Object Tracking — очень интересное направление, которое изучается и эволюционирует не первый десяток лет. Сейчас многие разработки в этой области построены на глубоком обучении, которое имеет преимущество над стандартными алгоритмами, так как нейронные сети могут аппроксимировать функции зачастую лучше.

Но как именно работает Object Tracking? Есть множество Deep Learning решений для этой задачи, и сегодня я хочу рассказать о распространенном решении и о математике, которая стоит за ним.

Итак, в этой статье я попробую простыми словами и формулами рассказать про:

YOLO — отличный object detector
Фильтры Калмана
Расстояние Махаланобиса
Deep SORT

Читать дальше →

+14

novoselov_am May 3 2022 at 15:45

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

47 min

18K

Data Engineering*Machine learning*Artificial Intelligence

From sandbox

Translation

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

+20

Olga_Mokshina May 4 2022 at 11:44

Data-Science-процессы: Jupyter Notebook для продакшена

9 min

7.8K

VK corporate blogBig Data*

Translation

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.

Читать дальше →

+37

imbasoft Apr 7 2022 at 00:01

Что такое искусственный интеллект

12 min

22K

Artificial IntelligenceMachine learning*Popular science

Разумный робот Дзенъятта. Скриншот из игры Overwatch. © Blizzard.

Тем, кто только начинает свой путь в изучении искусственного интеллекта (ИИ, ИскИн, Artificial Intelegence, AI), подчас бывает сложно разобраться с тем, что это вообще такое. Несмотря на то, что в окружающем инфополе этот термин встречается довольно часто, помощи в понимании это не добавляет, а иногда и просто вредит. Проблема в том, что практически везде он трактуется по-разному.

В этой статье мы проведем обзор существующих определений ИИ, попытаемся их систематизировать и разложить полученные знания по полочкам.

Читать дальше →

uncle_dijkstra Feb 1 2022 at 17:35

О хороших практиках построения инфраструктуры ML-моделей

14 min

5.5K

«Лаборатория Касперского» corporate blogData Engineering*Python*Programming*

Technotext 2022

Не все дата-сайентисты умеют хорошо писать код. Их этому не учили. Также их не учили писать веб-сервисы, и они могут забывать, что код должен быть проверен. Дата-сайентисты — не разработчики, от них ждут высоких метрик и решения поставленных задач, а не умения писать модульные тесты и следить за кодом. По крайней мере, им это не прививают. Не говоря уже о том, что они не работают с Kubernetes и не пишут для него Helm charts.

Но нам с командой дата-сайентистов пришлось это все освоить и запустить. Меня зовут Дмитрий Аникин, в «Лаборатории Касперского» я занимаюсь оптимизацией внутренних бизнес-процессов со стороны Data Science. Хочу рассказать, какие проблемы у нас возникали на пути нашей модели — от простого артефакта до самостоятельного сервиса — и как мы их решили, освоив все несвойственные дата-сайентистам процессы. Как справедливо замечено в нашем самопредставлении, именно в таких моментах — весь драйв!

Всю эту историю расскажу на примере живого проекта MDR (Kaspersky Managed Detection and Response).

Читать дальше →

+15

boygenius Jan 21 2022 at 14:02

CatBoost, XGBoost и выразительная способность решающих деревьев

42 min

55K

Open Data Science corporate blogProgramming*Mathematics*Machine learning*Artificial Intelligence

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".

Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего дерева и градиентного бустинга, затем подробно поговорим об XGBoost и CatBoost. Среди основных особенностей алгоритма CatBoost:

• Упорядоченное target-кодирование категориальных признаков
• Использование решающих таблиц
• Разделение ветвей по комбинациям признаков
• Упорядоченный бустинг
• Возможность работы с текстовыми признаками
• Возможность обучения на GPU

В конце обзора поговорим о методах интерпретации решающих деревьев (MDI, SHAP) и о выразительной способности решающих деревьев. Удивительно, но ансамбли деревьев ограниченной глубины, в том числе CatBoost, не являются универсальными аппроксиматорами: в данном обзоре приведено собственное исследование этого вопроса с доказательством (и экспериментальным подтверждением) того, что ансамбль деревьев глубины N не способен сколь угодно точно аппроксимировать функцию $y = x_1 x_2 \dots x_{N+1}$ . Поговорим также о выводах, которые можно из этого сделать.

+48