Articles / Bookmarks / Profile of binrey / Habr

Andrey R @binrey

машинное обучение и анализ данных

Profile Publications 1Comments Bookmarks 27

alex_golubev13 Jan 28 2022 at 10:59

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

5 min

16K

Data Mining*Image processing*Machine learning*Natural Language Processing*Ozon Tech corporate blog

Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…

Читать дальше →

+30

artur_sosnovikov Jul 28 2023 at 16:22

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Medium

11 min

13K

Algorithms*Machine learning*Artificial IntelligenceТочка corporate blog

Review

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

+17

divolko3 Jul 27 2023 at 12:25

Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы

4 min

3.5K

Big Data*Mathematics*Machine learning*МТС corporate blogIT-companies

Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов.

DewT-Mag Jun 1 2023 at 11:34

2 года, 7 попыток, 0 распознанных бордюров: как мы учились детектить ДТП в реалтайм без датасета

Medium

10 min

6.5K

Algorithms*Machine learning*TransportMagnus Tech corporate blog

Case

✏️ Technotext 2023

Привет, Хабр! Это команда дата-сайентистов Magnus Tech. В этом посте мы расскажем, как работали над одним общественно полезным проектом — алгоритмом, который распознает ДТП по видео с дорожных камер. Кейс будет интересен широкому кругу разработчиков, которые занимаются технологиями машинного зрения и обучения. В нем — наш долгий путь из множества попыток сделать точный алгоритм, несмотря на его настойчивые попытки быть неточным.

За два года мы наступили на все возможные грабли, протестировали уйму гипотез и подходов к задаче. В итоге пришли к рабочему алгоритму, который, наконец-то, научился отличать машины от бордюров. В этом посте мы поделимся инсайтами, расскажем о неудачных гипотезах, распишем архитектуру последней версии нашего алгоритма и объясним, почему для выхода на прод нам все-же понадобится датасет.

+45

vovaf709 Jan 1 2022 at 23:18

Обзор архитектуры Swin Transformer

7 min

12K

Image processing*Machine learning*

Трансформеры шагают по планете! В статье вспомним/узнаем как работает visual attention, поймём что с ним не так, а главное как его поправить, чтобы получить на выходе best paper ICCV21.

Автоботы, трансформируемся!

ligofff Apr 11 2023 at 12:29

Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом

Easy

6 min

191K

Machine learning*Artificial Intelligence

Tutorial

From sandbox

--- Обновление статьи 9 Августа 2023 ---

В течении последнего полугода в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен, а хорошие по мощности нейронки можно запускать локально.

Основная проблема в том, что всё это требует глубоких технических знаний.

Но в этой статье я расскажу, как запустить добротную нейросеть на домашнем ПК с 16ГБ ОЗУ в несколько кликов. Буквально в несколько кликов - копаться в консоли не придётся.

+142

180

MagisterLudi Jun 11 2020 at 14:40

65 бесплатных курсов по Machine Learning от ведущих университетов мира

3 min

27K

Big Data*Skillfactory corporate blogMachine learning*Studying in ITIT career

Картинка отсюда.

Machine Learning от Stanford University
Machine Learning Foundations: A Case Study Approach от University of Washington
CS188.1x: Artificial Intelligence от University of California, Berkeley
Practical Machine Learning от Johns Hopkins University
Introduction to Artificial Intelligence от Stanford University
Artificial Intelligence for Robotics от Stanford University
Introduction to Machine Learning Course от Stanford University

Читать дальше →

kuznetsoff87 Dec 31 2022 at 11:54

Обзор ChatGPT с примерами использования в различных задачах

14 min

157K

HabrResearch and forecasts in IT*Artificial Intelligence

Review

Одно из знаковых событий 2022 года помимо text-to-image моделей - это, безусловно, модель ChatGPT. Выйдя на суд общества, она смогла найти как большой круг почитателей и восхищающихся её способностями, так и довольно существенное число скептиков и борцов за торжество Естественного Интеллекта. Мы провели своё небольшое исследование её возможностей, проверили часть фактов, публикуемых в Интернете относительно ошибок и предвзятостей ChatGPT, и рады этим поделиться.

+19

rezedent12 Oct 2 2022 at 01:26

Чем не является интеллект? Ошибки пытающихся создать ИИ с точки зрения философии (материалистической)

11 min

12K

IT TerminologyMachine learning*Reading roomArtificial IntelligenceBiology

From sandbox

Частенько бывает такая ситуация, когда программист ругает менеджера из за рабочего конфликта. Суть критики сводится к тому что менеджер вообще не понимает как устроена “реальная реальность” и пытается везде выехать на “софт-скилах”. Занимается “нетворкингом” вместо изучения чего то хотя бы на начальном уровне, в общем балабольствует и манипулирует понятиями и шаблонами оторванными от реального понимания действительности. А потом этот же программист, в своё свободное время, мечтая о собственном успешном стартапе, пытается создать ИИ общего назначения на основе языковой модели, загружает в обучающий набор данных гигабайты текстов и картинок, ожидая при этом практичного рассудочного мышления от создаваемой нейросети.

+28

129

sid1057 Sep 29 2022 at 19:03

Почему я не верю в бум беспилотных машин в ближайшие пять лет

20 min

33K

Machine learning*RoboticsArtificial IntelligenceTransportThe future is here

From sandbox

Всё описанное далее, личное мнение, претендующее на единственно верное, но не факт, что являющееся таковым. Все лица, компании, метафоры - выдуманные и к реальности отношения не имеют.

Однажды, беседуя с коллегами по цеху о том, почему я не очень хочу заниматься именно беспилотными автомобилями, я сказал, что я не верю в них. А точнее я не верю в их коммерческий запуск в ближайшие пять лет, на что моя подруга позже дала ремарку, что это одно и то же, да и я не выгляжу как человек, который в это не верит. И я вдохновился это всё довольно чётко (хотя ~~где-то~~ почти везде в моём тексте будет включаться режим пьяного деда) обосновать. Так родилась идея лонгрида о том, почему я считаю, что в течение пяти лет если Full Self Driving и появится, то далеко не в коммерческом масштабе.

Хотя мысли все эти могут казаться непоследовательными, от того, что тесно взаимосвязаны, я постараюсь их изложить в порядке некоторой приоритетности проблем (на мой скромный взгляд, конечно), от наиболее поверхностных проблем, до наиболее фундаментальных.

И чтобы не застрять в tl;dr, где я буду описывать сказанные проблемы, вот вам содержание, которое отражает кратко их суть.

+137

569

ZlodeiBaal Apr 21 2021 at 02:14

Тихая революция и новый дикий запад в ComputerVision

7 min

33K

System Analysis and Design*Algorithms*Image processing*Recognitor corporate blogMachine learning*

Technotext 2021

Казалось бы, революция с Computer Vision уже была. В 2012 году выстрелили алгоритмы основанные на сверточных нейронных сетях. Года с 2014 они дошли до продакшна, а года с 2016 заполонили все. Но, в конце 2020 года прошел новый виток. На этот раз не за 4 года, а за один. поговорим о Трансформерах в ComputerVision. В статье будет обзор новинок, которые появились в последний год.

+103

RationalAnswer Mar 31 2022 at 09:03

В какую крипту не страшно вкладывать деньги: выбираем самый надежный стейблкоин из USDT, USDC, BUSD, DAI, UST

14 min

79K

Finance in ITCryptocurrencies

Окончательно разбираемся с выводами о том, какая криптовалюта наименее подвержена рискам внезапного и резкого обесценения; и в какой крипте риск санкционных заморозок минимален.

+108

AndreyStetsenko Aug 23 2019 at 10:56

Улучшаем профиль в LinkedIn перед поиском работы

3 min

119K

IT career

На момент написания статьи, в социальной сети LinkedIn размещено порядка 30 миллионов вакансий от 20 миллионов компаний по всему миру. Не удивительно, что 90% рекрутеров используют LinkedIn как один из основных ресурсов поиска кандидатов.

Правильно оформленный LinkedIn профиль поможет привлечь внимание рекрутеров к вашей кандидатуре. Совместно с командой экспертов по поиску работы за рубежом Relocate.me, мы подготовили короткий гайд по оптимизации профиля LinkedIn перед поиском работы.

Читать дальше →

+11

osipxd Jan 25 2021 at 16:14

Как «приручить» консоль, или 5 шагов к жизни с командной строкой

15 min

24K

Configuring Linux**nix*Shells*red_mad_robot corporate blog

Technotext 2021

Всем привет! Меня зовут Осип, я Android-разработчик в red_mad_robot и я люблю автоматизировать всё, что автоматизируется. В этом мне помогает консоль, поэтому решил поделиться опытом, как настроить командную оболочку так, чтобы в ней было приятно работать и она ежедневно помогала вам решать задачи.

Статья для тех, кто использует Linux или macOS. Если у вас Windows, вы можете использовать WSL (приравнивается к Ubuntu).

+23

kesn Jun 25 2021 at 08:01

Пишем на Питоне сразу хорошо

8 min

45K

Python*

Привет Хабр!

Сегодня я сниму костюм аниматора и вместо развлечений расскажу вам немного за питон.

Я довольно посредственный программист, но иногда мне удаётся усыпить что-нибудь бдительность, и меня считают сеньором. И вот как-то так получилось, что я стал делать много код ревью. Просматривая файл за файлом, я вдруг увидел, что люди и проекты меняются, а вот моменты, к которым я, зануда такая, придираюсь, остаются теми же. Поэтому я решил собрать самые частые паттерны в эту сумбурную статью и надеюсь, что они помогут вам писать более чистый и эффективный питон-код.

+40

yorko Mar 20 2017 at 19:38

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

30 min

516K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных. Ключевое отличие нашей подачи материала от аналогичной в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример такой задачи – это соревнование Kaggle Inclass по идентификации пользователя в Интернете по его последовательности переходов по сайтам.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Все материалы доступны на GitHub.
А вот видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017). В ней, в частности, рассмотрены два бенчмарка соревнования, полученные с помощью логистической регрессии.

Читать дальше →

+50

Coderik Feb 18 2013 at 03:17

Вычисление оптического потока методом Лукаса-Канаде. Теория

7 min

56K

Algorithms*Image processing*

В системах компьютерного зрения и обработки изображений часто возникает задача определения перемещений объектов в трехмерном пространстве с помощью оптического сенсора, то есть видеокамеры. Имея на входе последовательность кадров, необходимо воссоздать запечатленное на них трехмерное пространство и те изменения, которые происходят с ним с течением времени. Звучит сложно, но на практике зачастую достаточно найти смещения двухмерных проекций объектов в плоскости кадра.

Если мы хотим узнать на сколько тот или иной объект объект сместился по отношению к его же положению на предыдущем кадре за то время, которое прошло между фиксацией кадров, то скорее всего в первую очередь мы вспомним про оптический поток (optical flow). Для нахождения оптического потока можно смело воспользоваться готовой протестированной и оптимизированной реализацией одного из алгоритмов, например, из библиотеки OpenCV. При этом, однако, очень невредно разбираться в теории, поэтому я предлагаю всем заинтересованным заглянуть внутрь одного из популярных и хорошо изученных методов. В этой статье нет кода и практических советов, зато есть формулы и некоторое количество математических выводов.

Читать дальше →

+107

Siarshai Sep 10 2018 at 05:17

Оптические трекеры: ASEF и MOSSE

12 min

7.9K

Working with video*Algorithms*Mathematics*Machine learning*

Одна из важных подзадач видеоаналитики — слежение за объектами на видео. Она не настолько примитивна, чтобы пришлось спускаться на попиксельный уровень, но и не настолько сложна, чтобы однозначно требовать для решения многослойную нейронную сеть. Трекинг может использоваться как самоцель, так и в составе других алгоритмов:

Подсчёт уникальных людей, зашедших в определённую зону или перешедших через границу в кадре
Определение типичных маршрутов машин на стоянке и людей в магазине
Автоматический поворот камеры видеонаблюдения при смещении объекта

Даже не глядя в литературу, я могу с уверенностью сказать, что наилучший способ решить поставленную задачу — использовать нейронные сети. В общем-то, дальше можно было бы ничего и не писать, но не всегда в задачу можно кинуться парой GTX 1080Ti. Кому интересно, как отслеживают объекты на видео в таких случаях, прошу под кат. Я попробую не просто объяснить, как работают ASEF и MOSSE трекеры, а подвести вас к решению, чтобы формулы показались очевидными.

Читать дальше →

+15

stabuev Jan 21 2020 at 22:40

Визуальная теория информации (часть 2)

10 min

20K

Mathematics*Machine learning*Statistics in IT

Translation

Вторая часть перевода лонгрида посвященного визуализации концепций из теории информации. Во второй части рассматриваются энтропия, перекрестная энтропия, дивергенция Кульбака-Лейблера, взаимная информация и дробные биты. Все концепции снабжены прекрасными визуальными объяснениями.

Для полноты восприятия, перед чтением второй части, рекомендую ознакомиться с первой.

Читать дальше →

+17

Direvius Nov 25 2021 at 10:07

Встречаем ровер третьего поколения: история создания робота-курьера Яндекса

18 min

68K

Яндекс corporate blogManufacture and development of electronics*Computer hardwareRoboticsDIY

Technotext 2021

Встречайте! Мы выпустили на улицу роботов третьего поколения — модель R3 уже можно встретить в Москве, Иннополисе и США. До конца года мы планируем произвести больше сотни таких роботов, и в дальнейшем будем расширять флот за счёт них.

Меня зовут Алексей, я работаю в Yandex Self-Driving Group: несу ответственность за разработку железа трёх (с половиной) поколений роботов Яндекса. В этой статье я не только коротко расскажу про новое поколение, но и поделюсь историей создания роботов-курьеров. Вы сможете взглянуть их глазами на велосипедиста, узнаете, как собрать прототип из фанеры и трёх гироскутеров, а также почему мы выбрали менее дальнобойные лидары. Всё это я дополню роликами и фотографиями разных этапов разработки. Поехали!

Читать дальше →

+210

266