Articles / Bookmarks / Profile of mishex / Habr

@mishex

User

Profile Publications Comments Bookmarks 11

Demin_Konstantin Feb 16 2023 at 12:11

Как мы запускали SSP-систему, боролись с высокими нагрузками и прокачивали навыки

11 min

2.6K

Smartup corporate blogJavaScript*Amazon Web Services*Kubernetes*

Case

В этот раз к нам пришел клиент, желавший запустить собственную SSP (Supply-Side Platform). Это система, которая позволяет владельцам отдельных сайтов или целых сетей продавать рекламные места и получать доход от размещения объявлений. У клиента уже был реализован MVP системы, но оставалось еще много работы.

Меня зовут Сергей Дербуш, я архитектор в компании «СмартАп Технолоджи». Расскажу о том, что мы доделывали, чтобы система заработала на полную, и как это бустануло навыки всей команды.

RTBSape Mar 16 2023 at 13:05

Как сайты зарабатывают в Яндексе: в чем разница между РСЯ и Adfox + Header Bidding

6 min

13K

Web services monetization*Display advertising*

Review

Recovery Mode

Разберемся в самом понятном способе монетизации для владельцев сайтов — а именно в сервисах Яндекса по монетизации трафика: РСЯ и Adfox. Тема сейчас для многих актуальная, поскольку после отключения других крупных площадок в 2022-м приходилось концентрировать внимание именно на Яндексе и его предложениях, но не все понимают разницу и подводные камни.

-2

NatalieVT May 24 at 10:18

Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса

11 min

16K

Яндекс corporate blogHigh performance*System Analysis and Design*Machine learning*

«Баннерная крутилка» — один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка должна просмотреть базу из миллиарда документов и выбрать из них самые релевантные для пользователя. При этом выдерживаются весьма жесткие временные рамки: 99% всех запросов обрабатываются менее чем за 200 миллисекунд.

Какими принципами стоит руководствоваться при построении подобных высоконагруженных систем? Как устроены стадии отбора документов? Какое участие в ранжировании принимает ML? Обо всём этом на недавнем мероприятии для разработчиков в Ереване рассказал Артём Ваншулин, руководитель разработки ранжирования в команде баннерной системы. Сегодня мы делимся с сообществом текстовой версией его доклада. Передаём ему слово.

+35

tdvsdv Nov 9 2018 at 08:12

PMP. Сдача экзамена. Что стоит учесть и зачем это нужно

5 min

7.7K

Education abroadPersonnel Management*Product Management*Project management*Development Management*

Недавно я стал обладателем заветного сертификата, подтверждающего степень PMP.

И на волне этого счастья хочется поделиться с сообществом советами: что стоит учесть при подготовке к экзамену.

Читать дальше →

NewTechAudit Feb 25 2022 at 12:53

Тематическое моделирование с использованием эмбеддингов BERT

7 min

12K

Machine learning*Programming*Python*Reading room

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель - BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

gofixyourself Jun 2 2023 at 11:06

Ускоряем процесс разметки с помощью интерактивной сегментации

Medium

14 min

6.4K

SberDevices corporate blogImage processing*Machine learning*Artificial Intelligence

Review

Всем привет! Сегодня поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации. Сегментационные модели применяются в распознавании событий и объектов в видео (Video Understanding), анализе медицинских снимков и в управлении беспилотных автомобилей, а также с их помощью реализована замена фона в приложениях для видеозвонков, бьютификация и автоматическая ретушь фотографий. SberDevices тоже активно разрабатывают свои решения для семантической сегментации – недавно мы рассказывали про задачу замены фона и бьютификацию в нашей статье, в которой представили новый большой opensource датасет для Portrait Segmentation и Face Parsing вместе с набором предобученных моделей.

+13

kucev Apr 6 2023 at 21:45

Segment Anything: создание первой базисной модели для сегментации изображений

9 min

5.1K

Image processing*Machine learning*Artificial IntelligenceData Mining*Big Data*

Translation

Сегментация, то есть распознавание пикселей изображения, принадлежащих объекту — базовая задача компьютерного зрения, используемая в широком спектре применений, от анализа научных снимков до редактирования фотографий. Однако для создания точной модели сегментации под конкретные задачи обычно требуется высокоспециализированный труд технических экспертов, имеющих доступ к инфраструктуре обучения ИИ и большим объёмам тщательно аннотированных данных, относящихся к предметной области.

Наша лаборатория Meta AI* стремится сделать сегментацию более доступной, основав проект Segment Anything: новую задачу, датасет и модель для сегментации изображений (подробности см. в нашей исследовательской статье). Мы публикуем нашу Segment Anything Model (SAM) и датасет масок Segment Anything 1-Billion mask dataset (SA-1B) (крупнейший в мире датасет сегментации), чтобы их можно было использовать во множестве разных областей и стимулировать дальнейшие исследования базисных моделей компьютерного зрения. Мы открываем доступ к датасету SA-1B, позволяя использовать его в исследовательских целях; модель Segment Anything Model доступна по открытой лицензии (Apache 2.0). Вы можете протестировать демо SAM со своими собственными изображениями.

* Принадлежит корпорации Meta Platforms, которая признана экстремистской организацией, её деятельность в России запрещена.

Читать дальше →

+14

cointegrated Jun 10 2021 at 02:16

Маленький и быстрый BERT для русского языка

9 min

61K

Semantics*Programming*Data Mining*Machine learning*Natural Language Processing*

Technotext 2021

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

+57

hivaze Mar 11 at 16:15

Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась

Medium

9 min

6.6K

Точка corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Привет, Хабр! Если вы интересуетесь NLP или просто современными DL моделями, то приглашаю вас узнать, как можно, имея всего лишь одну A100, около 30 гигабайтов текста и несколько дней обучения, решить проблему ограниченного окна контекста для русскоязычных трансформеров. А ещё сделаем несколько оптимизаций и добьёмся почти лучших метрик в бенчмарке encodechka.

Погрузиться в контекст

+14

VladVin Apr 4 2021 at 13:49

Как построить свою систему поиска похожих изображений

10 min

29K

Search engines*Image processing*Artificial Intelligence

В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

+49

DimkoChe Sep 25 2010 at 03:21

Использование коэффициента Танимото для поиска людей с одинаковыми предпочтениями

3 min

12K

Algorithms*

From sandbox

Решая упражнения к книге «Программируем коллективный разум», я решил поделиться реализацией одного из алгоритмов упомянутого в этой книге (Глава 2 — Упражнение 1).

Исходные условия следующие: пусть мы имеем словарь с оценками критиков:

critics={'Lisa Rose': {'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 'The Night Listener': 3.0},
'Gene Seymour': {'Superman Returns': 5.0, 'The Night Listener': 3.5, 'You, Me and Dupree': 3.5}}

Чем выше оценка, тем больше нравится фильм.
Надо вычислить: насколько схожи интересы критиков для того, например, чтобы можно было на основе оценок одного рекомендовать фильмы другому?

Читать дальше →

+91