Статьи / Закладки / Профиль mishex / Хабр

@mishex

Пользователь

Профиль Публикации Комментарии Закладки 11

Demin_Konstantin 16 фев 2023 в 12:11

Как мы запускали SSP-систему, боролись с высокими нагрузками и прокачивали навыки

11 мин

2.6K

Блог компании SmartupJavaScript*Amazon Web Services*Kubernetes*

Кейс

В этот раз к нам пришел клиент, желавший запустить собственную SSP (Supply-Side Platform). Это система, которая позволяет владельцам отдельных сайтов или целых сетей продавать рекламные места и получать доход от размещения объявлений. У клиента уже был реализован MVP системы, но оставалось еще много работы.

Меня зовут Сергей Дербуш, я архитектор в компании «СмартАп Технолоджи». Расскажу о том, что мы доделывали, чтобы система заработала на полную, и как это бустануло навыки всей команды.

RTBSape 16 мар 2023 в 13:05

Как сайты зарабатывают в Яндексе: в чем разница между РСЯ и Adfox + Header Bidding

6 мин

13K

Монетизация веб-сервисов*Медийная реклама*

Обзор

Recovery Mode

Разберемся в самом понятном способе монетизации для владельцев сайтов — а именно в сервисах Яндекса по монетизации трафика: РСЯ и Adfox. Тема сейчас для многих актуальная, поскольку после отключения других крупных площадок в 2022-м приходилось концентрировать внимание именно на Яндексе и его предложениях, но не все понимают разницу и подводные камни.

-2

NatalieVT 24 мая в 10:18

Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса

11 мин

16K

Блог компании ЯндексВысокая производительность*Анализ и проектирование систем*Машинное обучение*

«Баннерная крутилка» — один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка должна просмотреть базу из миллиарда документов и выбрать из них самые релевантные для пользователя. При этом выдерживаются весьма жесткие временные рамки: 99% всех запросов обрабатываются менее чем за 200 миллисекунд.

Какими принципами стоит руководствоваться при построении подобных высоконагруженных систем? Как устроены стадии отбора документов? Какое участие в ранжировании принимает ML? Обо всём этом на недавнем мероприятии для разработчиков в Ереване рассказал Артём Ваншулин, руководитель разработки ранжирования в команде баннерной системы. Сегодня мы делимся с сообществом текстовой версией его доклада. Передаём ему слово.

+35

tdvsdv 9 ноя 2018 в 08:12

PMP. Сдача экзамена. Что стоит учесть и зачем это нужно

5 мин

7.7K

Образование за рубежомУправление персоналом*Управление продуктом*Управление проектами*Управление разработкой*

Недавно я стал обладателем заветного сертификата, подтверждающего степень PMP.

И на волне этого счастья хочется поделиться с сообществом советами: что стоит учесть при подготовке к экзамену.

Читать дальше →

NewTechAudit 25 фев 2022 в 12:53

Тематическое моделирование с использованием эмбеддингов BERT

7 мин

12K

Машинное обучение*Программирование*Python*Читальный зал

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель - BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

gofixyourself 2 июн 2023 в 11:06

Ускоряем процесс разметки с помощью интерактивной сегментации

Средний

14 мин

6.4K

Блог компании SberDevicesИскусственный интеллектМашинное обучение*Обработка изображений*

Обзор

Всем привет! Сегодня поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации. Сегментационные модели применяются в распознавании событий и объектов в видео (Video Understanding), анализе медицинских снимков и в управлении беспилотных автомобилей, а также с их помощью реализована замена фона в приложениях для видеозвонков, бьютификация и автоматическая ретушь фотографий. SberDevices тоже активно разрабатывают свои решения для семантической сегментации – недавно мы рассказывали про задачу замены фона и бьютификацию в нашей статье, в которой представили новый большой opensource датасет для Portrait Segmentation и Face Parsing вместе с набором предобученных моделей.

+13

kucev 6 апр 2023 в 21:45

Segment Anything: создание первой базисной модели для сегментации изображений

9 мин

5.1K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Сегментация, то есть распознавание пикселей изображения, принадлежащих объекту — базовая задача компьютерного зрения, используемая в широком спектре применений, от анализа научных снимков до редактирования фотографий. Однако для создания точной модели сегментации под конкретные задачи обычно требуется высокоспециализированный труд технических экспертов, имеющих доступ к инфраструктуре обучения ИИ и большим объёмам тщательно аннотированных данных, относящихся к предметной области.

Наша лаборатория Meta AI* стремится сделать сегментацию более доступной, основав проект Segment Anything: новую задачу, датасет и модель для сегментации изображений (подробности см. в нашей исследовательской статье). Мы публикуем нашу Segment Anything Model (SAM) и датасет масок Segment Anything 1-Billion mask dataset (SA-1B) (крупнейший в мире датасет сегментации), чтобы их можно было использовать во множестве разных областей и стимулировать дальнейшие исследования базисных моделей компьютерного зрения. Мы открываем доступ к датасету SA-1B, позволяя использовать его в исследовательских целях; модель Segment Anything Model доступна по открытой лицензии (Apache 2.0). Вы можете протестировать демо SAM со своими собственными изображениями.

* Принадлежит корпорации Meta Platforms, которая признана экстремистской организацией, её деятельность в России запрещена.

Читать дальше →

+14

cointegrated 10 июн 2021 в 02:16

Маленький и быстрый BERT для русского языка

9 мин

61K

Семантика*Программирование*Data Mining*Машинное обучение*Natural Language Processing*

Технотекст 2021

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

+57

hivaze 11 мар в 16:15

Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась

Средний

9 мин

6.6K

Блог компании ТочкаМашинное обучение*Искусственный интеллектNatural Language Processing*

Привет, Хабр! Если вы интересуетесь NLP или просто современными DL моделями, то приглашаю вас узнать, как можно, имея всего лишь одну A100, около 30 гигабайтов текста и несколько дней обучения, решить проблему ограниченного окна контекста для русскоязычных трансформеров. А ещё сделаем несколько оптимизаций и добьёмся почти лучших метрик в бенчмарке encodechka.

Погрузиться в контекст

+14

VladVin 4 апр 2021 в 13:49

Как построить свою систему поиска похожих изображений

10 мин

29K

Поисковые технологии*Обработка изображений*Искусственный интеллект

В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

+49

DimkoChe 25 сен 2010 в 03:21

Использование коэффициента Танимото для поиска людей с одинаковыми предпочтениями

3 мин

12K

Алгоритмы*

Из песочницы

Решая упражнения к книге «Программируем коллективный разум», я решил поделиться реализацией одного из алгоритмов упомянутого в этой книге (Глава 2 — Упражнение 1).

Исходные условия следующие: пусть мы имеем словарь с оценками критиков:

critics={'Lisa Rose': {'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 'The Night Listener': 3.0},
'Gene Seymour': {'Superman Returns': 5.0, 'The Night Listener': 3.5, 'You, Me and Dupree': 3.5}}

Чем выше оценка, тем больше нравится фильм.
Надо вычислить: насколько схожи интересы критиков для того, например, чтобы можно было на основе оценок одного рекомендовать фильмы другому?

Читать дальше →

+91