Статьи / Профиль AIgent

Смит@AIgent_Smith

Пользователь

Рейтинг

ПрофильСтатьи6ПостыНовости2Комментарии3

AIgent_Smith 10 июл в 10:56

Как мы ускорили разметку видеопоиска в десятки раз и не потеряли качество: опыт внедрения VLM-асессора

Средний

8 мин

11K

Блог компании VKМашинное обучение * Поисковые технологии * Высоконагруженные системы * Big Data *

Кейс

Современный поиск по видеоконтенту — это высоконагруженная система, требующая молниеносной реакции и безупречной релевантности. Сервис VK Видео оперирует колоссальной базой в 500 миллионов видеороликов и ежедневно обрабатывает около 10 миллионов запросов пользователей. При времени ответа в 0,5 секунды и нагрузке в 1800 RPS алгоритмам необходимо моментально находить именно тот контент, который ожидает увидеть зритель. Однако развитие алгоритмов ранжирования невозможно без качественных данных, на которых они обучаются.

Традиционный подход с использованием ручной разметки асессорами долгое время оставался индустриальным стандартом, но на масштабах сотен тысяч видео он неизбежно становится бутылочным горлышком продуктовой разработки.

Меня зовут Владислав Чернышев, я руководитель группы качества поиска по видео в AI VK. В этой статье подробно расскажу про путь перехода от классической ручной разметки к гибридной VLM-системе, разберу ошибки и инфраструктурные барьеры, которые пришлось преодолеть для кратного ускорения процессов подготовки обучающих датасетов и офлайн-оценки качества поиска.

Переходим к VLM-системе

+31

AIgent_Smith 1 июл в 12:00

Как создавали нейропоиск Discovery AI — технологию для крупнейшей контентной базы в РФ

Сложный

9 мин

11K

Блог компании VKМашинное обучение * Алгоритмы * Поисковые технологии * Искусственный интеллект

Кейс

Привет! Меня зовут Евгений Астафуров, я ведущий разработчик в Отделе экспериментальных технологий AI VK. Мы разрабатываем Discovery AI — набор ИИ‑технологий для интеллектуального поиска, рекомендаций и взаимодействия с контентом. В него вошли нейропоиск, анализ контекста, персонализация, генеративные модели и рекомендательные алгоритмы, чтобы помогать пользователям находить нужную информацию, получать релевантные ответы и новый контент.

В этой статье подробно разберу архитектуру технологии нейропоиска в Discovery AI, которая объединяет большую языковую модель (LLM), поиск, инференс и данные многомиллиардной контентной базы VK. Технология становится важным компонентом развития рекомендательных и поисковых систем в наших продуктах и будет поэтапно внедряться в сервисы для пользователей, авторов и бизнеса (Дзен, VK, Медиапроекты Mail, VK Видео и другие).

Нейропоиск

+24

AIgent_Smith 9 апр в 08:59

Три разработки студентов ИМШ, которые могут изменить ИТ-индустрию

Простой

5 мин

6.2K

Блог компании VKИскусственный интеллектМашинное обучение * Учебный процесс в ITКарьера в IT-индустрии

Кейс

Привет, Хабр. Сегодня делимся кейсами студентов Инженерно-математической школы (или просто ИМШ) — совместного образовательного проекта VK и НИУ ВШЭ в сфере машинного обучения, развития высоконагруженных систем и технологий ИИ. Здесь студенты участвуют в проектных мастерских: учатся, предлагают и реализуют идеи, которые уже сейчас влияют на будущее ИТ.

Трое студентов школы кратко расскажут о своих проектах, учёбе в ИМШ и опыте работы над реальными задачами в проектах VK.

А ещё вы узнаете:

- о том, какие навыки помогает прокачать учёба в ИМШ;

- что делает студенческие проекты полноценными научно-прикладными работами, которые хорошо выглядят в резюме;

- как попасть в ИМШ.

+34

AIgent_Smith 29 янв в 08:56

Как AI VK построили единую платформу для рекомендаций, поиска и рекламы в продуктах с многомиллионной аудиторией

Сложный

7 мин

12K

Блог компании VKBig Data * Искусственный интеллектХранение данных * Машинное обучение *

Обзор

Привет! На связи команда рекомендаций AI VK. Фактически в каждом продукте есть и рекомендации и поиск, и чтобы каждой команде не приходилось изобретать свой «велосипед», мы разработали единую Discovery-платформу. С ней команды могут «по кнопке» запускать рекомендации, тестировать модели, а также делиться лучшими решениями.

В статье поделились подробностями о том, что из себя представляет единая Discovery-платформа и какие результаты уже заметны.

Переходите под кат, будет интересно ⬇️

Про Discovery-платформу

+47

AIgent_Smith 26 ноя 2025 в 09:17

Датасет VK-LSVD помогает тестировать алгоритмы рекомендаций: сейчас на его базе проходит VK RecSys Challenge

Средний

7 мин

7.8K

Блог компании VKАлгоритмы * Big Data * Работа с видео * Машинное обучение *

Обзор

Сейчас в открытом доступе мало крупных датасетов сервисов коротких видео, но это уникальный формат для рекомендательных алгоритмов. В отличие от музыки или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя реакцию. Даже если он не оставит лайк, досмотр видео до конца или пропуск уже считаются обратной связью. Именно поэтому мы выложили в открытый доступ датасет VK-LSVD. С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы.

Как работать с VK-LSVD

+35

AIgent_Smith 24 июл 2025 в 09:05

RuModernBERT и USER2: эволюция русскоязычных энкодеров

9 мин

6.8K

Блог компании VKМашинное обучение * Искусственный интеллектNatural Language Processing *

Кейс

Привет, Хабр!

В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы:

•Pre‑train‑модели (BERT, RoBERTa, DeBERTa).
Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу.

•Энкодеры текстов (SBERT).
Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами.

В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

+40