Яндекс, Москва - Как мы делаем Яндекс / Статьи / Хабр

Профиль Статьи 1.9K Посты 7 Новости 27 Подписчики 202K

hommforever 12 часов назад

Яндекс запустил Нейро. Рассказываем, как он работает

Средний

14 мин

16K

Блог компании Яндекс Поисковые технологии *Алгоритмы *Машинное обучение *Искусственный интеллект

Сегодня мы запустили новый сервис Нейро — новый способ поиска ответов на вопросы. Пользователь может задать Нейро любой вопрос, а тот сам подберёт подходящие материалы в Поиске, проанализирует их и соберёт найденную информацию в одном ответе, подкрепив его ссылками на источники. Нейро объединил опыт Яндекса в создании поисковых технологий и больших языковых моделей.

Меня зовут Андрей Сюткин, и я отвечаю за ML-трек в Нейро. В этой статье покажу, как выглядит архитектура Нейро и как формируются ответы на технологическом уровне. Ну и, конечно же, поговорим о нейросетях, в том числе о YandexGPT 3, без обучения которых новый сервис просто не увидел бы свет.

+47

20 ноя 2023 в 10:02

Что ты такое, dhclient?

19 мин

37K

Кейс

✏️ Технотекст 2023

+221

27 сен 2023 в 10:00

Хороший ретрай, плохой ретрай, или История одного падения

Средний

17 мин

37K

+152

14 мар в 10:00

Как работает кнопка Mute на Яндекс Станции. Подробный разбор логики и схем

Средний

7 мин

39K

+108

195

MikeLukashin 15 апр в 10:00

Как и зачем мы строили 3D-модели достопримечательностей на Картах

15 мин

3.7K

Блог компании Яндекс Работа с 3D-графикой *Геоинформационные сервисы *Дизайн Урбанизм

За последний год мы добавили много нового на Яндекс Карты: например, высокодетализированные дороги с подробной разметкой, растительность, а ещё совершенно новые, цветные и детальные 3D-модели достопримечательностей. Их можно увидеть, приблизив, например, Пушкинский музей, главное здание МГУ, Казанский собор и другие известные места во многих городах России и мира.

Привет, меня зовут Миша, я старший дизайнер продукта в Яндекс Картах. В этой статье я расскажу об особенностях запуска 3D-моделей достопримечательностей на Картах, о том, как они помогают пользователям, и, конечно, о тонкостях процесса дизайна и производства.

+23

iltsarev 11 апр в 11:30

Может ли мобильный-разработчик стать CTO?

Простой

20 мин

5.5K

Блог компании Яндекс Разработка мобильных приложений *Управление разработкой *Карьера в IT-индустрии

Мнение

Да, может. На этом статью можно было бы закончить. Спасибо, что дочитали до конца, приходите поделиться своим опытом в комментариях.

Если серьёзно, карьера мобильного разработчика, который хочет вырасти в большого руководителя, может складываться по-разному. Например, мой путь начался в 2013 году, и за это время я успел поработать и в маленьких стартапах, и в больших корпорациях. Сейчас я Director of Engineering в Яндекс Go. Последние шесть лет я управляю разными командами разного размера: от 5 до 200+ человек.

В этой статье я хочу рассказать, какие есть пути развития в мобильной разработке, что делать, если ты уже тимлид, кто такие крутые Individual Contributors (топовые разработчики) и как стать одним из них. Обо всём этом читайте под катом: попробуем разобраться, как расти и куда это может завести.

+21

Limows 10 апр в 10:00

История ритм-игр: от «Саймона» до Just Dance

Простой

12 мин

1.1K

Блог компании Яндекс Разработка игр *История IT Старое железо Игры и игровые консоли

Не помню, в какую первую ритм-игру мне удалось сыграть. Был ли это Dance Dance Revolution в аркадном зале или Patapon на PSP? А вообще, кажется, это были мини-игры в «Рататуе» на PlayStation 2 (помните этого маленького крыса?). Так или иначе, ещё до этого я часто выстукивал или насвистывал всякие ритмы из услышанных мною песен. И как-то так получилось, что с возрастом эта любовь к видеоиграм в целом и ритм-играм в частности только росла.

Когда открылся Яндекс Музей на Павелецкой, там сразу была доступна ритм-игра Taiko — совершенно новое для меня развлечение. Потом я сам принёс Wii с гитарами, подтянулись игры на PlayStation 2 и 3… Короче, мой кругозор относительно этого жанра серьёзно расширился.

А так как я, знаете ли, тоже своего рода историк, мне стало интересно, откуда вообще появились ритм-игры. Возможно, какая-то из них была самой самой первой и зародила жанр. Да и когда были выпущены известные нам сегодня аркадные и домашние проекты?

С этими вопросами я отправился в интернет. Оказалось, что русскоязычной информации довольно мало и как обычно пришлось глубоко закапываться в иностранные версии Википедии и веб-архив. Итогом моего исследования стала эта статья. И сегодня я хочу рассказать вам о том, как началась история ритм-игр. Мы коснёмся далеко не всех представителей жанра, но постараемся проследить процесс его становления и развития.

+16

snk4tr 9 апр в 10:15

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

16 мин

9.2K

Блог компании Яндекс Блог компании Yandex Cloud & Yandex Infrastructure Обработка изображений *Машинное обучение *Искусственный интеллект

В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию API YandexART — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором доступно несколько моделей машинного обучения, включая YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.

+37

vadvolo 4 апр в 10:30

Автоматизируем сеть Яндекса с Милошем: сервис конфигураций оборудования

19 мин

6.3K

Блог компании Яндекс Блог компании Yandex Cloud & Yandex Infrastructure IT-инфраструктура *Сетевые технологии *Сетевое оборудование

Задумывались ли вы о том, как изменить конфигурацию сразу на нескольких сетевых устройствах? Что, если нужно сделать это на всей сети с сотнями и тысячами единиц оборудования? А что, если приходится делать это каждый месяц на железе от пяти разных производителей? Очевидное решение для подобных задач — автоматизация. Но реализовать её можно не одним способом, а в процессе наткнуться не на одни грабли.

Меня зовут Вадим Воловик, и я руковожу проектами разработки в Yandex Infrastructure. Наша команда NOCDEV отвечает за автоматизацию сетей всего Яндекса. Давно хотелось рассказать о задачах такого масштаба, но по ходу написания материала стало понятно, что тема тянет на целый цикл. Так что мы с коллегами расскажем о самых интересных примерах автоматизации в отдельных постах.

В этой статье проведём небольшую экскурсию по нашему сетевому «хозяйству» в десятки тысяч устройств и остановимся подробнее на том, как при таком объёме мы автоматически обновляем конфигурации.

+26

sergiorussia 3 апр в 10:00

Как мы переехали с Oracle на PostgreSQL в нагруженном сервисе без даунтайма

Средний

30 мин

21K

Блог компании Яндекс Oracle *PostgreSQL *Администрирование баз данных *

Кейс

Всем привет! Я Сергей, работаю в B2B-команде Яндекс Маркета последние 3,5 года. Как уже понятно из заголовка, сейчас я вам расскажу про yet-another-миграцию с базы на базу, которая началась в середине 2021 года и заняла почти год. Получается, мемуары.

Вас ждёт рассказ о том, как мы:

- несколько месяцев чинили тесты и делали трансформер;

- десятки раз переливали данные;

- чинили баги незаметно для пользователей;

- заставили сервис работать на PostgreSQL быстрее, чем он работал на Oracle.

+88

roman-gorb 2 апр в 10:01

Ускорение инференса LLM

Средний

13 мин

6.2K

Блог компании Яндекс Программирование *Алгоритмы *Машинное обучение *Искусственный интеллект

Инференсом ML-модели называют процесс её работы на конечном устройстве. Соответственно, чем больше мы разгоняем инференс, тем быстрее работает модель. Скорость может зависеть от разных условий, например, от архитектуры, которую вы выбрали для модели, или от железа, на котором работает устройство. Кроме того, проблема тяжёлого инференса остро ощущается на больших языковых моделях (LLM) так остро, как ни на каких других моделях.

Меня зовут Роман Горб, я старший ML-разработчик в команде YandexGPT. Тема инференса LLM заинтересовала меня, потому что я занимался R&D в квантовании сеток для CV-задач. Сегодня я расскажу, как безболезненно увеличить скорость инференса. Сперва разберёмся, зачем это нужно, а потом рассмотрим разные методы ускорения и фреймворки, которые могут в этом помочь.

Ускоряемся

+30

levdikpavel 29 мар в 10:00

Внутри S3. Доклад Яндекса

12 мин

16K

Блог компании Яндекс Блог компании Yandex Cloud & Yandex Infrastructure Высокая производительность *PostgreSQL *Go *

Привет, я Паша, разработчик в Yandex Infrastructure, и я катаю гусей. С 2019 года я развиваю S3-хранилище как для внутренних пользователей Яндекса, так и для клиентов Yandex Cloud. А «гусём» называется наш бэкенд S3 API: он написан на Go, а из словосочетания Go + S3 получился goose. Возможно, вы также слышали про GeeseFS — это наш высокопроизводительный FUSE-клиент для S3. C его помощью вы можете на своём ноутбуке или виртуалке подмонтировать папку, которая будет работать с бакетом S3.

Для чего нам «гуси» и прочая орнитология? Яндексовая инсталляция хранилища S3 хранит миллиарды файлов. Это огромные объёмы данных, а также метаданных. Для хранения метаданных мы научились использовать умное шардирование, и теперь сами управляем распределением занятого места и нагрузкой между шардами баз.

Так что сегодня я расскажу, как сделать так, чтобы ни один клиент, даже с самым неудобным паттерном нагрузки, не положил сервис.

+80

doroginin 28 мар в 13:00

Адаптация мобильного приложения для пользователей скринридеров. Опыт Яндекс Лавки

14 мин

2.3K

Блог компании Яндекс Веб-разработка *Интерфейсы *HTML *Accessibility *

Приложениями пользуются разные люди, и некоторым из них для этого нужны вспомогательные технологии — например, скринридеры (программы экранного доступа). Такие программы могут озвучить контент на странице, если приложение соответствует определённым стандартам. Например, они могут прочесть текст из параграфов и заголовков, списки, альтернативные описания изображений, ссылки, переключатели и другие интерактивные элементы. Таким образом скринридеры обеспечивают доступ незрячих пользователей к контенту и сервисам.

Повышая доступность интерфейса для пользователей скринридеров, мы также улучшаем его доступность и для людей с другими особенностями здоровья. Например, для тех, кто использует системную настройку «Экран вслух» или взаимодействует с интерфейсом с помощью голосового управления.

Однако навигация со скринридерами по страницам и экранам отличается от обычной, поэтому нужно соблюдать несколько правил при сборке интерфейса приложений.

Привет! Я Вячеслав Дорогинин, занимаюсь фронтендом WebView клиентского приложения Лавки. В этой статье расскажу, как мы адаптировали приложение для работы с популярными скринридерами, с какими трудностями столкнулись и как их решили.

+22

antoshkka 28 мар в 10:08

C++26 — прогресс и новинки от ISO C++

Средний

7 мин

20K

Блог компании Яндекс Программирование *C++ *Компиляторы *IT-стандарты *

Работа в комитете по стандартизации языка C++ активно кипит. Недавно состоялось очередное заседание. Как один из участников, поделюсь сегодня с Хабром свежими новостями и описанием изменений, которые планируются в С++26.

До нового стандарта C++ остаётся чуть больше года, и вот некоторые новинки, которые попали в черновик стандарта за последние две встречи:

запрет возврата из функции ссылок на временное значение,
[[indeterminate]] и уменьшение количества Undefined Behavior,
диагностика при =delete;,
арифметика насыщения,
линейная алгебра (да-да! BLAS и немного LAPACK),
индексирование variadic-параметров и шаблонов ...[42],
вменяемый assert(...),
и другие приятные мелочи.

Помимо этого, вас ждут планы и прогресс комитета по большим фичам и многое другое.

Рассмотрим новинки на примерах

+61

118

topright007 22 мар в 12:25

Как мы лечили раздвоение встреч в конференциях на базе Jitsi

Средний

14 мин

4.2K

Блог компании Яндекс Блог компании Яндекс 360 Java *SQL *Видеоконференцсвязь

Кейс

Привет! Меня зовут Дима. Я из команды бэкенда Яндекс Телемоста — сервиса для проведения видеовстреч, который входит в Яндекс 360. Перед нами стоит задача не просто предоставить сервис, а предоставить отказоустойчивый и надёжный сервис, который работает 24/7 и обслуживает весь мир.

Телемост создан на основе open source решения Jitsi meet — оно постоянно развивается благодаря вкладу комьюнити, но при этом имеет свои ограничения. В статье расскажу, как мы встретили один редкий, но интересный плавающий баг. И конечно, как его лечили.

+28

zakhmatov 21 мар в 10:00

Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать

10 мин

Блог компании Яндекс Спам и антиспам Информационная безопасность *Машинное обучение *Искусственный интеллект

Несколько лет назад увидеть DDoS-атаку было целым событием. Если такое и случалось, то инцидент тщательно анализировала целая команда специалистов, а каждая извлечённая крупица информации использовалась для обучения моделей, формирования новых факторов и улучшения подходов для защиты от новых потенциальных атак.

Но постепенно число атак увеличивалось, и в какой-то момент отбить очередной DDoS стало обычным делом. Только за прошедший 2023 год мы в Яндексе отразили 1002 атаки. В этом нам помогло инхаус-решение — Антиробот, который работает на уровне L7 сетевой модели OSI.

В этом посте я хочу рассказать о том, как работает, на чём обучается Антиробот и с какими атаками ему приходится иметь дело. А ещё расскажу, почему важно системно подходить к анализу каждой атаки и как ML помогает отражать их.

+31

re9ulus 19 мар в 10:00

Quantization Deep Dive, или Введение в современную квантизацию

Средний

16 мин

12K

Блог компании Яндекс Программирование *Алгоритмы *Машинное обучение *Искусственный интеллект

✏️ Технотекст 2023

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая живёт в умных колонках Яндекса и ждёт от пользователя слова «Алиса». Одной из моих задач в этой команде была квантизация моделей. На пользовательских устройствах мало ресурсов, и мы решили, что за счёт квантизации сможем их сэкономить — так в итоге и вышло.

Потом я перешёл в команду YandexGPT. Вместо маленьких моделей я стал работать с очень крупными. Мне стало интересно, как устроена квантизация больших языковых моделей (LLM). Ещё меня очень впечатляли истории, где люди берут гигантские нейросети, квантизируют в 4 бита и умудряются запускать их на ноутбуках. Я решил разобраться, как это делается, и собрал материал на доклад для коллег и друзей. А потом пришла мысль поделиться знаниями с более широкой аудиторией, оформив их в статью. Так я и оказался на Хабре :)

Надеюсь, погружение в тему квантизации будет интересно как специалистам, так и энтузиастам в сфере обучения нейросетей. Я постарался написать статью, которую хотел бы прочитать сам, когда только начинал изучать, как заставить модели работать эффективнее. В ней мы подробно разберём, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а ещё рассмотрим разные типы данных и современные методы квантизации.

+81

Kreyl 14 мар в 10:00

Как работает кнопка Mute на Яндекс Станции. Подробный разбор логики и схем

Средний

7 мин

39K

Блог компании Яндекс Схемотехника *Производство и разработка электроники *Гаджеты Компьютерное железо

✏️ Технотекст 2023

Привет! На связи Геннадий «Крэйл» Круглов из команды, которая разрабатывает аппаратную часть Яндекс Станций. С кем-то из читателей Хабра мы уже могли познакомиться в рамках мероприятий Я.Железа, где делимся опытом разработки устройств.

Последние несколько лет мы с командой вынашивали идею публичного рассказа об устройстве отдельной взятой части наших умных колонок — кнопки Mute. Эта тема вызывает живой интерес, поскольку напрямую касается приватности. Мы часто говорили о том, что Mute отключает микрофоны физически, но как именно это происходит — не рассказывали. В итоге вопросы копились, но руки, как это обычно бывает, до статьи не доходили. Пожалуй, вернём сегодня этот должок.

В этом посте мы расскажем о нашем основном решении для кнопки Mute. Вы увидите, что у процессора устройства нет физической возможности управлять питанием микрофонов, а значит, обойти кнопку программным способом невозможно. Мы опубликуем схемы и расскажем, как они работают. Сначала на языке, который поймут коллеги-инженеры. В конце — резюмируем простыми словами для всех. Надеюсь, будет интересно и полезно.

+108

195

nProfessor 12 мар в 10:30

Мы пилили монолит — много нас, а он один. Полезные советы от команды Яндекс Еды

Простой

14 мин

16K

Блог компании Яндекс Веб-разработка *PHP *Программирование *Проектирование и рефакторинг *

Кейс

Про микросервисную архитектуру и переход на неё написаны сотни статей, однако почти все они больше теоретические и описывают ситуацию лишь верхнеуровнево. Редко где прочтёшь про то, как люди бесшовно вынесли высоконагруженный кусок монолита в отдельный сервис без даунтайма и факапов или даже с ними. Интересно узнать, какими же инструментами они пользовались, как подготавливались, каких подходов придерживались и какие выводы на будущее сделали. Всё это — полезный опыт, который может помочь избежать проблем. Вот я и подумал, что стоит им поделиться.

Распилить

+36

avdosev 4 мар в 10:00

Как мы научили YandexGPT пересказывать видео

Средний

14 мин

14K

Блог компании Яндекс Браузеры Машинное обучение *Искусственный интеллект Natural Language Processing *

✏️ Технотекст 2023

Порой бывает сложно перематывать длинный ролик в надежде найти хоть что-то интересное или тот самый момент из Shorts. Или иногда хочется за ночь узнать, о чём шла речь на паре научных конференций. Для этого в Браузере есть волшебная кнопка — «Пересказать», которая экономит время и помогает лучше понять, стоит ли смотреть видео, есть ли в нём полезная информация, и сразу перейти к интересующей части.

Сегодня я расскажу про модель, которая быстро перескажет видео любой длины и покажет таймкоды для каждой части. Под катом — история о том, как мы смогли выйти за лимиты контекста модели и научить её пересказывать даже очень длинные видео.

+63

vltsu 27 фев в 10:09

Как мы оцифровали футбольные матчи с помощью CV

11 мин

7.7K

Блог компании Яндекс Работа с видео *Анализ и проектирование систем *Обработка изображений *Искусственный интеллект

Кейс

✏️ Технотекст 2023

Привет! Меня зовут Владимир Цуканов, я СТО спортивного направления в Яндекс Плюсе. Мы занимаемся съёмкой, обработкой и стримингом спортивных событий. В этом посте я расскажу о работе с технической съёмкой и анализом футбольных матчей.

Расскажу о том, как и на что снимать футбол, если вы хотите его проанализировать, какие есть сложности в плане распознавания толпы бегающих спортсменов, как отреагирует машинное зрение, если за мяч начнётся нешуточная борьба, чем вся эта затея полезна для тренеров и экспертов и многое, многое другое.

+42

zhurus 21 фев в 11:00

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

17 мин

16K

Блог компании Яндекс Блог компании Yandex Cloud & Yandex Infrastructure Машинное обучение *Научно-популярное Data Engineering *

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений.

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.

+36

NatalieVT 13 фев в 12:15

Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

Простой

11 мин

11K

Блог компании Яндекс Браузеры Машинное обучение *Искусственный интеллект IT-компании

✏️ Технотекст 2023

Сегодня мы выпускаем большое обновление для Браузера с рекордным числом изменений, в основе которых лежат нейросети или другие методы машинного обучения. Теперь Браузер исправит ошибки в тексте, сократит или улучшит его, перескажет видео с японского или корейского, распознает QR-код в трансляции и предложит перейти по ссылке в один клик, а также защитит от фишинг-страниц и не только.

В этой статье расскажем, как мы обучали нейросеть с помощью учебника Розенталя, как модель, отвечающая за субтитры, понимает, что начал говорить другой человек, почему не каждый QR-код легко распознать и за счёт чего мы научились ловить фишинговые сайты, которые появились буквально 5 минут назад. Обо всём этом — под катом.

+55

2 3 ...

95 96

Яндекс запустил Нейро. Рассказываем, как он работает

Полезные ссылки

Что ты такое, dhclient?

Хороший ретрай, плохой ретрай, или История одного падения

Как работает кнопка Mute на Яндекс Станции. Подробный разбор логики и схем

Как и зачем мы строили 3D-модели достопримечательностей на Картах

Может ли мобильный-разработчик стать CTO?

История ритм-игр: от «Саймона» до Just Dance

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

Автоматизируем сеть Яндекса с Милошем: сервис конфигураций оборудования

Как мы переехали с Oracle на PostgreSQL в нагруженном сервисе без даунтайма

Ускорение инференса LLM

Внутри S3. Доклад Яндекса

Адаптация мобильного приложения для пользователей скринридеров. Опыт Яндекс Лавки

C++26 — прогресс и новинки от ISO C++

Как мы лечили раздвоение встреч в конференциях на базе Jitsi

Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать

Quantization Deep Dive, или Введение в современную квантизацию

Как работает кнопка Mute на Яндекс Станции. Подробный разбор логики и схем

Мы пилили монолит — много нас, а он один. Полезные советы от команды Яндекс Еды

Как мы научили YandexGPT пересказывать видео

Как мы оцифровали футбольные матчи с помощью CV

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Помощь с текстом, перевод видео с японского и корейского, распознавание QR-кодов — что умеет обновлённый Яндекс Браузер

Информация