Как стать автором
Обновить
723.32
Яндекс
Как мы делаем Яндекс
Сначала показывать

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Время на прочтение11 мин
Количество просмотров2.4K

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

Читать далее

Полезные ссылки

Как починить Теслу и спасти праздничное настроение

Время на прочтение9 мин
Количество просмотров35K
Всего голосов 175: ↑171 и ↓4+200
Комментарии91

Perforator: новая система непрерывного профилирования теперь в опенсорсе

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров36K
Всего голосов 145: ↑145 и ↓0+172
Комментарии56

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Время на прочтение17 мин
Количество просмотров57K
Всего голосов 104: ↑99 и ↓5+114
Комментарии144

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Время на прочтение12 мин
Количество просмотров11K

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.

Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

Читать далее

Infrastructure from Code: следующий этап развития IaC на примере Serverless

Время на прочтение11 мин
Количество просмотров2.3K

Всем знакома история, когда менеджер спрашивает: сколько времени нужно, чтобы реализовать ту или иную фичу? Менеджеры или заказчики смотрят на это просто: разработка пишет код, эксплуатация деплоит его и следит, чтобы всё надёжно и хорошо работало. Но в жизни всё оказывается гораздо сложнее, при этом разработка и эксплуатация не стоят на месте и развиваются в инструментарии и подходах.

Меня зовут Виктор Кузённый, и за 15 лет в IT я работал Java‑разработчиком на гособоронзаказ, делал высоконагруженные бэкенды в Кинопоиске, а затем подружился с Serverless в Yandex Cloud, и этот опыт позволил мне познакомиться с разными инструментами разработки, языками программирования, а также инструментами деплоя и управления инфраструктурой.

В статье разберёмся детальнее, что такое IfC, в чём его преимущества и недостатки, а также чем он отличается от IaС и как его дополняет.

Читать далее

«Чистый берег»: как нейросеть в облаке помогает с уборкой побережья Камчатки и Арктики

Время на прочтение13 мин
Количество просмотров1.4K

Ежегодно в Мировой океан попадает более 11 млн тонн пластика — его накопление в водоёмах угрожает не только отдельным видам птиц и животных, но и целым природным экосистемам. В России эта проблема проявляется не столь остро, как, например, в странах Юго‑Восточной Азии, но тем не менее морской мусор встречается регулярно.

В 2024 году команда специалистов Дальневосточного федерального университета (ДВФУ), Кроноцкого заповедника, Центра технологий для общества Yandex Cloud и Школы анализа данных Яндекса (ШАД) запустила проект «Чистый берег», результатом которого стала разработка нейросети, обученной распознавать определённые виды мусора на побережье, что, в свою очередь, позволяет определить его массу и объём.

Меня зовут Дмитрий Сошников, и в этом проекте я выступил в качестве научного руководителя студентов ШАД. В статье расскажем, как готовили данные и обучали нейросеть, какие технологии для этого использовали и как приложения на основе ML помогают планировать работу исследователей и волонтёров.

Читать далее

Горыныч: как и зачем мы создали свой мощный USB-хаб

Время на прочтение11 мин
Количество просмотров18K

Привет, Хабр! Меня зовут Антон, я инженер‑электронщик из отдела умных устройств Яндекса. Сегодня хочу поделиться опытом разработки устройства, с помощью которого мы занимаемся отладкой Станций и заливаем в них прошивки на заводах — мощного USB‑хаба с красивым названием Горыныч.

У Горыныча есть ряд нетривиальных решений, которые сильно отличают его от стандартных USB‑хабов. В нём реализована трансляция USB 3.1 в USB 2.0 для ускорения времени прошивки устройств, установлены контроллеры USB Power Delivery source на каждый порт для питания устройств с различными требованиями к напряжению и мощности, а также 12 независимых COM‑портов для отладки. В итоге к Горынычу можно подключить одновременно 10 мощных устройств — и он спокойно выдержит такую нагрузку.

Читать далее

Отраслевой стандарт защиты данных: методика аудита и наш опыт его прохождения

Время на прочтение9 мин
Количество просмотров1K

Миллионы людей ежедневно пользуются сервисами Яндекса и доверяют нам свои данные. Для нас это большая ответственность, поэтому мы делаем всё, чтобы обеспечить их защиту и конфиденциальность. Чтобы эти слова не оставались просто обещаниями, мы регулярно проходим независимые аудиты систем информационной безопасности.

В апреле 2024 года на конференции Data Fusion мы подписали отраслевой стандарт защиты данных вместе с другими ИТ‑компаниями. И в течение года мы хотели пройти по нему аудит и подтвердить, что мы надёжно защищаем данные. И у нас всё получилось: под катом расскажу о том, как мы проходили проверку и какие результаты получили в итоге.

Статья будет особенно полезна специалистам в области информационной безопасности, которые занимаются или интересуются прохождением аудитов и тестирований.

Читать далее

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

Время на прочтение7 мин
Количество просмотров3.4K

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании.

Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

Читать далее

Как коммитить так, чтобы ваш код принимали мейнтейнеры: путь одного героя

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров11K

Всем привет, меня зовут Юрий Пузыня, я занимаюсь развитием платформы документации Diplodoc в Yandex Infrastructure, которую мы пару лет назад выложили в опенсорс. И сегодня я расскажу лёгкую историю невероятного везения в опенсорсе.

Мой первый коммит как контрибьютора в опенсорс‑проект был смёржен спустя два с половиной года мной же в качестве мейнтейнера этого проекта. И в чём тут история успеха — спросите вы. Но давайте я расскажу всё по порядку.

Читать далее

Магия персональных рекомендаций, или как нейросеть Яндекс Карт подбирает места под интересы пользователей

Время на прочтение9 мин
Количество просмотров4.1K

Сегодня мы запустили в Яндекс Картах новое поколение персональных рекомендаций, которые помогают с выбором мест — для завтрака, прогулки, спонтанного путешествия и других ситуаций. Рекомендации теперь доступны на главном экране приложения, а подбирать локации под вкусы пользователей помогает нейросеть на базе трансформерной архитектуры.

Меня зовут Владимир Жуков, я руководитель группы магии рекомендаций Карт (да, это официальное название), и в этой статье я расскажу, чем наша рекомендательная система отличается от технологий других сервисов, по каким метрикам мы измеряем её качество и как обучаем нейросеть находить тот самый ресторан, музей или парк, который надолго останется фаворитом.

Читать далее

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров43K

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

Читать далее

Пишем свой pastebin, используя только userver

Время на прочтение18 мин
Количество просмотров3.9K

Всем привет! Меня зовут Василий Куликов, я работаю ведущим разработчиком в Техплатформе Екома и Райдтеха Яндекса и последние пять лет разрабатываю фреймворк userver.

Это веб‑фреймворк, который позволяет создавать высоконагруженные отказоустойчивые сервисы на С++. Сегодня я расскажу, как написать на нём игрушечный, но рабочий сервис, который реализует функциональность pastebin.

Читать далее

Открываем instruct-версию YandexGPT 5 Lite

Время на прочтение6 мин
Количество просмотров9.2K

Недавно мы выложили в открытый доступ pretrain-версию модели YandexGPT 5 Lite, обученную нами с помощью технологий Яндекса и без применения каких-либо сторонних моделей. За прошедший месяц в сообществе её скачали более 15 тысяч раз, на её основе создали больше десятка квантизованных моделей и даже дообучили instruct-версии. 

Тем не менее мы видим большой интерес к instruct-версии Яндекса, поэтому сегодня выкладываем её в открытый доступ. В том числе — в совместимом с llama.cpp формате, о чём нас просили на Хабре. Кроме того, мы обновили лицензионное соглашение для обеих моделей так, чтобы применять её стало возможно в ещё большем числе проектов, в том числе во многих коммерческих проектах. 

Для тех, кто хотел бы попробовать новую модель онлайн, она также доступна для выбора в Чате с Алисой и через API в Yandex Cloud.

Читать далее

VSCode, SourceCraft Code Assistant и микроконтроллеры

Уровень сложностиСредний
Время на прочтение34 мин
Количество просмотров7.8K

Сегодня разработка прошивок для микроконтроллеров обычно требует заметно больше времени и ресурсов, чем создание собственно схемы и платы. Со времён ковида прошли времена безраздельного владычества STM32, и теперь регулярно приходится осваивать новые железки. При этом для них зачастую приходится ваять программный инструментарий и библиотеки — поскольку предоставленное производителем обычно неудобно.

В этой статье я расскажу, как использовать VSCode для разработки прошивок под разные архитектуры и как мне в этом помогает SourceCraft Code Assistant от разработчиков Yandex Cloud & Yandex Infrastructure.

Читать далее

Demeter в опенсорсе: реактивное профилирование Android-приложений

Время на прочтение11 мин
Количество просмотров2.4K

Всем привет, меня зовут Вадим Мезенцев, я Android‑разработчик в команде Яндекс Go. Сегодня я хочу рассказать историю о том, как мы искали подход к профилированию нашего приложения, с какими проблемами столкнулись и как в итоге реализовали библиотеку для измерения производительности.

Наша команда часто сталкивалась с проблемами при поиске «узких мест» в производительности приложения. Мы пробовали различные инструменты профилирования, но все они требовали слишком много времени на сбор метрик, анализ и фильтрацию нужных данных. Чтобы решить эту проблему, мы разработали собственное решение, которое сочетает скорость анализа и простоту поиска проблем. Мы создали библиотеку Demeter, которую легко интегрировать в отладочную версию Android‑приложения. Она позволяет получать отчёты о производительности во время использования приложения и переходов между экранами. Такую сборку можно передать команде тестирования, а затем проанализировать отчёты и изучить изменения.

Читать далее

Скриншотное тестирование во фронтенде: современный подход к поиску визуальных багов

Время на прочтение11 мин
Количество просмотров11K

За последние годы скорость развития технологий для создания фронтенд-приложений выросла в разы. Новые фреймворки, библиотеки, инструменты сборки и подходы к разработке появляются практически каждый год. Однако, несмотря на это, основная точка взаимодействия пользователя с продуктом остаётся неизменной — это интерфейс. Именно он формирует впечатление о продукте и, по сути, является окончательной «витриной» всей вашей работы.

Традиционные подходы к тестированию на многих уровнях уже не успевают за реалиями разработки: ручное тестирование становится слишком трудоёмким, а написание unit- или end-to-end-тестов не всегда позволяет отследить именно визуальные изменения. И здесь на помощь приходит методология скриншотного тестирования — мощный инструмент для выявления визуальных багов, появляющихся в интерфейсе. Он позволяет убедиться в том, что ваш продукт отображается так, как задумано, и избавляет команду от многих сюрпризов.

Читать далее

История Ultimate Play the Game — легендарного разработчика игр для ZX Spectrum

Время на прочтение26 мин
Количество просмотров7.8K

Мало какая компания пользуется среди поклонников компьютера ZX Spectrum такой любовью и уважением, как Ultimate Play the Game. За свою недолгую историю она выпустила два с лишним десятка игр, бóльшая часть которых моментально становились бестселлерами. Многие из них мы ставим на «Спектрумы» в Яндекс Музеях. Особенной любовью публики пользуются Jetpac и Knight Lore, причём последняя зачастую заставляет посетителей удивлённо переспрашивать: «А этой игре точно недавно стукнуло 40 лет?»

В шедевры Ultimate Play the Game я начал играть с того момента, как у меня появился ZX Spectrum — то есть с 1991 года. Тогда мало кто знал, откуда появилась эта компания и как она умудрилась наделать такое количество прекрасных игр за столь короткое время.

И вот, спустя много‑много лет, я решил найти ответы на эти вопросы. Для этого я достал с полки все фирменные игры Ultimate, купленные в Великобритании, для удобства скачал их образы из интернета и потратил несколько дней, чтобы как следует в них наиграться. А затем обложился журналами Crash, Your Sinclair и Sinclair User, нашёл в интернете несколько десятков статей про Ultimate Play the Game и её создателей… И погрузился в расследование.

Кто же эти гении, буквально за полтора года прошедшие путь от Jetpac до Knight Lore? И почему информации о создании всех игр Ultimate так мало? Давайте разбираться вместе.

Читать далее

Доставка день в день: погружение в базовые алгоритмы поиска и назначения курьеров в Яндекс Доставке

Уровень сложностиСложный
Время на прочтение27 мин
Количество просмотров4.3K

Всем привет! Меня зовут Сергей Хорошеньких, я руковожу службой исследований и разработки в Яндекс Доставке. Наша команда изучает и внедряет алгоритмы, которые повышают операционную эффективность сервиса.

Изначально Яндекс Доставка была тарифом внутри Яндекс Такси. Но спрос был таким большим, что довольно быстро стало ясно: надо развивать доставку как отдельный продукт, покрывающий множество пользовательских сценариев. И с 2019 года Яндекс Доставка стала самостоятельным сервисом.

Доставка день в день — это не только сценарий «сходи за меня в магазин», но и возможность передать посылку с помощью сервиса. Эти сценарии объединяет то, что они происходят в рамках одного города. Про этот вид доставки мы и поговорим: я расскажу, что уже изобретено для этого сценария, а чего нам не хватало и какие задачи предстояло решить с помощью алгоритмов доставки.

Читать далее

NeurIPS: тренды, инсайты и самые интересные статьи главной ML-конференции года

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.3K

Привет! Меня зовут Настя Беззубцева, и я руковожу аналитикой голоса в Алисе. Недавно побывала на одной из крупнейших международных конференций по машинному обучению — NeurIPS (Conference on Neural Information Processing Systems). Конференция проходила в большом экспоцентре в Ванкувере, куда от Яндекса приехало несколько человек.

А ещё на NeurIPS приняли восемь статей Yandex Research — исследовательского подразделения Яндекса (о них я, конечно же, подробно расскажу). А ещё в этой статье я поделюсь самыми интересными работами и с моей точки зрения, и по отзывам коллег — Кати Серажим, руководителя управления качества поиска, и Алексея Друца, Director, Technology Adoption at Yandex Cloud. Поехали!

Читать далее

Как Яндекс запускает роботов-доставщиков в новых районах и городах

Время на прочтение12 мин
Количество просмотров4.5K

Встретить робота‑доставщика на улицах Москвы — привычное дело. Ещё они развозят заказы в Иннополисе и Мурино, побывали на Красной Поляне и совсем недавно изучили один из районов Алматы. При этом запуск доставки роботом в новом районе или городе — это достаточно сложная процедура. Нужно определить локацию для запуска, записать и отрисовать карты, наладить инфраструктуру, протестировать все процессы, организовать поддержку для роботов.

Но несмотря на такой большой объём работ, весь процесс весьма интересный. Именно о нём я и расскажу в этой статье. Под катом — история о том, как мы поставили робота «на колёса» в Казахстане, показывали ему город для записи данных и учили объезжать арыки.

Читать далее

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

Время на прочтение19 мин
Количество просмотров6K

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее
1
23 ...

Информация

Сайт
www.ya.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия