Как стать автором
Обновить
687.85
Яндекс
Как мы делаем Яндекс
Сначала показывать

Diplodoc 5.0: как ускорить сборку документации в пять раз

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров807

Diplodoc — опенсорс‑платформа для работы с документацией в парадигме Docs as Code, которая создаётся в Яндексе силами команд Yandex Infrastructure и Yandex Cloud и является частью наших опенсорс‑инструментов. С её помощью мы собираем всю документацию компании. Это суммарно более 300 тысяч статей в более чем 2500 документационных проектов и порядка 6000 запусков Diplodoc CLI каждый день.

На таких объёмах нам важно быть эффективными — умеренно расходовать ресурсы сборочных ферм и при этом собирать проекты как можно быстрее, чтобы документаторы могли увидеть финальный результат без смены контекста на чай.

Со временем, скорость CLI заметно деградировала. С одной стороны, платформа прирастала полезными функциями, это увеличивало время обработки контента, с другой — размер документации вырос и для некоторых продуктов перевалил за тысячу файлов.

Больше всего от растущего времени сборки страдали технические писатели: для просмотра внесенных изменений им требовалось собирать документацию целиком и на больших проектах это стало приводить к ожиданию более 10 минут. С десятками тысяч правок документации ежедневно эти десятки минут складываются в человеко‑месяцы простоя, которые никому не идут на пользу. Поэтому мы приняли решение всё это основательно причесать.

Читать далее

Полезные ссылки

Как починить Теслу и спасти праздничное настроение

Время на прочтение9 мин
Количество просмотров35K
Всего голосов 175: ↑171 и ↓4+200
Комментарии91

Perforator: новая система непрерывного профилирования теперь в опенсорсе

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров38K
Всего голосов 145: ↑145 и ↓0+172
Комментарии56

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Время на прочтение17 мин
Количество просмотров60K
Всего голосов 104: ↑99 и ↓5+114
Комментарии144

Редизайн Яндекс Карт: почему мы перекрасили дороги

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров33K

Не выразить словами, как волнительно и, чего уж там, страшно презентовать редизайн Яндекс Карт!

Работая над сервисом, которым ежедневно пользуются члены твоей семьи, репетитор по английскому, ребята из футбольной команды и ещё десятки миллионов человек, чувствуешь особую ответственность. Ведь при таких масштабах даже самое мелкое изменение влияет на опыт взаимодействия с картой огромного количества людей.

Угодить всем тяжело, так что отслеживание и пропуск через себя «болей» тех, кому наши изменения поломали привычки или просто пришлись не по вкусу, — не самая приятная, но важная часть нашей работы. Однако страх и желание любой ценой никого не обидеть способны парализовать, и порой надо быть смелым, чтобы внести изменения, необходимость которых уже назрела.

Сегодня мы обновили внешний вид Яндекс Карт. Одно из главных изменений затронуло отображение дорог: они обзавелись детальной разметкой и сменили привычный жёлтый цвет на серый — как в реальной жизни. Хочу рассказать о процессе поиска дизайн‑решений и раскрыть, почему были сделаны эти и другие изменения, а их в редизайне довольно много.

Читать далее

Как мы встроили 32-битный Internet Explorer в 64-битный Яндекс Браузер для организаций

Время на прочтение17 мин
Количество просмотров9.1K

Многие организации с богатой историей всё ещё завязаны на устаревшие внутренние системы Internet Explorer, включая ActiveX‑модули, работающие только в его окружении. Такие решения сложно и дорого переписать, особенно в финансовом секторе, поэтому компании вынуждены поддерживать несколько браузеров одновременно — для новых сервисов и старых критически важных систем.

В статье расскажем, как Яндекс Браузер для организаций позволяет запускать и современные веб‑приложения, и наследие эпохи IE в одном окне, помогает справляться с legacy‑наследием и облегчает переход к актуальным технологиям.

Читать далее

TI-99/4A — популярный компьютер, который принёс одни убытки

Время на прочтение25 мин
Количество просмотров12K

Среди компьютеров, которые есть в Яндекс Музее, особенно заметен TI-99/4A американской компании Texas Instruments. Он выделяется стильным чёрно‑серебристым корпусом, странным пустым пространством справа от клавиатуры, необычной горизонтальной «загрузкой» картриджей и, конечно же, своей уникальной историей.

Мало про какой компьютер можно сказать: «Он здорово продавался, но с треском провалился» — как правило, верно либо первое, либо второе утверждение. Но TI-99/4A — случай уникальный. Его история — это рассказ о жадности, мести, недальновидности, странных решениях, безумной ценовой войне, неожиданных анонсах и предсказуемых последствиях.

Одним словом, это очень увлекательная история, которую мне давно хотелось рассказать. И вот, как следует изучив стоящий в нашем Музее TI-99/4A, перелопатив с добрую сотню сайтов и несколько десятков журналов, сопоставив несколько спорящих друг с другом хронологий и выстроив более‑менее стройную картину событий, я готов поделиться ею с вами.

Читать далее

Как мы создали новую технологию маршрутизации для пешеходов и велосипедистов

Время на прочтение12 мин
Количество просмотров4K

Каждый день в Яндекс Картах строят миллионы пешеходных и велосипедных маршрутов. Несмотря на популярность, этот тип маршрутизации давно не менялся. В прошлом году мы решили его улучшить: проанализировали недостатки и узнали, что на самом деле нужно пользователям. Теперь мы готовы поделиться результатами крупного обновления наших маршрутов.

Меня зовут Антон Овчинкин, я руководитель разработки пешеходной и транспортной навигации в Картах. Я расскажу, как мы научили алгоритмы обходить промзоны, создали ML‑модель расчёта времени в пути с учётом светофоров и подъёмов, а ещё — как связана пешеходная маршрутизация и подсчёт калорий.

Читать далее

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Время на прочтение7 мин
Количество просмотров10K

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов.

Читать далее

Infrastructure-as-Code — разбираемся в терминах и смотрим на реализацию в Яндексе

Время на прочтение13 мин
Количество просмотров4.7K

Привет! Это Николай Гриценко, ведущий технический менеджер в Yandex Infrastructure — команде, которая создаёт и развивает внутреннюю инфраструктуру Яндекса, от сетей и дата‑центров до инфраструктуры разработки. Я занимаюсь направлением Internal Developer Platform (IDP). Вместе с коллегами мы много разрабатывали наши собственные инструменты по оркестрации выкладки кода.

В этой статье разберёмся в терминах, попытаемся понять, что же вообще такое инфраструктура как код или IaC, какие бывают инструменты, какие виды и что у нас с этим в Яндексе.

Читать далее

Большое обновление DivKit: визуальный редактор, поддержка форм, аниматоры

Время на прочтение8 мин
Количество просмотров3K

Почти три года назад мы выложили в опенсорс DivKit — наш BDUI‑фреймворк для отрисовки интерфейса приложения из ответа сервера. С его помощью вы можете описать элементы, состояния и анимации на бэкенде. Приложение получит это JSON‑описание и отобразит его.

Мы не перестаём развивать DivKit и за последние месяцы добавили несколько важных функций. О них расскажем в статье.

Читать далее

SQL-линтер на Rust, HTML-минификатор для .NET и эмулятор DOS в браузере: кто получил гранты Yandex Open Source

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.6K

В конце октября мы анонсировали продление программы грантов от Yandex Open Source для поддержки проектов независимых разработчиков. Пришло время подвести итоги и рассказать о победителях.

За прошедшие месяцы мы изучили 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Кстати, одну из заявок мы получили 15 марта в 23:59 — в последнюю минуту подачи. Этот проект тоже есть среди победителей.

Так мы выбрали 12 проектов, которые показались нам самыми интересными, полезными и перспективными. Мы попросили победителей рассказать про свои проекты чуть подробнее. Кто знает, возможно, в этой статье вы найдёте для себя новые инструменты, которые будут полезны в вашем проекте.

Читать далее

Сделали copilot-сервис для техподдержки и делимся секретами RAG c глубоким пониманием контекста

Время на прочтение21 мин
Количество просмотров25K

Сегодня мы запускаем Yandex Neurosupport — сервис, который генерирует умные подсказки для операторов контакт‑центра. Он выполняет функции второго пилота: нейросеть анализирует текстовые вопросы клиентов и предлагает оператору вариант ответа. В основе лежат облегчённые модели семейства YandexGPT, дообученные на инструкциях для операторов более чем 50 сервисов Яндекса. Cервис можно внедрить в свой интерфейс через Yandex Cloud по API или же развернуть в on‑premise‑окружении.

Технологическим ядром выступает RAG — звучит просто, но здесь не обошлось без добавления особой яндексовой магии. В этой статье вместе с ребятами из нашей команды ML B2B‑проектов, а также коллегами из команды базовой технологии, Yandex Cloud, «Маркета» и «Еды» расскажем подробнее, как вместе делали этот сервис и каких результатов достигли.

Читать далее

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

Время на прочтение10 мин
Количество просмотров1.9K

Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров.

Читать далее

Трамплин в интернет: как мы ускорили запуск Яндекс Браузера

Время на прочтение6 мин
Количество просмотров5.5K

Привет! Это снова Максим из Яндекс Браузера. Мы с командой продолжаем делиться историями об интересных и неочевидных оптимизациях производительности, которые внедряем в наш браузер. В прошлый раз мы писали о том, как улучшили стабильность GPU‑процесса, воспользовавшись оптимизациями в драйверах видеокарт, сделанными специально для Google Chrome. А сегодня речь пойдёт об ускорении старта нашего браузера на Windows.

Читать далее

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Время на прочтение11 мин
Количество просмотров5.4K

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

Читать далее

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Время на прочтение12 мин
Количество просмотров28K

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.

Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

Читать далее

Infrastructure from Code: следующий этап развития IaC на примере Serverless

Время на прочтение11 мин
Количество просмотров3.5K

Всем знакома история, когда менеджер спрашивает: сколько времени нужно, чтобы реализовать ту или иную фичу? Менеджеры или заказчики смотрят на это просто: разработка пишет код, эксплуатация деплоит его и следит, чтобы всё надёжно и хорошо работало. Но в жизни всё оказывается гораздо сложнее, при этом разработка и эксплуатация не стоят на месте и развиваются в инструментарии и подходах.

Меня зовут Виктор Кузённый, и за 15 лет в IT я работал Java‑разработчиком на гособоронзаказ, делал высоконагруженные бэкенды в Кинопоиске, а затем подружился с Serverless в Yandex Cloud, и этот опыт позволил мне познакомиться с разными инструментами разработки, языками программирования, а также инструментами деплоя и управления инфраструктурой.

В статье разберёмся детальнее, что такое IfC, в чём его преимущества и недостатки, а также чем он отличается от IaС и как его дополняет.

Читать далее

«Чистый берег»: как нейросеть в облаке помогает с уборкой побережья Камчатки и Арктики

Время на прочтение13 мин
Количество просмотров1.9K

Ежегодно в Мировой океан попадает более 11 млн тонн пластика — его накопление в водоёмах угрожает не только отдельным видам птиц и животных, но и целым природным экосистемам. В России эта проблема проявляется не столь остро, как, например, в странах Юго‑Восточной Азии, но тем не менее морской мусор встречается регулярно.

В 2024 году команда специалистов Дальневосточного федерального университета (ДВФУ), Кроноцкого заповедника, Центра технологий для общества Yandex Cloud и Школы анализа данных Яндекса (ШАД) запустила проект «Чистый берег», результатом которого стала разработка нейросети, обученной распознавать определённые виды мусора на побережье, что, в свою очередь, позволяет определить его массу и объём.

Меня зовут Дмитрий Сошников, и в этом проекте я выступил в качестве научного руководителя студентов ШАД. В статье расскажем, как готовили данные и обучали нейросеть, какие технологии для этого использовали и как приложения на основе ML помогают планировать работу исследователей и волонтёров.

Читать далее

Горыныч: как и зачем мы создали свой мощный USB-хаб

Время на прочтение11 мин
Количество просмотров22K

Привет, Хабр! Меня зовут Антон, я инженер‑электронщик из отдела умных устройств Яндекса. Сегодня хочу поделиться опытом разработки устройства, с помощью которого мы занимаемся отладкой Станций и заливаем в них прошивки на заводах — мощного USB‑хаба с красивым названием Горыныч.

У Горыныча есть ряд нетривиальных решений, которые сильно отличают его от стандартных USB‑хабов. В нём реализована трансляция USB 3.1 в USB 2.0 для ускорения времени прошивки устройств, установлены контроллеры USB Power Delivery source на каждый порт для питания устройств с различными требованиями к напряжению и мощности, а также 12 независимых COM‑портов для отладки. В итоге к Горынычу можно подключить одновременно 10 мощных устройств — и он спокойно выдержит такую нагрузку.

Читать далее

Отраслевой стандарт защиты данных: методика аудита и наш опыт его прохождения

Время на прочтение9 мин
Количество просмотров1.3K

Миллионы людей ежедневно пользуются сервисами Яндекса и доверяют нам свои данные. Для нас это большая ответственность, поэтому мы делаем всё, чтобы обеспечить их защиту и конфиденциальность. Чтобы эти слова не оставались просто обещаниями, мы регулярно проходим независимые аудиты систем информационной безопасности.

В апреле 2024 года на конференции Data Fusion мы подписали отраслевой стандарт защиты данных вместе с другими ИТ‑компаниями. И в течение года мы хотели пройти по нему аудит и подтвердить, что мы надёжно защищаем данные. И у нас всё получилось: под катом расскажу о том, как мы проходили проверку и какие результаты получили в итоге.

Статья будет особенно полезна специалистам в области информационной безопасности, которые занимаются или интересуются прохождением аудитов и тестирований.

Читать далее

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

Время на прочтение7 мин
Количество просмотров3.9K

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании.

Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

Читать далее

Как коммитить так, чтобы ваш код принимали мейнтейнеры: путь одного героя

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров12K

Всем привет, меня зовут Юрий Пузыня, я занимаюсь развитием платформы документации Diplodoc в Yandex Infrastructure, которую мы пару лет назад выложили в опенсорс. И сегодня я расскажу лёгкую историю невероятного везения в опенсорсе.

Мой первый коммит как контрибьютора в опенсорс‑проект был смёржен спустя два с половиной года мной же в качестве мейнтейнера этого проекта. И в чём тут история успеха — спросите вы. Но давайте я расскажу всё по порядку.

Читать далее
1
23 ...

Информация

Сайт
www.ya.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия