Яндекс, Москва - Как мы делаем Яндекс / Статьи / Хабр

Как стать автором

ПрофильСтатьи1.2KПосты20Новости71Подписчики243K

irm1n 11 часов назад

Отраслевой стандарт защиты данных: методика аудита и наш опыт его прохождения

9 мин

329

Блог компании ЯндексИнформационная безопасность*IT-стандарты*

Миллионы людей ежедневно пользуются сервисами Яндекса и доверяют нам свои данные. Для нас это большая ответственность, поэтому мы делаем всё, чтобы обеспечить их защиту и конфиденциальность. Чтобы эти слова не оставались просто обещаниями, мы регулярно проходим независимые аудиты систем информационной безопасности.

В апреле 2024 года на конференции Data Fusion мы подписали отраслевой стандарт защиты данных вместе с другими ИТ‑компаниями. И в течение года мы хотели пройти по нему аудит и подтвердить, что мы надёжно защищаем данные. И у нас всё получилось: под катом расскажу о том, как мы проходили проверку и какие результаты получили в итоге.

Статья будет особенно полезна специалистам в области информационной безопасности, которые занимаются или интересуются прохождением аудитов и тестирований.

Читать далее

+9

10 янв в 10:00

Как починить Теслу и спасти праздничное настроение

9 мин

35K

+200

30 янв в 11:00

Perforator: новая система непрерывного профилирования теперь в опенсорсе

Средний

21 мин

36K

Обзор

✏️ Технотекст 7

+172

25 фев в 08:58

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

17 мин

56K

+114

psushin 16 апр в 14:00

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

7 мин

2.4K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*Высокая производительность*Big Data*

Роадмэп

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании.

Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

Читать далее

+28

3y3 11 апр в 10:00

Как коммитить так, чтобы ваш код принимали мейнтейнеры: путь одного героя

Простой

11 мин

4K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*Программирование*Карьера в IT-индустрии

Всем привет, меня зовут Юрий Пузыня, я занимаюсь развитием платформы документации Diplodoc в Yandex Infrastructure, которую мы пару лет назад выложили в опенсорс. И сегодня я расскажу лёгкую историю невероятного везения в опенсорсе.

Мой первый коммит как контрибьютора в опенсорс‑проект был смёржен спустя два с половиной года мной же в качестве мейнтейнера этого проекта. И в чём тут история успеха — спросите вы. Но давайте я расскажу всё по порядку.

Читать далее

+38

zhvv117 9 апр в 11:00

Магия персональных рекомендаций, или как нейросеть Яндекс Карт подбирает места под интересы пользователей

9 мин

3.6K

Блог компании ЯндексМашинное обучение*Алгоритмы*Искусственный интеллектГеоинформационные сервисы*

Сегодня мы запустили в Яндекс Картах новое поколение персональных рекомендаций, которые помогают с выбором мест — для завтрака, прогулки, спонтанного путешествия и других ситуаций. Рекомендации теперь доступны на главном экране приложения, а подбирать локации под вкусы пользователей помогает нейросеть на базе трансформерной архитектуры.

Меня зовут Владимир Жуков, я руководитель группы магии рекомендаций Карт (да, это официальное название), и в этой статье я расскажу, чем наша рекомендательная система отличается от технологий других сервисов, по каким метрикам мы измеряем её качество и как обучаем нейросеть находить тот самый ресторан, музей или парк, который надолго останется фаворитом.

Читать далее

+23

AndreyGodin 7 апр в 08:00

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

Средний

13 мин

40K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureИнженерные системы*IT-инфраструктура*IT-стандарты*

Ретроспектива

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

Читать далее

+123

segoon 2 апр в 10:00

Пишем свой pastebin, используя только userver

18 мин

3.8K

Блог компании ЯндексPostgreSQL*C++*Программирование*

Всем привет! Меня зовут Василий Куликов, я работаю ведущим разработчиком в Техплатформе Екома и Райдтеха Яндекса и последние пять лет разрабатываю фреймворк userver.

Это веб‑фреймворк, который позволяет создавать высоконагруженные отказоустойчивые сервисы на С++. Сегодня я расскажу, как написать на нём игрушечный, но рабочий сервис, который реализует функциональность pastebin.

Читать далее

+38

andbout 31 мар в 08:04

Открываем instruct-версию YandexGPT 5 Lite

6 мин

8.4K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании ЯндексИскусственный интеллектМашинное обучение*Open source*

Недавно мы выложили в открытый доступ pretrain-версию модели YandexGPT 5 Lite, обученную нами с помощью технологий Яндекса и без применения каких-либо сторонних моделей. За прошедший месяц в сообществе её скачали более 15 тысяч раз, на её основе создали больше десятка квантизованных моделей и даже дообучили instruct-версии.

Тем не менее мы видим большой интерес к instruct-версии Яндекса, поэтому сегодня выкладываем её в открытый доступ. В том числе — в совместимом с llama.cpp формате, о чём нас просили на Хабре. Кроме того, мы обновили лицензионное соглашение для обеих моделей так, чтобы применять её стало возможно в ещё большем числе проектов, в том числе во многих коммерческих проектах.

Для тех, кто хотел бы попробовать новую модель онлайн, она также доступна для выбора в Чате с Алисой и через API в Yandex Cloud.

Читать далее

+58

Kreyl 27 мар в 10:00

VSCode, SourceCraft Code Assistant и микроконтроллеры

Средний

34 мин

7.2K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureПрограммирование микроконтроллеров*Visual Studio*Искусственный интеллект

Сегодня разработка прошивок для микроконтроллеров обычно требует заметно больше времени и ресурсов, чем создание собственно схемы и платы. Со времён ковида прошли времена безраздельного владычества STM32, и теперь регулярно приходится осваивать новые железки. При этом для них зачастую приходится ваять программный инструментарий и библиотеки — поскольку предоставленное производителем обычно неудобно.

В этой статье я расскажу, как использовать VSCode для разработки прошивок под разные архитектуры и как мне в этом помогает SourceCraft Code Assistant от разработчиков Yandex Cloud & Yandex Infrastructure.

Читать далее

+44

Armageddon 20 мар в 10:00

Demeter в опенсорсе: реактивное профилирование Android-приложений

11 мин

2.2K

Блог компании ЯндексРазработка мобильных приложений*Разработка под Android*Высокая производительность*Open source*

Сезон Open source

Всем привет, меня зовут Вадим Мезенцев, я Android‑разработчик в команде Яндекс Go. Сегодня я хочу рассказать историю о том, как мы искали подход к профилированию нашего приложения, с какими проблемами столкнулись и как в итоге реализовали библиотеку для измерения производительности.

Наша команда часто сталкивалась с проблемами при поиске «узких мест» в производительности приложения. Мы пробовали различные инструменты профилирования, но все они требовали слишком много времени на сбор метрик, анализ и фильтрацию нужных данных. Чтобы решить эту проблему, мы разработали собственное решение, которое сочетает скорость анализа и простоту поиска проблем. Мы создали библиотеку Demeter, которую легко интегрировать в отладочную версию Android‑приложения. Она позволяет получать отчёты о производительности во время использования приложения и переходов между экранами. Такую сборку можно передать команде тестирования, а затем проанализировать отчёты и изучить изменения.

Читать далее

+25

sipayrt 18 мар в 10:00

Скриншотное тестирование во фронтенде: современный подход к поиску визуальных багов

11 мин

10K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureТестирование веб-сервисов*Интерфейсы*Open source*

За последние годы скорость развития технологий для создания фронтенд-приложений выросла в разы. Новые фреймворки, библиотеки, инструменты сборки и подходы к разработке появляются практически каждый год. Однако, несмотря на это, основная точка взаимодействия пользователя с продуктом остаётся неизменной — это интерфейс. Именно он формирует впечатление о продукте и, по сути, является окончательной «витриной» всей вашей работы.

Традиционные подходы к тестированию на многих уровнях уже не успевают за реалиями разработки: ручное тестирование становится слишком трудоёмким, а написание unit- или end-to-end-тестов не всегда позволяет отследить именно визуальные изменения. И здесь на помощь приходит методология скриншотного тестирования — мощный инструмент для выявления визуальных багов, появляющихся в интерфейсе. Он позволяет убедиться в том, что ваш продукт отображается так, как задумано, и избавляет команду от многих сюрпризов.

Читать далее

+41

mikhailsudakov 13 мар в 11:00

История Ultimate Play the Game — легендарного разработчика игр для ZX Spectrum

26 мин

7.7K

Блог компании ЯндексРазработка игр*История ITСтарое железоДизайн игр*

✏️ Технотекст 7

Мало какая компания пользуется среди поклонников компьютера ZX Spectrum такой любовью и уважением, как Ultimate Play the Game. За свою недолгую историю она выпустила два с лишним десятка игр, бóльшая часть которых моментально становились бестселлерами. Многие из них мы ставим на «Спектрумы» в Яндекс Музеях. Особенной любовью публики пользуются Jetpac и Knight Lore, причём последняя зачастую заставляет посетителей удивлённо переспрашивать: «А этой игре точно недавно стукнуло 40 лет?»

В шедевры Ultimate Play the Game я начал играть с того момента, как у меня появился ZX Spectrum — то есть с 1991 года. Тогда мало кто знал, откуда появилась эта компания и как она умудрилась наделать такое количество прекрасных игр за столь короткое время.

И вот, спустя много‑много лет, я решил найти ответы на эти вопросы. Для этого я достал с полки все фирменные игры Ultimate, купленные в Великобритании, для удобства скачал их образы из интернета и потратил несколько дней, чтобы как следует в них наиграться. А затем обложился журналами Crash, Your Sinclair и Sinclair User, нашёл в интернете несколько десятков статей про Ultimate Play the Game и её создателей… И погрузился в расследование.

Кто же эти гении, буквально за полтора года прошедшие путь от Jetpac до Knight Lore? И почему информации о создании всех игр Ultimate так мало? Давайте разбираться вместе.

Читать далее

+60

serkh 11 мар в 10:00

Доставка день в день: погружение в базовые алгоритмы поиска и назначения курьеров в Яндекс Доставке

Сложный

27 мин

4.2K

Блог компании ЯндексАлгоритмы*Программирование*Анализ и проектирование систем*

Всем привет! Меня зовут Сергей Хорошеньких, я руковожу службой исследований и разработки в Яндекс Доставке. Наша команда изучает и внедряет алгоритмы, которые повышают операционную эффективность сервиса.

Изначально Яндекс Доставка была тарифом внутри Яндекс Такси. Но спрос был таким большим, что довольно быстро стало ясно: надо развивать доставку как отдельный продукт, покрывающий множество пользовательских сценариев. И с 2019 года Яндекс Доставка стала самостоятельным сервисом.

Доставка день в день — это не только сценарий «сходи за меня в магазин», но и возможность передать посылку с помощью сервиса. Эти сценарии объединяет то, что они происходят в рамках одного города. Про этот вид доставки мы и поговорим: я расскажу, что уже изобретено для этого сценария, а чего нам не хватало и какие задачи предстояло решить с помощью алгоритмов доставки.

Читать далее

+29

nstbezz 7 мар в 11:00

NeurIPS: тренды, инсайты и самые интересные статьи главной ML-конференции года

Простой

17 мин

2.3K

Блог компании ЯндексИскусственный интеллектКонференцииМашинное обучение*

Обзор

Привет! Меня зовут Настя Беззубцева, и я руковожу аналитикой голоса в Алисе. Недавно побывала на одной из крупнейших международных конференций по машинному обучению — NeurIPS (Conference on Neural Information Processing Systems). Конференция проходила в большом экспоцентре в Ванкувере, куда от Яндекса приехало несколько человек.

А ещё на NeurIPS приняли восемь статей Yandex Research — исследовательского подразделения Яндекса (о них я, конечно же, подробно расскажу). А ещё в этой статье я поделюсь самыми интересными работами и с моей точки зрения, и по отзывам коллег — Кати Серажим, руководителя управления качества поиска, и Алексея Друца, Director, Technology Adoption at Yandex Cloud. Поехали!

Читать далее

+20

Viktoriia1998 6 мар в 10:00

Как Яндекс запускает роботов-доставщиков в новых районах и городах

12 мин

4.4K

Блог компании ЯндексРобототехникаАлгоритмы*УрбанизмГеоинформационные сервисы*

Встретить робота‑доставщика на улицах Москвы — привычное дело. Ещё они развозят заказы в Иннополисе и Мурино, побывали на Красной Поляне и совсем недавно изучили один из районов Алматы. При этом запуск доставки роботом в новом районе или городе — это достаточно сложная процедура. Нужно определить локацию для запуска, записать и отрисовать карты, наладить инфраструктуру, протестировать все процессы, организовать поддержку для роботов.

Но несмотря на такой большой объём работ, весь процесс весьма интересный. Именно о нём я и расскажу в этой статье. Под катом — история о том, как мы поставили робота «на колёса» в Казахстане, показывали ему город для записи данных и учили объезжать арыки.

Читать далее

+35

snk4tr 4 мар в 10:00

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

19 мин

5.8K

Блог компании ЯндексМашинное обучение*Искусственный интеллектОбработка изображений*Алгоритмы*

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее

+30

bznk 3 мар в 10:01

Processing as a Service в бэкенде: как этот принцип помогает заказам выживать

17 мин

2.7K

Блог компании ЯндексВысокая производительность*Анализ и проектирование систем*Программирование*

Меня зовут Игорь Березняк, я руковожу разработкой процессинга в Техплатформе Екома и Райдтеха Яндекса — платформе, которая создаёт и поддерживает инструменты для разработчиков Яндекс Такси, Лавки, Еды, Доставки и Маркета. На нашем процессинге работает Яндекс Такси. В статье я расскажу об основополагающем принципе построения бэкенда сервиса, который позволяет повышать выживаемость жизненного цикла заказа в условиях отказов различных компонентов.

Читать далее

+21

tam2511 28 фев в 11:00

3D Pose Estimation объектов фиксированной геометрии для складских роботов

16 мин

1.5K

Блог компании ЯндексБлог компании Конференции Олега Бунина (Онтико)РобототехникаМашинное обучение*Искусственный интеллект

Привет, меня зовут Александр Тимофеев-Каракозов, я Senior ML/CV Engineer в Яндекс Роботикс. Я разрабатываю архитектуру ML-решений, обучаю нейросети для роботов и настраиваю MLOps, чтобы модели быстро адаптировались к новым складам и задачам. В этой статье я расскажу вам про нейросетевую жизнь складских роботов Яндекса и покажу, как один из них решает задачу 3D-локализации объектов в фиксированной геометрии.

Читать далее

+28

andbout 25 фев в 08:58

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

17 мин

56K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureМашинное обучение*Искусственный интеллектOpen source*

✏️ Технотекст 7

Привет, меня зовут Андрей Бут, я представляю команду разработки YandexGPT. Сегодня мы анонсируем новое поколение наших больших языковых моделей — YandexGPT 5.

Старшая модель — YandexGPT 5 Pro — уже применяется в чате с Алисой, а также доступна в Yandex Cloud через API. Кроме того, в чате с Алисой впервые можно переключиться на базовую версию модели, которая не использует внешнюю информацию из Поиска и не дообучалась «быть» виртуальным ассистентом.

Pretrain-версия младшей модели — YandexGPT 5 Lite Pretrain — опубликована в свободном доступе и будет полезна разработчикам, которые дообучают базовые версии моделей под свои задачи. Дообученная нами на её основе instruct-версия в ближайшее время станет доступна через API.

Под катом — более подробно о том, как мы обучали наши модели и какой опыт накопили.

Читать далее

+114

alextokarev 24 фев в 11:00

YTsaurus SPYT: как мы перешли от форка Apache Spark к использованию оригинальной версии

24 мин

2.2K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureBig Data*Open source*Data Engineering*

Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.

YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.

В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.

Читать далее

+25

nkarpachev 21 фев в 11:00

Как мы создавали новый LLM-переводчик Яндекса

21 мин

7.7K

Блог компании ЯндексМашинное обучение*Изучение языковИскусственный интеллектNatural Language Processing*

Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.

Читать далее

+42

1

2 3 ...