Как стать автором
Обновить
411.58
Яндекс
Как мы делаем Яндекс
Сначала показывать

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

Время на прочтение4 мин
Количество просмотров4.8K

Мы живём в эпоху LLM — компании применяют на практике всё более крупные модели с миллиардами параметров. Это здорово, потом что большие модели открывают пользователям сервисов новые возможности, но не всё так просто. Размер накладывает ограничения — запускать такие модели очень дорого, а на пользовательских компьютерах — ещё дороже и сложнее. Поэтому часто исследователи и инженеры сначала обучают большую модель, а потом придумывают, как сжать её с минимальными потерями качества, чтобы сделать доступнее. 

Модели выкладываются в формате float16, где на один вес выделяется 16 бит. Два года назад человечество научилось хорошо сжимать нейросети до 4 бит с помощью таких методов, как GPTQ. Но на этом исследователи не остановились, и сейчас актуальная задача — сжатие моделей до 2 бит, то есть в 8 раз. 

Недавно исследователи Yandex Research совместно с коллегами из IST Austria и KAUST предложили новый способ сжатия моделей в 8 раз с помощью комбинации методов AQLM и PV-tuning, который уже доступен разработчикам и исследователям по всему миру — код опубликован в репозитории GitHub. Специалисты также могут скачать сжатые с помощью наших методов популярные опенсорс-модели. Кроме того, мы выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

О том, как исследователи пришли к сегодняшним результатам, мы расскажем на примере двух «конкурирующих» команд и их state-of-the-art алгоритмов сжатия — QuIP и AQLM. Это короткая, но увлекательная история «противостояния» исследователей, в которой каждые пару месяцев случаются новые повороты, появляются оптимизации и оригинальные подходы к решению проблем.

Читать далее
Всего голосов 32: ↑32 и ↓0+41
Комментарии7

Полезные ссылки

Что ты такое, dhclient?

Время на прочтение19 мин
Количество просмотров43K
Всего голосов 177: ↑176 и ↓1+221
Комментарии61

Хороший ретрай, плохой ретрай, или История одного падения

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров42K
Всего голосов 152: ↑152 и ↓0+152
Комментарии32

Как работает кнопка Mute на Яндекс Станции. Подробный разбор логики и схем

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров41K
Всего голосов 92: ↑88 и ↓4+108
Комментарии195

Как Яндекс учит Алису понимать пользователей с особенностями речи

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.8K

В далёком 2018 году мы представили наше первое умное устройство с Алисой — Яндекс Станцию. С тех пор пользователи успешно взаимодействуют с виртуальным ассистентом с помощью голосовых команд. Но, к сожалению, бывают и сложности. Алиса не всегда правильно понимает запрос: ей могут мешать шумы, сливающиеся голоса или невнятно произнесённая фраза. Эта проблема особенно актуальна для пользователей с различными речевыми нарушениями — например, с заиканием, ДЦП, последствиями инсульта или травмы. Часто речь искажается так, что Алиса не понимает её, а значит, пользователь сталкивается с ограничениями.

Меня зовут Даня, я представляю команду, которая разрабатывает в Алисе технологию распознавания речи. Сегодня я расскажу небольшую историю о том, как мы решали описанную выше проблему. Пожалуй, было бы слишком смело предполагать, что такую сложную задачу можно навсегда победить одним быстрым решением (даже людям не всегда удаётся корректно понимать речь с особенностями). Тем не менее нам удалось сократить разрыв между точностью распознавания обычной речи и речи с искажениями в среднем на 20%. При некоторых лёгких формах нарушений звукопроизношения Алиса теперь понимает речь не хуже человека, а при тяжёлых формах нарушений — даже лучше. Это самый большой шаг в этом направлении с момента создания нашего помощника. 

Под катом вы не найдёте хардкорных подробностей обучения нейросетевых моделей, потому что основная сложность таилась вовсе не в вопросах применяемых технологий. Ключом к успеху стала помощь сообщества и экспертов.

Читать далее
Всего голосов 24: ↑23 и ↓1+32
Комментарии7

Как вырастить динозавра: масштабирование платформы YTsaurus от 200 до 20 000 хостов. Доклад Яндекса

Время на прочтение16 мин
Количество просмотров1.3K

Привет! Меня зовут Паша Сушин. Уже больше десяти лет я занимаюсь в Яндексе развитием платформы YTsaurus — нашего внутреннего инструмента, который в марте 2023 года вышел в опенсорс и теперь доступен всем на GitHub по лицензии Apache 2.0. 

Сегодня мой рассказ будет о том, какие ограничения архитектуры мы преодолели, чтобы масштабировать наши кластеры больше чем в сотню раз.

Читать далее
Всего голосов 13: ↑13 и ↓0+17
Комментарии2

Работает — не трожь: зачем обновлять Python в долгоживущих проектах

Время на прочтение15 мин
Количество просмотров13K

Всем привет! Меня зовут Сергей Яхницкий. Я пишу на Python уже больше шести лет, техлид в Яндекс Такси, Python-евангелист и член Python-комитета Яндекса (аналог Python Steering Council).

Человек я простой, звёзд с Гитхаба не хватал: до того, как я устроился в Такси, я мирно писал маленькие бэкенды на Python. А потом меня прорвало: кодогенерации, CI/CD, кучи тестов, монорепа и прочее. Вот тут-то моя питоничья душа и воспряла. Решил я всё автоматизировать, обновить всё, что движется, а что не движется — подвигать и обновить. Из этого вышел мой рассказ.

Этот пост широко освещает изменения последних нескольких лет и куда в принципе движется Python. Пост будет полезен как новичкам, которые только ещё изучают Python, так и опытным специалистам, которые думают о языке разработки в долгосрочной перспективе.

Читать далее
Всего голосов 56: ↑54 и ↓2+63
Комментарии22

Как ломаются большие системы и как их траблшутить — инсайты из интенсива ШАДа Яндекса

Время на прочтение10 мин
Количество просмотров3.5K

Привет, меня зовут Руслан Савченко, я руководитель службы разработки динамических таблиц в Yandex Infrastructure и преподаватель в Школе анализа данных. Сегодня я поделюсь актуальными инсайтами о том, как ломаются большие системы и как их траблшутить. Думаю, это будет полезно разработчикам и студентам, которые интересуются Site Reliability Engineering. Вообще, мало где сейчас обучают SRE, хотя в индустрии такие задачи очень востребованы.

В основе статьи — материалы SRE Week, открытого интенсива ШАДа по работе с большими нагруженными системами.

Читать далее
Всего голосов 19: ↑19 и ↓0+25
Комментарии0

Как обеспечить цифровую доступность по всем правилам: опыт Яндекс Капчи

Время на прочтение11 мин
Количество просмотров2K

Привет! Меня зовут Павел Конон, я аналитик в команде Антиробота в Яндексе. Занимаюсь развитием инструмента капчи в команде Антиробота. Думаю из названия команды понятно, что мы работаем над системой онлайн классификации источников запросов — робот или человек.

Сегодня хочу рассказать о том, как мы решаем нетривиальную задачу: делаем нашу капчу более доступной для слабовидящих пользователей и при этом соблюдаем все требования безопасности и ГОСТ. С одной стороны нам нужно упростить прохождение капчи для людей с различными особенностями, с другой — оставить такую же сложность для роботов. Поэтому такие способы как упрощение заданий, проставление конкретному пользователю куки татем‑от‑капчи или возможность выбирать более подходящий тип задания, мы довольно быстро отклонили. И начали искать другие варианты.

Читать далее
Всего голосов 14: ↑12 и ↓2+16
Комментарии16

Как в Яндекс Еде помогли курьерам, или Рассказ о маленьком стартапе в большой компании. Доклад Яндекса

Время на прочтение6 мин
Количество просмотров3.2K

Денис Терехов, тимлид в Яндекс Еде, рассказал на митапе для разработчиков в Новосибирске о том, как его команда помогла курьерам быстрее доставлять заказы.

В 2024 году начал ощущаться дефицит курьеров, особенно зимой. Чтобы сервис работал как обычно, нужно было привлечь новых или повысить эффективность уже существующих — то есть сделать так, чтобы они могли доставлять больше заказов за меньшее время. Так команда Дениса решила дать курьерам велосипеды, и вот что из этого вышло.

Читать далее
Всего голосов 8: ↑5 и ↓3+5
Комментарии9

Atari: от рассвета аркад до заката легенды

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров4.2K

Американская компания Atari внесла огромный вклад в историю аркадных игровых автоматов, игровых консолей, домашних персональных компьютеров и самих игр. Такие игры, как Pong, Asteroids, Breakout и Missile Command, стали легендами и до сих пор любимы миллионами людей во всём мире. И мы, в преддверии очередного дня рождения компании, хотим вспомнить сами и напомнить вам основные вехи её развития. 

До наших музейных полок добрались некоторые игры и устройства, которые создавались в компании в разные годы. И в любой день вы можете прийти и познакомиться с ними в Яндекс Музеях Москвы и Санкт-Петербурга. Надеемся, что после прочтения у вас действительно появится желание прикоснуться к этой очень важной части истории игропрома, — даже для тех, кто уже знаком с темой, найдутся новые интересные факты.

Читать далее
Всего голосов 27: ↑25 и ↓2+33
Комментарии3

Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса

Время на прочтение10 мин
Количество просмотров3.4K

С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется внутри разных сервисов, которые входят в Яндекс Go: Такси, Еда, Лавка и Доставка.

Сначала мы обсудим скоуп того, что мы считаем платформой и чем занимаемся. Дальше расскажу про архитектуру YTsaurus (YT), предназначенную для обработки и хранения данных, и как она развивалась на стороне Яндекс Go. Про YT я буду рассказывать с точки зрения того, какие возможности он даёт разработчикам хранилища и платформы, аналитикам и другим пользователям, которые активно работают с данными.

Читать далее
Всего голосов 11: ↑10 и ↓1+13
Комментарии7

Test Driven Development в Embedded, или Как увеличить производительность команды на 37%

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.1K

Современное развитие в области встроенной разработки и электроники с учётом бизнес-процессов ускоряется, часто следуя принципам Agile и Scrum. Применение этих методик требует осторожности из-за длительного производственного цикла встроенной разработки, который затрудняет быстрые изменения.

Меня зовут Арсентий Гусев, я руководитель группы embedded-разработки в отделе робототехники Яндекс Маркета. И мне бы хотелось рассказать об опыте, который приобрела наша команда в рамках работы над проектом складского робота. В этой статье определим критерии, предпосылки и предложим инструменты для ускорения разработки и снижения её стоимости.

Читать далее
Всего голосов 16: ↑14 и ↓2+19
Комментарии13

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Время на прочтение12 мин
Количество просмотров19K

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.

Читать далее
Всего голосов 89: ↑88 и ↓1+112
Комментарии0

Гайд по ICLR 2024: тренды и лучшие доклады

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.8K

Привет! Меня зовут Света Маргасова, и я руковожу бригадой моделей с внешней информацией в Яндексе. В этом году в большой компании коллег впервые побывала на конференции ICLR (Learning Representations (ICLR) — обучение представлений), которая проходила в Вене. Масштаб и формат ICLR 2024 подтверждаюет её статус — A*. Конференция продолжалась 5  дней, на неё подали больше 7000  статей, 2260  из которых приняли. Участников тоже было очень много  — все старались успеть познакомиться с авторами на постер-сессиях, послушать доклады и попасть на воркшопы. 

В этой статье я расскажу о самом интересном по моему мнению и по отзывам коллег  — над постом также работали Илья Удалов и Максим Кузин, которые занимаются  ML в рекламе. Здесь же вы найдёте нашу коллективную подборку полезных статей. 

Читать далее
Всего голосов 18: ↑17 и ↓1+21
Комментарии3

TACACS in da Сloud

Уровень сложностиСложный
Время на прочтение25 мин
Количество просмотров7.3K

Вот есть у вас сотня коммутаторов или маршрутизаторов. Это много или мало?

Ну вроде как мало. А если надо на всех разом нового сотрудника добавить? А потом удалить уволившегося? А потом поротировать скомпрометированные пароли и ключи?

И тут приходит служба безопасности, которая, во-первых, хочет централизованно контролировать, у кого какие доступы, во-вторых, актуальны ли они на железках, в-третьих, ещё и смотреть, кто что когда запускал, да ещё и разрешать или запрещать это делать («Просто продолжай, не останавливайся» © СИБ).

Ну вот совсем уже и не мало. Чувствуете, чем это пахнет? Даааа, TACACS-ом.

Сегодня мы разберём, как сделать аутентификацию и авторизацию на сетевом оборудовании на основе TACACS, сделать работу сервиса отказоустойчивой, обеспечить себе запасной ход на случай глобальных проблем и осчастливить безопасников.

Читать далее
Всего голосов 46: ↑45 и ↓1+55
Комментарии19

Как мы строили BDUI: опыт Яндекс Маркета

Время на прочтение11 мин
Количество просмотров3.8K

Привет! Меня зовут Алексей Морозов. Я уже несколько лет работаю в инфраструктурной команде Яндекс Маркета. Наша команда делает проекты, которые должны были улучшить скорость приложения, его качество и скорость разработки. Однако раньше такие проекты решали эти проблемы только на время, приложение снова деградировало. Всё это напоминает древнегреческий миф, в котором Сизиф толкает в гору камень, он скатывается вниз, и всё начинается по новой.

Такое положение дел нас не устраивало, поэтому было принято решение изменить подход. И мы построили BDUI (Backend Driven UI). В этой статье я расскажу о том, как это случилось, что сделали и какой в итоге получили результат. 

Читать далее
Всего голосов 12: ↑12 и ↓0+14
Комментарии11

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Время на прочтение28 мин
Количество просмотров11K

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей. 

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху. 

Читать далее
Всего голосов 43: ↑43 и ↓0+60
Комментарии10

Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду. Доклад Яндекса

Время на прочтение11 мин
Количество просмотров15K

«Баннерная крутилка» —  один из самых высоконагруженных сервисов в Яндексе. Он умеет переживать 700 тысяч RPS, а иногда и больше. Каждый раз, когда приходит запрос, крутилка должна просмотреть базу из миллиарда документов и выбрать из них самые релевантные для пользователя. При этом выдерживаются весьма жесткие временные рамки: 99% всех запросов обрабатываются менее чем за 200 миллисекунд.

Какими принципами стоит руководствоваться при построении подобных высоконагруженных систем? Как устроены стадии отбора документов? Какое участие в ранжировании принимает ML? Обо всём этом на недавнем мероприятии для разработчиков в Ереване рассказал Артём Ваншулин, руководитель разработки ранжирования в команде баннерной системы. Сегодня мы делимся с сообществом текстовой версией его доклада. Передаём ему слово.

Читать далее
Всего голосов 33: ↑29 и ↓4+35
Комментарии4

userver 2.0 — большой релиз фреймворка для IO-bound программ

Время на прочтение6 мин
Количество просмотров7.4K
С момента прошлого релиза фреймворка 🐙 userver для С++ прошло чуть больше полугода. За это время мы многое сделали:


  • сильно оптимизировали работу фреймворка и обогнали основных конкурентов в бенчмарках высокопроизводительных фреймворков;
  • значительно упростили конфигурирование;
  • обзавелись install, докер-образами, Yandex Cloud-образом и DEB-пакетами;
  • обросли новой функциональностью, включая серверные мидлвари для HTTP, и YDB-драйвером;
  • перешли на новую ежемесячную схему релизов и упростили версионирование.

Добро пожаловать под кат за подробностями
Всего голосов 43: ↑43 и ↓0+57
Комментарии18

DivKit теперь и для Flutter. Рассказываем об особенностях BDUI-фреймворка Яндекса

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров6.8K

Полтора года назад мы выпустили в опенсорс DivKit — фреймворк для отрисовки интерфейсов из ответа сервера. На тот момент он уже прошёл проверку временем внутри компании и применялся в приложении Яндекс, Алисе, Маркете, Едадиле и других сервисах. С тех пор инструмент прошёл длинный путь. И сегодня у нас по-настоящему важная новость: мы выпускаем в свободный доступ долгожданный клиент для Flutter.

В статье расскажем об особенностях вёрстки в DivKit и нашей реализации UI. Вы узнаете, какие фичи и компоненты Flutter поддерживаются во фреймворке на текущий момент. Покажем, как начать пользоваться клиентом уже сейчас.

Читать далее
Всего голосов 26: ↑25 и ↓1+29
Комментарии3

Удалённое исполнение кода в ML: подходы и инструменты. Доклад Яндекса

Время на прочтение9 мин
Количество просмотров2.2K

Всем привет. На связи Артём Гойлик @ArtoLord и Владислав Волох @Chillintano из команды DataSphere в Yandex Cloud. Мы создаём инфраструктуру для ML-разработчиков. И сегодня расскажем про одну задачу, которая, как и многие другие, начиналась с болей наших пользователей.

Читать далее
Всего голосов 12: ↑11 и ↓1+13
Комментарии0

«Когда будет готово?». Декомпозируем задачи и оцениваем сроки без фатальных ошибок

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров14K

Всем привет! Я Виктор Брыксин, руковожу разработкой Яндекс Телемоста. В статье поговорим про декомпозицию задач в проекте и как можно получить реальные сроки его выполнения.

Спойлер: вы все равно ошибетесь, прогнозируя сроки. Но что можно сделать? Минимизировать шанс на ошибки и сделать их менее фатальными. Я расскажу про рабочие инструменты, которые помогли мне в свое время, — брать их на вооружение или нет, решайте сами. Если вы не знаете, как подступиться к декомпозиции сложного проекта и с чего начать, — эта статья вам в помощь.

Читать далее
Всего голосов 37: ↑37 и ↓0+41
Комментарии6
1
23 ...

Информация

Сайт
www.ya.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия