alizar Oct 14 2010 at 13:39

Бэкенд Twitter перешёл на Protocol Buffers

2 min

4.3K

Social networks and communities

+39

Comments 43

ID175055 Oct 14 2010 at 14:13

Вообще у гугла очень много мощных инструментов, о которых знают лишь единицы.

mahoro Oct 15 2010 at 06:42

Кому надо, те следят за новостями и анонсами :)

mardy_bum Oct 14 2010 at 14:19

Завидую программистам из Twitter. Ребята решают интереснейшие задачи, работают с огромными объемами данных, используют передовые непопулярные технологии. При этом результатом их работы пользуются миллионы людей.
Блин, был бы я на их месте — с работы бы не вылазил и был счастлив.

ID175055 Oct 14 2010 at 14:21

Еще не все потерянно :)

kurokikaze Oct 14 2010 at 14:29

Protocol Buffers — не такая уж непопулярная технология. Просто пользуются ей в основном разработчики баз данных (из недавних — в Riak появилась их поддержка). Даже на Хабре, по моему, проскакивали статьи о Protocol Buffers.

ID175055 Oct 14 2010 at 14:31

Я не говорил что она не популярная. Я говорю про то что гугл создает столько технологий что о них о всех сложно знать.

SilentBob Oct 14 2010 at 14:41

Ха, плавали — знаем.

А теперь представь, что миллион людей пользуется твоей программой каждый день и самый мелкий баг — повод для 50 страниц флейма на форуме. Вставать ночью по звонку сервера что управляющая программа зависла и ее надо срочно чинить… Нафиг-нафиг… :-)

Zubchick Oct 14 2010 at 15:03

Я больше завидую ребятам из гугла :) Все тоже только умноженное на 1000

zolotukhin Oct 14 2010 at 17:36

На РИТе следующей весной к нам будут в гости именно эти ребята. К сожалению, на этот Highload они не успели.

Ajex Oct 14 2010 at 21:31

А вы работали с объемами хотя бы в сотни/тысячи раз меньшими? Меня порой мандраж берет когда я читаю строки «ежедневно добавляется 12 Тб данных».
Это далеко не рай, это самый настоящий ад! Когда все имеющиеся на данный момент стандартные решения перестают справляться, распределение не решает задач и приходится буквально в считанные дни делать то, на разработку чего у многих уходят просто годы.
А это и прощай личная жизнь и покой…

Min0r Oct 14 2010 at 14:29

Дрочу на их терабайты.

ID175055 Oct 14 2010 at 14:32

И обязательно сразу писать на хабр?

davaeron Oct 14 2010 at 14:42

Может он окном ошибся? =)

vovkab Oct 14 2010 at 14:43

Protocol Buffers очень много используется гуглом в Android.

ID175055 Oct 14 2010 at 14:50

Гугл — не единица ;)
Гугл — много.

mrskam Oct 14 2010 at 15:16

Для синхронизации с гугл.акком в хроме также используется PB.

sgzmd Oct 14 2010 at 15:17

Protocol Buffers много используется гуглом практически в каждом проекта гугла :-)

И это не шутка.

redchrom Oct 14 2010 at 17:51

В android очень много используется binder, который кстати не ахти. Protocol buffers там не встречал.

UFO landed and left these words here

drJonnie Oct 14 2010 at 15:04

Самых распространенных две: google protobuf и apache thrift (по сути, разработка Фейсбука). Сравнение производительности и функциональности можно посмотреть на thrift-protobuf-compare/.

UFO landed and left these words here

selenite Oct 14 2010 at 15:09

+1.

Основанная часть этих данных агрегируется с помощью свободной технологии Scribe (разработка Facebook).

Яндекс до сих пор tail'ит логи каким-то своим продвинутым скриптом. Эффективнее tail/grep ничего еще не придумано.

UFO landed and left these words here

kingu Oct 17 2010 at 18:19

Scribe больше похож на продвинутый syslogd

SMiX Oct 14 2010 at 15:25

Еще есть yaml c возможностью компиляции в байт-код.

shai_xylyd Oct 14 2010 at 15:51

Очень просто, если штуту выпустил google, то ею пользуются десятки тысяч программистов, если мой коллега, то всего несколько людей, следовательно, первая тщательнее протестирована и содержит меньше ошибок)

UFO landed and left these words here

k0t0vich Oct 14 2010 at 20:54

Я тоже столкнулся с этим, пришлось дописать своё расширение — всего навсего добавил обязательное строковое поле alias находящееся всегда первым.(тут подробнее)
есть реализации на as3/с++/java — компиляторы классов из .proto переписывать не пришлось, только базовые классы — вернее методы де/сериализации

k0t0vich Oct 14 2010 at 21:12

Причём «расширенный» протокол нормально работает с «обычным» если использовать стандартный RPC.

Aldekein Oct 15 2010 at 08:42

А мы прикрутили успешно ;)
У нас так приложение на айфоне с backend общается.
Все довольны.

UFO landed and left these words here

ikatkov Oct 14 2010 at 15:51

Вы совершенно правы, однако в mainstream языках его поддержки мало.

googol Oct 14 2010 at 16:44

Странно что не Thrift ибо он как и Hadoop от апачи.

Как активный пользователь Thrift могу сказать — это действительно великолепная библиотека которая упрощает хранение/обработку логов. Кроме того Thrift идеально подходит для RPC, межпроцессорного взаимодействия.

Вот пример использования Thrift mikecvet.wordpress.com/2010/05/13/apache-thrift-tutorial-the-sequel/

siasia Oct 14 2010 at 22:42

Мне тоже было интересно. Как раз подумал, почему ProtoBuffers, а не Thrift, потому как недавно анализировал варианты бинарных протоколов для одного из проектов. Потом пошёл покурить и подумал. Видимо потому что от Гугла :( Похоже Апачей больше не любят.

И ещё. Недавно Твиттер сообщил, что переписал часть своей инфраструктуры на Scala. С 60-процентной вероятностью могу утверждать, что в качестве основы обмена сообщениями был выбран проект Akka, который очень хорошо дружит с Netty, который в свою очередь из коробки поддерживает Google Protocol Buffers. Я пробовал и знаю. Так то.

kingu Oct 17 2010 at 18:27

У Thrift есть недостатки работы с большими пакетами данных — они должны полностью помещаться в память. В силу этого проект Cassandra собирается перейти к использованию Apache Avro.

BigD Oct 14 2010 at 16:54

Каждый день в базу Twitter добавляется 12 ТБ новых данных...

Точно 12 терабайт? Насколько я понимаю, речь идет только о тексте — какая-то невероятная цифра получается.

MaximKat Oct 14 2010 at 19:47

Таки да (слайд 6)

MaximKat Oct 14 2010 at 19:48

Хотя небольшое уточнение: это не только твиты, это вообще вся информация включая системные логи итд

metakey Oct 14 2010 at 20:31

Следует также упомянуть, что Protocol Buffers поддерживает версионность интерфейсов «из коробки». Это очень важно в тех случаях, когда вы не можете просто взять и остановить всю систему, чтобы обновить каждый компонент для работы с новым протоколом или общим интерфейсом.

bethrezen Oct 15 2010 at 06:42

Т.е. не придется перекраивать все данные, чтобы добавить одно поле совершенно нового типа?

Nailgun Oct 15 2010 at 11:11

Каждый день в базу Twitter добавляется 12 ТБ новых данных.
На этой строчке я понял, что новость от alizar