augur Feb 20 2012 at 10:39

О протоколах передачи данных

6 min

92K

Programming *

From sandbox

+45

Comments 22

zserge Feb 20 2012 at 12:10

Тема интересная и нужная, спасибо!
Вот бы еще для любителей бинарных протоколов и не-любителей изобретать их с нуля рассказать про protobuf, msgpack, bson и другие.

augur Feb 20 2012 at 12:16

Вы только что дали мне идею для следующей статьи :) Благодарю

EvilsInterrupt Feb 20 2012 at 12:46

На мой взгляд писать о пользе текстовой форме представления данных и убеждать читателя не имеет смысла. Потому что есть книга Реймонда «Искусство программирования для UNIX», там очень подробно и доходчиво поясняется о том когда же все-таки нужно данные представлять в бинарном\текстовом виде.
Думаю Вам вполне достаточно привести ссылку на эту книгу и привести примеры, как уже указывалось выше:
>>protobuf, msgpack, bson и другие"

augur Feb 20 2012 at 13:04

Навязывать свою точку зрения на то, в какой области применять тот или иной вид и в мыслях не было :) А вот сузить тему статьи до разбора одного-двух известных решений из мира «любителей бинарных протоколов» — это может оказаться интересным и полезным.

lorc Feb 20 2012 at 13:00

Тогда ещё ASN.1 не забудьте :) Хотя это само по себе тема для целой статьи…

8bitjoey Feb 20 2012 at 13:34

Включите в планы EDIFACT. Это что-то среднее между бинарными протоколами и XML. Эдакий малосимвольный XML.
Пришлось как-то разбирать дамп общения неких программ в этом формате: приятного было мало :)

Weageoo Feb 20 2012 at 12:31

Тема бинарный/символьный религиозна так же, как и тема windows/linux.

Weageoo Feb 20 2012 at 12:39

Но это не значит, что статья не годная. Статья хорошая! Я бы ещё немного оформил и ~~всемиоченьлюбимых~~ картинок парочку вкрутил.

augur Feb 20 2012 at 13:11

Каюсь, неразбавленная картинками статья действительно несколько теряет в читабельности и усвояемости. Приму на заметку!

maxp Feb 20 2012 at 13:13

Какое-то у Вас сильно странное и довольно надуманное деление на символьные и бинарные протоколы. Вот скажите, HTTP это символьный или бинарный?

Если из символьных на ум приходит на ум только то, что на базе json и xml, то подумайте об smtp и pop :)

Так называемые «символьные» протоколы происходят от терминалов с подмножеством 7-8-битного алфавита, а «бинарные» от куска памяти со структурой на Си, засунутого как есть в буфер ввода-вывода. Но в действительности сущность данных куда более сложна.

Рекомендую для начала посмотреть, как обходятся с интами в protobuf, очень полезно для освобождения разума от байтовых рамок :)

EvilsInterrupt Feb 20 2012 at 13:17

>>Вот скажите, HTTP это символьный или бинарный?
Это не «символьный» это текстовая форма представления данных, так правильней называть. Да, вы правы Json, XML, pop, smtp это все — текстовое.

Основное преимущество текстовой формы, это облегчение отладки систем! Программист может «поговорить» с системой!

В случае бинарного представления, вам надо написать конвертер из ваших текстовых приказов в бинарную форму, либо взять Hex-редактор и «нафигачить» перед подачей на вход системы. А это уже значительно сложнее, чем просто написать текст!

maxp Feb 20 2012 at 17:52

На самом деле тут все немного сложнее. Основной смысл «текстовых» протоколов это сохранять понятийную область. Точнее сказать, в некоторых случаях просто нет особой надобности «компилировать» данные в не текстовый вид, а потом обратно.

Программисту нет проблем взять себе удобный инструмент для «разговора». Например, когда вы смотрите свой json в каком-нибудь fierbug'е, то можете не задумываться, что на самом деле он пришел сюда в gzip'е, строки в нем были оформлены в таком виде,
"\u0430\u0431\u0432", а от вас на сервер он уходил вообще в urlencode форме (но это уже из области извращений).

Еще одна особенность текстовых протоколов незаслуженно забывается — они как правило line buffered. Поток информации разбивается на удобоваримые куски, причем, удобство человека здесь как раз не причем.

maxp Feb 20 2012 at 17:53

maxp Feb 20 2012 at 17:54

Сорри, как-то оно раздвоилось тут…

augur Feb 20 2012 at 15:09

Соглашаясь с EvilsInterrupt, добавлю следующее: протокол, ориентированный на передачу данных, абстрагированных от машинной интерпретации (числа в строковом представлении, строковые константы вместо численных энумераторов и т.д.), но более понятных в таком виде человеку, как раз и подпадает под моё определение «текстового».

serbod Feb 21 2012 at 08:01

HTTP изначально символьный, но в теле сообщения содержит бинарные блоки. SMTP/POP вообще символьные, в них бинарные блоки кодируются в символьные строки UUE/Base64

protobuf вообще знатное извращение. =) Мне больше bencode нравится, его можно глазами читать

UFO landed and left these words here

augur Feb 20 2012 at 14:36

Сжатие конечно позволит уменьшить избыточность текстовых протоколов, но приведет к еще большему отставанию по скорости обработки :)

Derailed Feb 20 2012 at 16:48

С отрывом от прикладной задачи писать о протоколе высокого уровня — довольно спорная затея, так как тема слишком широка. Для одних протоколов важна скорость, для других важна синхронизация событий, для третьих маршрутизация, для четвертых надежность и т. д. Все эти требования противоречат друг другу, поэтому выбор протокола — широкое поле для компромиссов и творчества. После прочтения статьи понятнее, по крайней мере, ничего не стало =).

Немного затронули, но не раскрыли тему деления сообщений на блоки (зачем это делается?), как определяются начало и конец блока (заголовок — далеко не единственный способ, есть еще управление внешними сигналами и отслеживание таймаута).

amarao Feb 20 2012 at 17:27

Не с того начали. Любой протокол характеризуется в первейшую очередь решаемыми задачами, то есть параметрами, которые стремятся удержать разработчики.

Первейший из них — это тип передаваемых данных — fast datapath или slow datapath. Fast подразумевает, что нагрузка при передаче и приёме такова, что мы жертвуем всеми второстепенными вопросами (например, читаемостью) ради скорости. slow — означает, что мы можем посвятить сколько-то времени каждому сообщению/потоку.

Дальше — realtime/non-realtime, ordered/unordered, с подтвержением/без, с защитой от повторов/без.
Дальше — допустимые типы данных и структуры.

А мелочи, типа порядка байт, уже обсуждаются на последнем этапе.

allter Feb 21 2012 at 14:56

Главное, что бы для штатных задач не городили монстров. Когда работаешь с > 10 разными форматами, становится очень грустно каждый раз, когда видишь очередной текстовый формат класса «значение X ищите с 42го столбца по 52й, с забивкой пустых знакомест символом % справа». Хочется сразу таким дизайнерам пожелать остаток жизни сверять подобные файлы с 100к+ записей каждый день (и каждый день нового формата). :)

vmysla Feb 22 2012 at 00:51

контрольная сумма дла заголовка — это верно.
при этом желательно чтобы контрольная сумма сообщения была частью заголовка…