Со времени публикации первых двух статей мой проект сменил имя и концепцию. Теперь он называется TentaCLI и это название, являющееся игрой слов tentacle и cli, полностью отражает новую суть проекта. Хотя tentacli по прежнему может быть скачан с github и использоваться, как отдельное клиентское приложение, он и его части так же доступны в виде крэйтов. Внедряемость, а так же возможность добавлять собственные модули в tentacli делает его подходящим для создания собственных приложений. В частности, у меня таких два: мини wow сервер для тестирования tine и скрытый проект binary army, в котором tentacli полностью раскрывает свой потенциал как щупальца-исполнителя - и для управления которыми я пишу сердце.

А сердце tentacli - это чтение и обработка TCP пакетов и для облегчения работы с ними я использую макросы.


Мотивация

Давным-давно, в далекой-предалекой первой версии парсинг и создание пакетов представляли собой весьма муторную задачу:

// чтение пакета с опкодом SMSG_MESSAGECHAT

let mut reader = Cursor::new(input.data.as_ref().unwrap()[4..].to_vec());
let message_type = reader.read_u8()?;
let language = reader.read_u32::<LittleEndian>()?;

let sender_guid = reader.read_u64::<LittleEndian>()?;
// skip 
reader.read_u32::<LittleEndian>()?;

// условное поле раз
let mut channel_name = Vec::new();
if message_type == MessageType::CHANNEL {
    reader.read_until(0, &mut channel_name)?;
}

let channel_name = match channel_name.is_empty() {
    true => String::new(),
    false => {
        String::from_utf8(
            channel_name[..(channel_name.len() - 1) as usize].to_owned()
        ).unwrap()
    },
};

let target_guid = reader.read_u64::<LittleEndian>()?;
let size = reader.read_u32::<LittleEndian>()?;

// условное поле два
let mut message = vec![0u8; (size - 1) as usize];
reader.read_exact(&mut message)?;

let message = String::from_utf8_lossy(&message);

Возможно, вы подумали, что это специальный код для наказаний и, вобщем-то, так оно и было - масштабировать подобный код было тем еще испытанием. Как итог, были реализованы обработчики только для самых базовых пакетов. Но этой ситуации суждено было измениться.

Начало великого перехода

В процессе исследований я нашел крэйты serde и bincode. Однако, концепция, которую я задумал, не могла быть реализована с помощью данных крэйтов - мне нужна была условная десериализация. Пример кода выше - идеальный для отражения проблемы, поскольку в нем представлены сразу два случая условной десериализации: когда поле (channel_name) может быть прочитано только в случае, если совпало некое условие и когда чтение поля (message) зависит от ранее прочитанного поля (size). Я размышлял над максимально лаконичной формой описания таких полей.

Итогом моих экспериментов и исследований, а так же значительной помощи со стороны официального Rust комьюнити стал вот такой макрос - который заменил код выше:

#[derive(WorldPacket, Serialize)]
struct Incoming {
    message_type: u8,
    language: u32,
    sender_guid: u64,
    skip: u32,
    #[conditional]
    channel_name: String,
    target_guid: u64,
    message_length: u32,
    #[depends_on(message_length)]
    message: String,
}

impl Incoming {
    fn channel_name(instance: &mut Self) -> bool {
        instance.message_type == MessageType::CHANNEL
    }
}

Устройство макроса

Теперь по порядку разберем, как он устроен. Фундаментом для чтения/записи данных служит трейт BinaryConverter :

pub trait BinaryConverter {
    fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()>;

    fn read_from<R: BufRead>(
      reader: &mut R, 
      dependencies: &mut Vec<u8>
    ) -> AnyResult<Self> where Self: Sized;
}

Этот трейт я имплеменчу на каждый тип, который хочу использовать в полях сериалайзера:

impl BinaryConverter for u8 {
    fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()> {
        buffer.write_u8(*self).map_err(|e| FieldError::CannotWrite(e, "u8".to_string()).into())
    }

    fn read_from<R: BufRead>(reader: &mut R, _: &mut Vec<u8>) -> AnyResult<Self> {
        reader.read_u8().map_err(|e| FieldError::CannotRead(e, "u8".to_string()).into())
    }
}

В некоторых случаях требуется чуть больше кода, к примеру, для строк:

impl BinaryConverter for String {
  fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()> {
    buffer.write_all(self.as_bytes())
      .map_err(|e| FieldError::CannotWrite(e, "String".to_string()))?;

    Ok(())
  }

  fn read_from<R: BufRead>(
    reader: &mut R,
    dependencies: &mut Vec<u8>
  ) -> AnyResult<Self> {
    let mut cursor = Cursor::new(dependencies.to_vec());

    let size = match dependencies.len() {
      1 => ReadBytesExt::read_u8(&mut cursor)
            .map_err(|e| FieldError::CannotRead(e, "String u8 size".to_string()))? as usize,
            2 => ReadBytesExt::read_u16::<LittleEndian>(&mut cursor)
                .map_err(|e| FieldError::CannotRead(e, "String u16 size".to_string()))? as usize,
            4 => ReadBytesExt::read_u32::<LittleEndian>(&mut cursor)
                .map_err(|e| FieldError::CannotRead(e, "String u32 size".to_string()))? as usize,
            _ => 0,
        };

        let buffer = if size > 0 {
            let mut buffer = vec![0u8; size];
            reader.read_exact(&mut buffer)
                .map_err(|e| FieldError::CannotRead(e, "String".to_string()))?;
            buffer
        } else {
            let mut buffer = vec![];
            reader.read_until(0, &mut buffer)
                .map_err(|e| FieldError::CannotRead(e, "String".to_string()))?;
            buffer
        };

        let string = String::from_utf8(buffer)
            .map_err(|e| FieldError::InvalidString(e, "String".to_string()))?;

        Ok(string.trim_end_matches(char::from(0)).to_string())
    }
}

То же самое справедливо и для пользовательских типов. Благодаря этому при объявлении сериалайзера можно использовать тип Player напрямую в качестве типа для поля:

// пакет с опкодом SMSG_CHAR_ENUM
#[derive(WorldPacket, Serialize, Debug)]
struct Incoming {
    characters_count: u8,
    #[depends_on(characters_count)]
    characters: Vec<Player>,
}

Теперь, при получении пакета с сервера, с помощью сериалайзера из примера выше мы можем прочитать список персонажей - в переменную characters:

let (Incoming { characters, .. }, json) = Incoming::from_binary(&input.data)?;

Метод from_binary возвращает tuple из двух элементов - инстанс текущего struct и json представление его полей.

Рассмотрим, откуда взялся этот метод и при чем же здесь trait BinaryConverter.

Изнанка сериалайзера

Есть два макроса: один для Login сервера, второй - для World сервера. Но выбирать из них мы не будем и рассмотрим только один, поскольку они сильно похожи.

#[proc_macro_derive(WorldPacket, attributes(depends_on, conditional))]
pub fn world_packet(input: TokenStream) -> TokenStream {
  let ItemStruct { ident, fields, .. } = parse_macro_input!(input);

  // формируем список полей
  // формируем список зависимостей для полей
  // формируем список значений
  // формируем то, что вернет макрос

  TokenStream::from(output) 
}

Любой proc-macro скорее всего будет выглядеть как-то так.

Начать я хотел бы с конца, а именно - с объяснения, что такое output. Если вкратце, то это - переменная, которая содержит код, обернутый с помощью макроса quote!. Т.е. для того, чтобы struct, к которому я применяю мой макрос, получал некий метод, назовем его from_binary, понадобится добавить следующие строки в эту переменную:

#[proc_macro_derive(WorldPacket, attributes(depends_on, conditional))]
pub fn world_packet(input: TokenStream) -> TokenStream {
  let ItemStruct { ident, fields, .. } = parse_macro_input!(input);

  // формируем список полей
  // формируем список зависимостей для полей
  // формируем список значений
  
  let output = quote! {
    impl #ident {
      pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
        println!("It works !");
        // а здесь нужно вернуть результат
      }
    }
  };

  TokenStream::from(output) 
}

В коде выше ident - это идентификатор того struct, к которому применен макрос. Знак решетки служит для интерполяции выражений - таким образом, в контексте текущей серии примеров, ident означает Incoming, как если бы я написал:

impl Incoming {
  pub fn from_binary(buffer: &[u8]) -> AnyResult<(Self, String)> {
    println!("It works !");
    // а здесь нужно вернуть результат
  }
}

Помимо переменных, интерполировать можно так же и импорты, к примеру, переменнаяresult - это не что иное, как quote!(anyhow::Result).

Теперь добавим формирование списка полей и списка значений. Поскольку задача метода from_binary - сформировать struct из пакета байт (ну, а так же json), нужно, чтобы внутри метода было что-то вроде:

let binary_converter = quote!(tentacli_traits::BinaryConverter);
let cursor = quote!(std::io::Cursor);

let output = quote! {
  impl #ident {
    pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
      println!("It works !");

      let mut reader = #cursor::new(buffer);
      let json = String::new();

      let instance = Self {
        characters_count: #binary_converter::read_from(&mut reader, &mut vec![]),
        characters: #binary_converter::read_from(&mut reader, &mut vec![]),
      };

      Ok((instance, json))
    }
  }
};

Благодаря этому коду получился одноразовый макрос.

Теперь нужно сделать, чтобы он обрабатывал любой набор полей:

// эту строку я уже указывал в примерах выше, но просто добавлю ее
// для ясности - откуда взялся fields
let ItemStruct { ident, fields, .. } = parse_macro_input!(input);

let field_names = fields.iter().map(|f| {
  // в этом случае ident - это уже идентификатор поля !
  f.ident.clone()
}).collect::<Vec<Option<Ident>>>();

let initializers = fields.iter()
  .map(|f| {
    let field_name = f.ident.clone();
    let field_type = f.ty.clone();

    quote! {
      {
        let value: #field_type = #binary_converter::read_from(&mut reader, &mut vec![])?;
        value
      }
    }
});

let binary_converter = quote!(tentacli_traits::BinaryConverter);
let cursor = quote!(std::io::Cursor);

let output = quote! {
  impl #ident {
    pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
      println!("It works !");

      let mut reader = #cursor::new(buffer);
      let json = String::new();

      // а теперь магия развертывания
      let mut instance = Self {
        #(#field_names: #initializers),*
      };

      Ok((instance, json))
    }
  }
};

Вот этот код (развертывание):

let mut instance = Self {
  #(#field_names: #initializers),*
};

Будет компилятором преображен примерно в такой:

let mut instance = Self {
  field1: {
    let value: i32 = binary_converter::read_from(&mut reader, &mut vec![])?;
    value
  },
  field2: {
    let value: String = binary_converter::read_from(&mut reader, &mut vec![])?;
    value
  },
  // ...
};

Т.е. иными словами, благодаря развертыванию происходит сопоставление каждого элемента из field_names элементу с тем же порядковым номером из initializers , затем каждая пара подставляется в Self - и разделяется запятой.

Атрибуты depends_on и conditional

Чтобы сформировать список полей, которые содержат заданные атрибуты, можно использовать обычный вектор или какой-нибудь hashmap/btreemap:

// этот struct объявлен вне макроса
struct DependsOnAttribute {
  pub name: Ident,
}

impl Parse for DependsOnAttribute {
  fn parse(input: ParseStream) -> syn::Result<Self> {
    let name: Ident = input.parse()?;

    Ok(Self { name })
  }
}

// дальнейший код уже внутри макроса
let mut depends_on: BTreeMap<Option<Ident>, Vec<Ident>> = BTreeMap::new();
let mut conditional: Vec<Option<Ident>> = vec![];

for field in fields.iter() {
  let ident = field.ident.clone();

  if field.attrs.iter().any(|attr| attr.path().is_ident("depends_on")) {
    let mut dependencies: Vec<Ident> = vec![];

    field.attrs.iter().for_each(|attr| {
      if attr.path().is_ident("depends_on") {
        let parsed_attrs = attr.parse_args_with(
          Punctuated::<DependsOnAttribute, Token![,]>::parse_terminated
        ).unwrap();

        for a in parsed_attrs {
          dependencies.push(a.name);
        }
      }
    });

    depends_on.insert(ident.clone(), dependencies);
  }

  if field.attrs.iter().any(|attr| attr.path().is_ident("conditional")) {
    conditional.push(ident);
  }
}

С помощью переменных depends_on и conditional мы просто формируем списки идентификаторов, которые будут использованы в дальнейшем (см. в конце статьи).

Но перед тем, как мы перейдем к завершающей фазе, хочу рассмотреть еще одну вещь.

В свое время parse_terminated и парсинг атрибутов в целом вызвал у меня много вопросов и непоняток, поэтому рассмотрим его подробнее с примерами.

Как вообще парсить атрибуты

Метод parse_terminated принимает два generic параметра: то, что мы ищем и то, чем это разделяется (separator).

Для начала сделаем макрос, атрибут которого будет принимать список чисел, которые затем можно будет вывести в консоль:

#[derive(Simple)]
#[numbers(1, 2, 3, 4)]
struct MyStruct;

fn main() {
    MyStruct::output()
}

// и код макроса:
#[proc_macro_derive(Simple, attributes(numbers))]
pub fn simple(input: TokenStream) -> TokenStream {
  let DeriveInput { ident, attrs, .. } = parse_macro_input!(input);

  let mut numbers = vec![];

  for attr in attrs {
    if attr.path().is_ident("numbers") {
      let number_list = attr.parse_args_with(
        Punctuated::<LitInt, Token![,]>::parse_terminated
      ).unwrap();

      for number in number_list {
        numbers.push(number.base10_parse::<i32>().unwrap());
      }
    }
  }

  // поскольку на вектор при интерполяции накладываются некоторые ограничения
  // для вывода мы можем предварительно привести его к строке
  let numbers_str = format!("{:?}", numbers);

  let output = quote! {
    impl #ident {
      pub fn output() {
        println!("{:?}", #numbers_str);
        // либо можно вывести вектор вот так: 
        println!("{:?}", [ #( #numbers ),* ]);
      }
    }
  };

  TokenStream::from(output)
}

Каждый атрибут мы парсим с помощью attr.parse_args_with, который принимает парсер в качестве параметра. Собственно, парсером в нашем случае выступает вышеупомянутый parse_terminated .

Можно немного облагородить процесс парсинга и создать кастомный struct:

struct NumberList {
  numbers: Punctuated<LitInt, Token![,]>,
}

impl syn::parse::Parse for NumberList {
  fn parse(input: syn::parse::ParseStream) -> syn::Result<Self> {
    Ok(NumberList {
      numbers: Punctuated::parse_terminated(input)?
    })
  }
}

// и в самом макросе number_list будет читаться как-то так:
let number_list = attr.parse_args::<NumberList>().unwrap().numbers;

В таком случае использование parse_terminated можно вынести из общего кода. Концепция кастомного struct нам понадобится далее.

Теперь усложним задачу. Будем парсить список параметров, где есть пары ключ и значение:

#[derive(Middle)]
#[values(tentacli=works, join=us, on=discord)]
struct BetterStruct;

// для этого я применю уже рассмотренный выше подход с кастомным struct
struct ValuesList {
    pub items: Vec<(String, String)>,
}

impl syn::parse::Parse for ValuesList {
  fn parse(input: syn::parse::ParseStream) -> syn::Result<Self> {
    let mut items = vec![];

    while !input.is_empty() {
      let key: Ident = input.parse()?;
      input.parse::<Token![=]>()?;
      let value: Ident = input.parse()?;

      items.push((key.to_string(), value.to_string()));

      if input.peek(Token![,]) {
        input.parse::<Token![,]>().expect(",");
      }
    }

    Ok(Self { items })
  }
}

#[proc_macro_derive(Middle, attributes(values))]
pub fn middle(input: TokenStream) -> TokenStream {
  // ...
  for attr in attrs {
    if attr.path().is_ident("values") {
      let items_list = attr.parse_args::<ValuesList>().unwrap();
      // ...
     }
  }

  // ...

  TokenStream::from(output)
}

То, что мы парсим - это по сути просто набор токенов, поэтому можно воспринимать процесс парсинга как их последовательный перебор - и если какой-то элемент в последовательности будет пропущен (скажем, в нашем случае - пропущен знак "=") - произойдет ошибка на этапе компиляции.

Поскольку параметры, указанные в скобках атрибута, передаются без кавычек, они воспринимаются парсером, как идентификаторы, в противном случае каждый key/value нужно было бы парсить как строку с помощью LitStr вместо Ident.

Это все были атрибуты для struct. Для полноты картины рассмотрим так же атрибуты полей. С ними все то же самое, единственное отличие - эти атрибуты парсятся из fields.

#[derive(Hard)]
#[values(tentacli=works, join=us, on=discord)]
struct TopStruct {
  #[value("Tentacli")]
  name: String,
  #[value("https://github.com/idewave/tentacli")]
  github_link: String,
  #[value("https://crates.io/crates/tentacli")]
  crates_link: String,
}

#[proc_macro_derive(Hard, attributes(values, value))]
pub fn hard(input: TokenStream) -> TokenStream {
  
  // чтобы получить fields вместо DeriveInput используем ItemStruct
  let ItemStruct { ident, fields, attrs, .. } = parse_macro_input!(input);
  
  for field in fields.iter() {
    field.attrs.iter().for_each(|attr| {
      if attr.path().is_ident("value") {
        let value = attr.parse_args::<LitStr>().unwrap();
        values.push(value.value());
      }
    });
  }

  TokenStream::from(output)
}

Я создал репу на гитхабе, в которой содержатся все три примера.

Заключение

Теперь с полным (я надеюсь) пониманием, как функционирует макрос - предлагаю дописать код для переменной initializers и для метода from_binary:

let initializers = fields
  .iter()
  .map(|f| {
      let field_name = f.ident.clone();
      let field_type = f.ty.clone();

      let output = if let Some(dep_fields) = depends_on.get(&field_name) {
          quote! {
              {
                  let mut data: Vec<u8> = vec![];
                  #(
                      #binary_converter::write_into(
                          &mut cache.#dep_fields,
                          &mut data,
                      )?;
                  )*
                  #binary_converter::read_from(&mut reader, &mut data)?
              }
          }
      } else {
          quote! {
              {
                  let value: #field_type = #binary_converter::read_from(
                      &mut reader, &mut vec![]
                  )?;
                  cache.#field_name = value.clone();
                  value
              }
          }
      };

      if conditional.contains(&field_name) {
          quote! {
              {
                  if Self::#field_name(&mut cache) {
                      #output
                  } else {
                      Default::default()
                  }
              }
          }
      } else {
          output
      }
  });

let output = quote! {
  impl #ident {
    pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
      println!("It works !");

      let mut cache = Self {
          #(#field_names: Default::default()),*
      };
    
      let mut reader = #cursor::new(buffer);
      let mut instance = Self {
          #(#field_names: #initializers),*
      };
    
      let details = instance.get_json_details()?;
    
      Ok((instance, details))
    }
  }
};

Первый вопрос, который может у вас появиться: что это за reader, cache и прочие разные переменные, которые не объявлены перед initializers, но почему-то используются внутри этой переменной. Ответ достаточно прост: содержимое переменной initializers будет подставлено в том месте переменной output, где мы ее указали. А все, что мы передали внутрь TokenStream::from(output) - будет скомпилировано одним куском. Таким образом, в коде выше, - переменная cache объявлена на 52 строке, переменная reader - на 56 и все они - объявлены ДО того, как initializers попал в код.

Второй вопрос: что есть cache. Это реплика инстанса текущего struct за исключением того, что запись туда ведется до первого поля с атрибутом depends_on. Благодаря этому подходу можно сделать запрос к ранее прочитанным полям, не дожидаясь окончания чтения всех полей. И на этапе билда решить, как правильно читать следующее поле. К примеру, возьмем самый первый код, где описан пакет SMSG_MESSAGECHAT. Есть там условное поле channel_name, если на этапе чтения мы его прочтем тогда, когда этого делать было не нужно, то следующее поле (и все дальнейшие) уже будет прочитано неправильно, что приведет к ошибке.

А третий вопрос задавайте в комментариях.