Макросы в tentacli. Часть один
Со времени публикации первых двух статей мой проект сменил имя и концепцию. Теперь он называется TentaCLI и это название, являющееся игрой слов tentacle и cli, полностью отражает новую суть проекта. Хотя tentacli по прежнему может быть скачан с github и использоваться, как отдельное клиентское приложение, он и его части так же доступны в виде крэйтов. Внедряемость, а так же возможность добавлять собственные модули в tentacli делает его подходящим для создания собственных приложений. В частности, у меня таких два: мини wow сервер для тестирования tine и скрытый проект binary army, в котором tentacli полностью раскрывает свой потенциал как щупальца-исполнителя - и для управления которыми я пишу сердце.
А сердце tentacli - это чтение и обработка TCP пакетов и для облегчения работы с ними я использую макросы.
Мотивация
Давным-давно, в далекой-предалекой первой версии парсинг и создание пакетов представляли собой весьма муторную задачу:
// чтение пакета с опкодом SMSG_MESSAGECHAT
let mut reader = Cursor::new(input.data.as_ref().unwrap()[4..].to_vec());
let message_type = reader.read_u8()?;
let language = reader.read_u32::<LittleEndian>()?;
let sender_guid = reader.read_u64::<LittleEndian>()?;
// skip
reader.read_u32::<LittleEndian>()?;
// условное поле раз
let mut channel_name = Vec::new();
if message_type == MessageType::CHANNEL {
reader.read_until(0, &mut channel_name)?;
}
let channel_name = match channel_name.is_empty() {
true => String::new(),
false => {
String::from_utf8(
channel_name[..(channel_name.len() - 1) as usize].to_owned()
).unwrap()
},
};
let target_guid = reader.read_u64::<LittleEndian>()?;
let size = reader.read_u32::<LittleEndian>()?;
// условное поле два
let mut message = vec![0u8; (size - 1) as usize];
reader.read_exact(&mut message)?;
let message = String::from_utf8_lossy(&message);
Возможно, вы подумали, что это специальный код для наказаний и, вобщем-то, так оно и было - масштабировать подобный код было тем еще испытанием. Как итог, были реализованы обработчики только для самых базовых пакетов. Но этой ситуации суждено было измениться.
Начало великого перехода
В процессе исследований я нашел крэйты serde
и bincode
. Однако, концепция, которую я задумал, не могла быть реализована с помощью данных крэйтов - мне нужна была условная десериализация. Пример кода выше - идеальный для отражения проблемы, поскольку в нем представлены сразу два случая условной десериализации: когда поле (channel_name
) может быть прочитано только в случае, если совпало некое условие и когда чтение поля (message
) зависит от ранее прочитанного поля (size
). Я размышлял над максимально лаконичной формой описания таких полей.
Итогом моих экспериментов и исследований, а так же значительной помощи со стороны официального Rust комьюнити стал вот такой макрос - который заменил код выше:
#[derive(WorldPacket, Serialize)]
struct Incoming {
message_type: u8,
language: u32,
sender_guid: u64,
skip: u32,
#[conditional]
channel_name: String,
target_guid: u64,
message_length: u32,
#[depends_on(message_length)]
message: String,
}
impl Incoming {
fn channel_name(instance: &mut Self) -> bool {
instance.message_type == MessageType::CHANNEL
}
}
Устройство макроса
Теперь по порядку разберем, как он устроен. Фундаментом для чтения/записи данных служит трейт BinaryConverter
:
pub trait BinaryConverter {
fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()>;
fn read_from<R: BufRead>(
reader: &mut R,
dependencies: &mut Vec<u8>
) -> AnyResult<Self> where Self: Sized;
}
Этот трейт я имплеменчу на каждый тип, который хочу использовать в полях сериалайзера:
impl BinaryConverter for u8 {
fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()> {
buffer.write_u8(*self).map_err(|e| FieldError::CannotWrite(e, "u8".to_string()).into())
}
fn read_from<R: BufRead>(reader: &mut R, _: &mut Vec<u8>) -> AnyResult<Self> {
reader.read_u8().map_err(|e| FieldError::CannotRead(e, "u8".to_string()).into())
}
}
В некоторых случаях требуется чуть больше кода, к примеру, для строк:
impl BinaryConverter for String {
fn write_into(&mut self, buffer: &mut Vec<u8>) -> AnyResult<()> {
buffer.write_all(self.as_bytes())
.map_err(|e| FieldError::CannotWrite(e, "String".to_string()))?;
Ok(())
}
fn read_from<R: BufRead>(
reader: &mut R,
dependencies: &mut Vec<u8>
) -> AnyResult<Self> {
let mut cursor = Cursor::new(dependencies.to_vec());
let size = match dependencies.len() {
1 => ReadBytesExt::read_u8(&mut cursor)
.map_err(|e| FieldError::CannotRead(e, "String u8 size".to_string()))? as usize,
2 => ReadBytesExt::read_u16::<LittleEndian>(&mut cursor)
.map_err(|e| FieldError::CannotRead(e, "String u16 size".to_string()))? as usize,
4 => ReadBytesExt::read_u32::<LittleEndian>(&mut cursor)
.map_err(|e| FieldError::CannotRead(e, "String u32 size".to_string()))? as usize,
_ => 0,
};
let buffer = if size > 0 {
let mut buffer = vec![0u8; size];
reader.read_exact(&mut buffer)
.map_err(|e| FieldError::CannotRead(e, "String".to_string()))?;
buffer
} else {
let mut buffer = vec![];
reader.read_until(0, &mut buffer)
.map_err(|e| FieldError::CannotRead(e, "String".to_string()))?;
buffer
};
let string = String::from_utf8(buffer)
.map_err(|e| FieldError::InvalidString(e, "String".to_string()))?;
Ok(string.trim_end_matches(char::from(0)).to_string())
}
}
То же самое справедливо и для пользовательских типов. Благодаря этому при объявлении сериалайзера можно использовать тип Player
напрямую в качестве типа для поля:
// пакет с опкодом SMSG_CHAR_ENUM
#[derive(WorldPacket, Serialize, Debug)]
struct Incoming {
characters_count: u8,
#[depends_on(characters_count)]
characters: Vec<Player>,
}
Теперь, при получении пакета с сервера, с помощью сериалайзера из примера выше мы можем прочитать список персонажей - в переменную characters
:
let (Incoming { characters, .. }, json) = Incoming::from_binary(&input.data)?;
Метод from_binary
возвращает tuple из двух элементов - инстанс текущего struct
и json представление его полей.
Рассмотрим, откуда взялся этот метод и при чем же здесь trait BinaryConverter
.
Изнанка сериалайзера
Есть два макроса: один для Login сервера, второй - для World сервера. Но выбирать из них мы не будем и рассмотрим только один, поскольку они сильно похожи.
#[proc_macro_derive(WorldPacket, attributes(depends_on, conditional))]
pub fn world_packet(input: TokenStream) -> TokenStream {
let ItemStruct { ident, fields, .. } = parse_macro_input!(input);
// формируем список полей
// формируем список зависимостей для полей
// формируем список значений
// формируем то, что вернет макрос
TokenStream::from(output)
}
Любой proc-macro
скорее всего будет выглядеть как-то так.
Начать я хотел бы с конца, а именно - с объяснения, что такое output
. Если вкратце, то это - переменная, которая содержит код, обернутый с помощью макроса quote!
. Т.е. для того, чтобы struct
, к которому я применяю мой макрос, получал некий метод, назовем его from_binary
, понадобится добавить следующие строки в эту переменную:
#[proc_macro_derive(WorldPacket, attributes(depends_on, conditional))]
pub fn world_packet(input: TokenStream) -> TokenStream {
let ItemStruct { ident, fields, .. } = parse_macro_input!(input);
// формируем список полей
// формируем список зависимостей для полей
// формируем список значений
let output = quote! {
impl #ident {
pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
println!("It works !");
// а здесь нужно вернуть результат
}
}
};
TokenStream::from(output)
}
В коде выше ident
- это идентификатор того struct
, к которому применен макрос. Знак решетки служит для интерполяции выражений - таким образом, в контексте текущей серии примеров, ident
означает Incoming
, как если бы я написал:
impl Incoming {
pub fn from_binary(buffer: &[u8]) -> AnyResult<(Self, String)> {
println!("It works !");
// а здесь нужно вернуть результат
}
}
Помимо переменных, интерполировать можно так же и импорты, к примеру, переменнаяresult
- это не что иное, как quote!(anyhow::Result)
.
Теперь добавим формирование списка полей и списка значений. Поскольку задача метода from_binary
- сформировать struct из пакета байт (ну, а так же json), нужно, чтобы внутри метода было что-то вроде:
let binary_converter = quote!(tentacli_traits::BinaryConverter);
let cursor = quote!(std::io::Cursor);
let output = quote! {
impl #ident {
pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
println!("It works !");
let mut reader = #cursor::new(buffer);
let json = String::new();
let instance = Self {
characters_count: #binary_converter::read_from(&mut reader, &mut vec![]),
characters: #binary_converter::read_from(&mut reader, &mut vec![]),
};
Ok((instance, json))
}
}
};
Благодаря этому коду получился одноразовый макрос.
Теперь нужно сделать, чтобы он обрабатывал любой набор полей:
// эту строку я уже указывал в примерах выше, но просто добавлю ее
// для ясности - откуда взялся fields
let ItemStruct { ident, fields, .. } = parse_macro_input!(input);
let field_names = fields.iter().map(|f| {
// в этом случае ident - это уже идентификатор поля !
f.ident.clone()
}).collect::<Vec<Option<Ident>>>();
let initializers = fields.iter()
.map(|f| {
let field_name = f.ident.clone();
let field_type = f.ty.clone();
quote! {
{
let value: #field_type = #binary_converter::read_from(&mut reader, &mut vec![])?;
value
}
}
});
let binary_converter = quote!(tentacli_traits::BinaryConverter);
let cursor = quote!(std::io::Cursor);
let output = quote! {
impl #ident {
pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
println!("It works !");
let mut reader = #cursor::new(buffer);
let json = String::new();
// а теперь магия развертывания
let mut instance = Self {
#(#field_names: #initializers),*
};
Ok((instance, json))
}
}
};
Вот этот код (развертывание):
let mut instance = Self {
#(#field_names: #initializers),*
};
Будет компилятором преображен примерно в такой:
let mut instance = Self {
field1: {
let value: i32 = binary_converter::read_from(&mut reader, &mut vec![])?;
value
},
field2: {
let value: String = binary_converter::read_from(&mut reader, &mut vec![])?;
value
},
// ...
};
Т.е. иными словами, благодаря развертыванию происходит сопоставление каждого элемента из field_names
элементу с тем же порядковым номером из initializers
, затем каждая пара подставляется в Self
- и разделяется запятой.
Атрибуты depends_on и conditional
Чтобы сформировать список полей, которые содержат заданные атрибуты, можно использовать обычный вектор или какой-нибудь hashmap/btreemap:
// этот struct объявлен вне макроса
struct DependsOnAttribute {
pub name: Ident,
}
impl Parse for DependsOnAttribute {
fn parse(input: ParseStream) -> syn::Result<Self> {
let name: Ident = input.parse()?;
Ok(Self { name })
}
}
// дальнейший код уже внутри макроса
let mut depends_on: BTreeMap<Option<Ident>, Vec<Ident>> = BTreeMap::new();
let mut conditional: Vec<Option<Ident>> = vec![];
for field in fields.iter() {
let ident = field.ident.clone();
if field.attrs.iter().any(|attr| attr.path().is_ident("depends_on")) {
let mut dependencies: Vec<Ident> = vec![];
field.attrs.iter().for_each(|attr| {
if attr.path().is_ident("depends_on") {
let parsed_attrs = attr.parse_args_with(
Punctuated::<DependsOnAttribute, Token![,]>::parse_terminated
).unwrap();
for a in parsed_attrs {
dependencies.push(a.name);
}
}
});
depends_on.insert(ident.clone(), dependencies);
}
if field.attrs.iter().any(|attr| attr.path().is_ident("conditional")) {
conditional.push(ident);
}
}
С помощью переменных depends_on
и conditional
мы просто формируем списки идентификаторов, которые будут использованы в дальнейшем (см. в конце статьи).
Но перед тем, как мы перейдем к завершающей фазе, хочу рассмотреть еще одну вещь.
В свое время parse_terminated
и парсинг атрибутов в целом вызвал у меня много вопросов и непоняток, поэтому рассмотрим его подробнее с примерами.
Как вообще парсить атрибуты
Метод parse_terminated
принимает два generic параметра: то, что мы ищем и то, чем это разделяется (separator).
Для начала сделаем макрос, атрибут которого будет принимать список чисел, которые затем можно будет вывести в консоль:
#[derive(Simple)]
#[numbers(1, 2, 3, 4)]
struct MyStruct;
fn main() {
MyStruct::output()
}
// и код макроса:
#[proc_macro_derive(Simple, attributes(numbers))]
pub fn simple(input: TokenStream) -> TokenStream {
let DeriveInput { ident, attrs, .. } = parse_macro_input!(input);
let mut numbers = vec![];
for attr in attrs {
if attr.path().is_ident("numbers") {
let number_list = attr.parse_args_with(
Punctuated::<LitInt, Token![,]>::parse_terminated
).unwrap();
for number in number_list {
numbers.push(number.base10_parse::<i32>().unwrap());
}
}
}
// поскольку на вектор при интерполяции накладываются некоторые ограничения
// для вывода мы можем предварительно привести его к строке
let numbers_str = format!("{:?}", numbers);
let output = quote! {
impl #ident {
pub fn output() {
println!("{:?}", #numbers_str);
// либо можно вывести вектор вот так:
println!("{:?}", [ #( #numbers ),* ]);
}
}
};
TokenStream::from(output)
}
Каждый атрибут мы парсим с помощью attr.parse_args_with
, который принимает парсер в качестве параметра. Собственно, парсером в нашем случае выступает вышеупомянутый parse_terminated
.
Можно немного облагородить процесс парсинга и создать кастомный struct:
struct NumberList {
numbers: Punctuated<LitInt, Token![,]>,
}
impl syn::parse::Parse for NumberList {
fn parse(input: syn::parse::ParseStream) -> syn::Result<Self> {
Ok(NumberList {
numbers: Punctuated::parse_terminated(input)?
})
}
}
// и в самом макросе number_list будет читаться как-то так:
let number_list = attr.parse_args::<NumberList>().unwrap().numbers;
В таком случае использование parse_terminated
можно вынести из общего кода. Концепция кастомного struct
нам понадобится далее.
Теперь усложним задачу. Будем парсить список параметров, где есть пары ключ и значение:
#[derive(Middle)]
#[values(tentacli=works, join=us, on=discord)]
struct BetterStruct;
// для этого я применю уже рассмотренный выше подход с кастомным struct
struct ValuesList {
pub items: Vec<(String, String)>,
}
impl syn::parse::Parse for ValuesList {
fn parse(input: syn::parse::ParseStream) -> syn::Result<Self> {
let mut items = vec![];
while !input.is_empty() {
let key: Ident = input.parse()?;
input.parse::<Token![=]>()?;
let value: Ident = input.parse()?;
items.push((key.to_string(), value.to_string()));
if input.peek(Token![,]) {
input.parse::<Token![,]>().expect(",");
}
}
Ok(Self { items })
}
}
#[proc_macro_derive(Middle, attributes(values))]
pub fn middle(input: TokenStream) -> TokenStream {
// ...
for attr in attrs {
if attr.path().is_ident("values") {
let items_list = attr.parse_args::<ValuesList>().unwrap();
// ...
}
}
// ...
TokenStream::from(output)
}
То, что мы парсим - это по сути просто набор токенов, поэтому можно воспринимать процесс парсинга как их последовательный перебор - и если какой-то элемент в последовательности будет пропущен (скажем, в нашем случае - пропущен знак "=") - произойдет ошибка на этапе компиляции.
Поскольку параметры, указанные в скобках атрибута, передаются без кавычек, они воспринимаются парсером, как идентификаторы, в противном случае каждый key/value нужно было бы парсить как строку с помощью LitStr
вместо Ident
.
Это все были атрибуты для struct. Для полноты картины рассмотрим так же атрибуты полей. С ними все то же самое, единственное отличие - эти атрибуты парсятся из fields
.
#[derive(Hard)]
#[values(tentacli=works, join=us, on=discord)]
struct TopStruct {
#[value("Tentacli")]
name: String,
#[value("https://github.com/idewave/tentacli")]
github_link: String,
#[value("https://crates.io/crates/tentacli")]
crates_link: String,
}
#[proc_macro_derive(Hard, attributes(values, value))]
pub fn hard(input: TokenStream) -> TokenStream {
// чтобы получить fields вместо DeriveInput используем ItemStruct
let ItemStruct { ident, fields, attrs, .. } = parse_macro_input!(input);
for field in fields.iter() {
field.attrs.iter().for_each(|attr| {
if attr.path().is_ident("value") {
let value = attr.parse_args::<LitStr>().unwrap();
values.push(value.value());
}
});
}
TokenStream::from(output)
}
Я создал репу на гитхабе, в которой содержатся все три примера.
Заключение
Теперь с полным (я надеюсь) пониманием, как функционирует макрос - предлагаю дописать код для переменной initializers
и для метода from_binary
:
let initializers = fields
.iter()
.map(|f| {
let field_name = f.ident.clone();
let field_type = f.ty.clone();
let output = if let Some(dep_fields) = depends_on.get(&field_name) {
quote! {
{
let mut data: Vec<u8> = vec![];
#(
#binary_converter::write_into(
&mut cache.#dep_fields,
&mut data,
)?;
)*
#binary_converter::read_from(&mut reader, &mut data)?
}
}
} else {
quote! {
{
let value: #field_type = #binary_converter::read_from(
&mut reader, &mut vec![]
)?;
cache.#field_name = value.clone();
value
}
}
};
if conditional.contains(&field_name) {
quote! {
{
if Self::#field_name(&mut cache) {
#output
} else {
Default::default()
}
}
}
} else {
output
}
});
let output = quote! {
impl #ident {
pub fn from_binary(buffer: &[u8]) -> #result<(Self, String)> {
println!("It works !");
let mut cache = Self {
#(#field_names: Default::default()),*
};
let mut reader = #cursor::new(buffer);
let mut instance = Self {
#(#field_names: #initializers),*
};
let details = instance.get_json_details()?;
Ok((instance, details))
}
}
};
Первый вопрос, который может у вас появиться: что это за reader
, cache
и прочие разные переменные, которые не объявлены перед initializers
, но почему-то используются внутри этой переменной. Ответ достаточно прост: содержимое переменной initializers
будет подставлено в том месте переменной output
, где мы ее указали. А все, что мы передали внутрь TokenStream::from(output)
- будет скомпилировано одним куском. Таким образом, в коде выше, - переменная cache
объявлена на 52 строке, переменная reader
- на 56 и все они - объявлены ДО того, как initializers
попал в код.
Второй вопрос: что есть cache. Это реплика инстанса текущего struct
за исключением того, что запись туда ведется до первого поля с атрибутом depends_on
. Благодаря этому подходу можно сделать запрос к ранее прочитанным полям, не дожидаясь окончания чтения всех полей. И на этапе билда решить, как правильно читать следующее поле. К примеру, возьмем самый первый код, где описан пакет SMSG_MESSAGECHAT
. Есть там условное поле channel_name
, если на этапе чтения мы его прочтем тогда, когда этого делать было не нужно, то следующее поле (и все дальнейшие) уже будет прочитано неправильно, что приведет к ошибке.
А третий вопрос задавайте в комментариях.