ph_piter 30 ноя 2023 в 22:38

Увлекательный лексический анализ языка Rust

7 мин

6.7K

Блог компании Издательский дом «Питер»Занимательные задачкиАлгоритмы*Rust*Natural Language Processing*

Перевод

+14

Комментарии 6

PrinceKorwin 30 ноя 2023 в 23:05

За комментарии на русском языке ещё не ругали? :)

Шутка! Статья отличная! Очень просто и понятно написано на не самом простом для изучения языке.

PrinceKorwin 1 дек 2023 в 00:00

Могу два уточнения сделать:

При выводе ошибки лучше добавлять позицию/строка где сломались. Это очень помогает тем, кто будет использовать библиотеку
Конвертация в число не учитывает переполнение. Текущий код просто упадет если дать на вход число 12345, как пример. А нужно бы вернуть нормальную ошибку.

mayorovp 1 дек 2023 в 09:55

Так очень удобно просигнализировать клиенту, что вызывать tokenize по несколько раз не разрешается и принудительно обеспечить соблюдение этого условия во время компиляции.

Если вызывать метод несколько раз не разрешается - нужно делать его принимающим не ссылку &mut self, а значение mut self

orefkov 1 дек 2023 в 11:26

Тю, я думал с нормальной теорией будет, про регулярные грамматики расскажут, конечные автоматы. А тут просто идут по строке и символы сравнивают. Есть же хорошо развитая теория, и довольно простая. И поняв ее принцип - написать нужный токенизатор на любом языке - простая задача.

VMarkelov 2 дек 2023 в 04:30

Так всё-таки, статья о "Увлекательный лексический анализ языка Rust" или о "Увлекательный лексический анализ с помощью языка Rust"?

Я ожидал разбор самого Rust, но с первых абзацев закрались смутные сомнения :)

spovst 7 дек 2023 в 11:14

С моей точки зрения, в контексте решаемой задачи только первая (в итоге и выбранная) версия перечисления Token корректна. Токен - это неделимая смысловая единица входного языка; из таких единиц строятся высказывания на этом языке. Поэтому вторая предлагаемая версия - своего рода доведение до абсурда, просто сопоставление каждого символа алфавита некоторому идентификатору; расширив этот вариант до всех 256 символов ASCII, можно гордо заявить, что мы реализовали универсальный токенизатор для любого языка (пусть и без поддержки юникода), только вот толку от него?

Третья же версия - это уже не про лексемы, а про синтаксис. Определять, чему синтаксически соответствует токен, задача не лексера, а парсера. Да, для очень простых языков можно вообще не делать это разделение, но лучше всё-таки делать, это позволит более гибко модифицировать отдельные механизмы в дальнейшем.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий