Интерпретатор PHP: а что там внутри… / Хабр

Если совсем просто, интерпретатор PHP — это программа, которая выполняет скрипты на языке PHP. Он состоит из нескольких компонентов, которые работают вместе, чтобы обработать скрипт PHP и произвести вывод.

Перечислим эти компоненты:

Lexer — это компонент, который разбирает исходный код на токены (ключевые слова, операторы, константы и т.д.).
Parser — это компонент, который преобразует токены в абстрактное синтаксическое дерево (AST). AST — это структура данных, которая представляет скрипт на языке PHP в виде дерева, где каждый узел представляет собой операцию или конструкцию языка.
Executor — это компонент, который выполняет инструкции, представленные в AST. Он просматривает каждый узел AST и выполняет соответствующую операцию.
Zend Engine — это основной компонент интерпретатора PHP, который объединяет Lexer, Parser и Executor. Он также управляет работой с памятью, оптимизацией кода и другими внутренними аспектами языка.
SAPI (Server Application Programming Interface) — это интерфейс между интерпретатором PHP и веб-сервером, который позволяет запускать скрипты на языке PHP на сервере. В PHP существует несколько различных SAPI, таких как Apache, CGI и FastCGI.

Начнем наш обзор с лексического анализатора.

Lexer (лексический анализатор) в PHP — это компонент, который преобразует исходный код на языке PHP в поток токенов. Он работает по следующему алгоритму:

Получение кода на входе — Lexer получает на вход исходный код на языке PHP.
Разбиение кода на лексемы — Lexer анализирует код и разбивает его на отдельные лексемы (ключевые слова, операторы, константы и т.д.).
Создание токенов — Для каждой лексемы Lexer создает соответствующий токен, который содержит информацию о типе лексемы, ее значение и позиции в исходном коде.
Формирование потока токенов — Lexer формирует поток токенов из созданных токенов, который передается на вход компоненту Parser для дальнейшей обработки.
Обработка ошибок — В случае возникновения ошибки Lexer создает соответствующее исключение, которое передается на уровень выше для обработки.

Для примера работы лексера можно рассмотреть следующий код на языке PHP:

<?php
function helloWorld($name) {
    echo "Hello, " . $name . "!";
}

После применения лексера к этому коду получится поток токенов, который можно представить в виде таблицы:

Тип токена	Значение	Позиция в коде
T_FUNCTION	function	1:1
T_WHITESPACE		1:10
T_STRING	helloWorld	1:11
T_OPEN_PAREN	(	1:21
T_VARIABLE	$name	1:22
T_CLOSE_PAREN	)	1:27
T_WHITESPACE		1:28
T_OPEN_CURLY	{	2:1
T_WHITESPACE		2:2
T_ECHO	echo	3:5
T_WHITESPACE		3:9
T_CONSTANT_EN	«Hello, „	3:10
T_CONCAT_EQUAL	.	3:18
T_VARIABLE	$name	3:20
T_CONCAT_EQUAL	.	3:24
T_CONSTANT_EN	“!»	3:26
T_SEMICOLON	;	3:27
T_WHITESPACE		4:1
T_CLOSE_CURLY	}	5:1

Каждый токен имеет свой тип, значение и позицию в исходном коде. Например, первый токен имеет тип T_FUNCTION, значение function и позицию 1:1 (1 строка, 1 символ), а последний токен имеет тип T_CLOSE_CURLY, значение }, и позицию 5:1 (5 строка, 1 символ).

Поток токенов, полученный после работы лексера, затем передается на вход компоненту Parser для дальнейшей обработки и выполнения скрипта.

Итак, ранее мы начали наш рассказ о Lexer языка PHP. Стоит обратить внимание на следующие его особенности:

Лексер — это компонент, который разбивает исходный код на токены. Это первый шаг в парсинге PHP-кода.
Лексер использует таблицы переходов (transition tables) для определения того, какой символ является следующим в потоке токенов.
Лексер работает в два этапа: первый этап — это сканирование, второй — это анализ.
На первом этапе лексер сканирует исходный код и разбивает его на токены. На этом этапе лексер выполняет проверку синтаксиса.
На втором этапе лексер анализирует токены, выявляя в них смысловые единицы (например, идентификаторы, числа, строки и т. д.).
Лексер может генерировать ошибки парсинга, если обнаруживает некорректный код.
PHP-лексер работает быстрее, если на вход подаются корректные данные. Если же на входе содержится некорректный код, то лексер может потребовать значительно больше времени на обработку.
Лексер в PHP использует двоичное дерево для хранения токенов. Это позволяет обращаться к токенам быстро и эффективно.

Сканирование является первым этапом работы лексера. Он заключается в процессе разбиения входного потока символов на отдельные лексемы, которые затем могут быть преобразованы в токены.

На вход лексеру подается входной поток символов, который может быть строкой или файлом. Лексер начинает считывать символы из потока и строит текущую лексему. Затем он проверяет, соответствует ли текущая лексема одному из заданных токенов. Если текущая лексема не соответствует ни одному из токенов, лексер добавляет символ к текущей лексеме и переходит к следующему символу в потоке. Если текущая лексема соответствует токену, лексер генерирует токен и переходит к следующему символу в потоке. Лексер повторяет этот процесс до тех пор, пока не достигнет конца потока символов.

После окончания сканирования лексер возвращает список токенов, который содержит информацию о типе токена, его значении и позиции в исходном коде. Все найденные токены сохраняются во временном буфере, где они используются для дальнейшего анализа кода.

Сканирование входного потока символов производится многократно, поскольку лексер работает с многими вложенными структурами, такими как строки, комментарии и т. д. Этот процесс важен для корректного анализа кода и позволяет лексеру правильно интерпретировать код, разбивая его на логические части.

Анализ (парсинг) — это второй этап работы компилятора, после лексического анализа. Он заключается в разборе последовательности токенов, которые были получены на предыдущем этапе, и создании из них абстрактного синтаксического дерева (AST).

AST представляет собой структуру данных, которая описывает логическую структуру программы. Это дерево состоит из узлов, которые представляют различные элементы программы, такие как операторы, выражения, функции и т.д. Каждый узел содержит информацию о своем типе и может иметь дочерние узлы.

Анализатор начинает работу с первого токена в списке и строит AST в соответствии с грамматикой языка программирования. Анализатор проверяет правильность порядка следования токенов, применяет правила грамматики и строит AST. Если в процессе разбора встречается синтаксическая ошибка, анализатор генерирует сообщение об ошибке и завершает работу.

AST затем используется для дальнейшей обработки программы, такой как оптимизация и генерация машинного кода. AST также используется для реализации функций IDE, таких как автодополнение кода, навигация по коду, отладка и другие функции.

Анализ является критически важным этапом в компиляции программного кода, поскольку он гарантирует, что программа написана синтаксически правильно и может быть выполнена.

AST (абстрактное синтаксическое дерево) — это структура данных, которая представляет собой дерево разбора программного кода на языке программирования. Каждый узел дерева соответствует конструкции языка программирования, такой как выражение, оператор, функция и т.д. Вот пример AST для простой программы на языке PHP:

Program

 └─ Namespace (name: "MyNamespace")

 ├─ Class (name: "MyClass")

 │ ├─ Method (name: "myMethod")

 │ │ └─ Statement (type: "echo")

 │ │ └─ StringLiteral (value: "Hello, world!")

 │ └─ Property (name: "myProperty")

 └─ Function (name: "myFunction")

 └─ Statement (type: "return")

 └─ IntegerLiteral (value: 42)

Этот AST представляет простую программу, которая содержит пространство имен, класс, метод, свойство и функцию. Каждый узел дерева соответствует конструкции языка программирования, которую можно анализировать и обрабатывать.

Интерпретатор PHP: а что там внутри…

Публикации

Ближайшие события