Комментарии / Профиль ShamanHead / Хабр

Арсений Романовский@ShamanHead

Веб программист

@ShamanHead 19 окт 2020 в 15:46

Я считаю, что диалог с читателем должнен быть. В конце концов, читатели разные, с разным уровнем квалификации. Я считаю, что стоит придерживаться грани, в меру шутить и быть серьезным.

Как я html-парсер на php писал, и что из этого вышло. Заключительная часть

@ShamanHead 15 авг 2020 в 17:40

Если вы имеете в виду такой вариант: "'" — то да, можно. Со скобками перепутал, такое случается

Аллокаторы памяти

@ShamanHead 7 июн 2020 в 14:18

Это скорее перевод, нежели плагиат. А вообще, стоило пометить этот пост как перевод.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 12:50

Лексический анализатор строит токены, а не синтаксический. Я вполне могу создать текстовую ноду, только смысла в этом нет. В том же simple dom все script и style вырезаются регулярками.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 12:21

Боюсь, сейчас вы показали полное отсутствие компетентности в данной теме. В профильной литературе, и, например, в lex регулярные выражения используются повсеместно.

Нет, я показал отсутствие компетентности в регулярных выражениях, но никак не в синтаксическом анализе. В конце концов, если бы то, что вы сказали выше — правда, думаю моя статья вообще бы не вышла на хабре. К тому же, я не говорю, что использовать регулярные выражения вообще в синтаксических анализаторах это сразу плохо. Вовсе нет. Просто в данной задаче это не нужно, так как она достаточно простая и использовать регулярные выражения нет смысла.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 12:07

Ого, спасибо за пояснение! Я сначала думал, что у меня мало знаний, поэтому я не смогу написать парсер на регулярках. А оказывается его написать и нельзя. Касательно script вы правы. В конце концов, в script могут быть разные выражения с использованием "<" и других символов, и нельзя допустить, чтобы такой код обрабатывался как обычные теги. Все это предусмотрено.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 11:28

Неплохая идея, только тут стоит подумать о той же производительности. Ведь если я решу добавить подобный функционал, мне придется писать еще один синтаксический анализатор только для поиска. При этом получится, что этот синтаксический анализатор будет даже больше, чем анализатор html, ведь в XPath есть уже функции, операторы и др.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 11:20

А ведь правда. Вот я сглупил. Спасибо за комментарий.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 11:00

Кстати, а вот это я уже не учел. Спасибо за комментарий, приму к сведению.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 5 июн 2020 в 10:44

Касательно того, что я пишу бред. Это небольшая ошибка, я имел ввиду то, что парсер меняем состояние и начинает дальнейшую цепочку символов обрабатывать как тег. Прошу прощения, хотя с другой стороны, тем кто вообще не знаком с синтаксическими анализаторами, как мне кажется, будет более понятен мой вариант объяснения. Также я читал книгу по трансляторам, более того, некоторый материал будет использоваться в дальнейших частях цикла. Например про те же состояния и теорию конечных автоматов. Частей будет еще где-то две. Касательно нод. Вы не учли ноду комментариев, а ведь они тоже будут в документе, и их тоже нужно будет обрабатывать. Также хочу отметить, что вариант написания парсера на регулярках — плохая идея. Такой парсер будет работать примерно так же, как simple dom.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 18:20

Вообще это очень размытая цифра. В конце концов, парсеру же еще нужно загрузить страницу, так что тут больше скорость загрузки зависит от интернета. Если брать текст из уже скачанной страницы, то он обрабатывает текст с все того же сайта за 250мс

-1

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 17:22

Я не особо разбирался в этой теме, поэтому нет. Более того, мне это не нужно. Функционала моего парсера мне хватает, как и скорости. Я буду писать об этом дальше, но сейчас могу сказать, что мой парсер ищет текст с сайта new your times примерно за 1.5 секунды

-1

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 15:49

Чистый интерес. Ну и еще мне надоел simple dom

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 14:37

Нет. Все вручную, только хардкор.

-2

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 12:17

Справедливо, спасибо за критику.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 11:59

Это вводная часть, она и не должна быть большой. Если бы я тут подробнее углубился бы в детали, тогда моя статья была бы не меньше той, ссылку на которую вы оставили. А это только теоритический материал, без кода. С помощью этой статьи я хотел заинтересовать читателя темой, а не полностью охватить эту тему.

-1

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 08:36

Спасибо за поддержку. Забрасывать не намерен, тема мне кажется интересной, поэтому хочу ее развивать.

Как я html-парсер на php писал, и что из этого вышло. Вводная часть

@ShamanHead 4 июн 2020 в 08:34

Данная ошибка не пропущена. В этом случаи ошибка относится к ошибке, когда нету закрывающего тега, а открывающий есть. Касательно одиночных тегов — эта функция предусмотрена парсером, у меня есть список одиночных тегов, если тег совпадает с одиночным, он записывается в дом. Касательно краткого закрытия тега — тоже предусмотрено