В буквально в феврале я шёл домой. Живу на пятом этаже. Открыл дверь подъезда, поднимаюсь. За мной кто-то зашёл, но мне как-то пофиг было особо. Когда дошёл до пятого этажа, он ко мне подошёл, показал удостоверение опера и сказал проехать с ним. В отделении выяснилось, что прошлой ночью у моего подъезда ограбили паренька, который лежит с тяжелыми травмами в больнице, но смог описать нападавшего, и по приметам я подходил. На меня начали давить, типа чтобы я написал чистосердечное иначе плохо будет и всё такое. Ну я просто отнекивался и посылал их несколько раз на**й (был пьяный слегка). Вывернули мой рюкзак, всё осмотрели, пытались два часа выбить из меня признание. Читали все переписки в моем телефоне (мне скрывать нечего, пофиг, сам им пароль от телефона сказал). Четверо или пятеро мужиков взрослых стояли вокруг меня и объясняли мне за жизнь и уламывали чтобы сознался во всём. Спустя пару часов отпустили. Потом утром следователь позвонила и попросила придти. Ещё раз посмотрели мой телефон, попросили в личном кабинете теле2 сделать детализацию и показать. Затем оформила меня как свидетеля и сказала что поедем на опознание в больницу. Я просидел минут двадцать в коридоре, следователь подошла и сказала, что сейчас поехать не сможем и взяла с меня честное слово, что явлюсь для опознания когда она позвонит мне. Так и не позвонила.
Так вот, к чему я. Следачка — вполне нормальная адекватная женщина была. Опера пытались наезжать. И вот тут, с одной стороны, они вели себя как гопари с района, а с другой — будь я реально тем грабителем — они бы всё равно меня точно так же бы отпустили. Видимо, видя мою уверенность, они боялись давить сильно, как-то угрожать, потому что были сомнения, что это действительно я. Но они работали. Реально работали. Они реально пытались искать ту мразь. Возможно, будь на моём месте там реальный преступник, он бы сознался. И учитывая, что на опознание меня так и не повезли, возможно они нашли того, кто реально это совершил. Конечно, это не характеризует всю полицию и ничего толком не значит. Но всё же есть те, кто реально пытается делать свою работу.
Вместо Simple HTML DOM я бы посоветовал paquettg/php-html-parser. Вообще, наткнулся на неё после того, как simple html dom отказывался парсить большой html-файл. Эта либа всё распарсила без проблем.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.
тогда предлагаю ещё на ютубе, в соц. сетях и везде, где есть возможность плюсов/минусов (лайков/дизлайков) тоже делать возможность указывать причину. Только зачем? Для этого есть комментарии. А если человек не хочет объяснять в комментариях, то, с немалой вероятностью он причину просто тыкнет наугад любую.
Одно дело, когда на том же ютубе авторов видео волнуют просмотры и лайки, потому что это влияет на продвижение ролика. Здесь это не влияет ни на что. А если даже сильно сольют карму, ограничивания в комментировании — можно просто создать новый профиль за пару минут
Да я не спорю) Просто констатировал факт, что браузер вообще необязателен. Особенно, если это не связано с сайтом. Я вот, например, часто парсеры делаю на нём и запускаю из консоли, зачем мне запускать их из браузера?
Ну а если захотите написать, что для этого надо использовать не php, а какой-нибудь пайтон, то не нужно пожалуйста. Мне удобно это делать на php, и я делаю это на php
Ну если не учитывать, какой зоопарк нужно поставить, чтобы заставить PHP выводить в браузер что-то «без эмулятора»…
Ну вообще, для работы с PHP вообще необязателен браузер, это не HTML. Код можно просто запускать из консоли вроде «php hello-world.php», и выводить в коде в консоль значения — тоже не проблема ни разу.
Что-то вроде того? qna.habr.com/q/371627 Иначе я не понял
UPD. А, дошло)) Просто считываем файл и прямо так и пишем в бд) Настолько жесть, что в голову не пришло даже)
Если честно, я вообще не представляю, что может на сайтах грузиться так долго. Ещё несколько лет назад я создавал свой первый относительно крупный сайт (заказ на фрилансе) — chacom.ru. Он ужасен во многом — вёрстка, хранение данных, избыточные запросы к бд. Относительно недавно глядел в исходники — жесть. Например, все изображения из объявлений (больше 100к) хранятся просто все в одной папке img/upload/. И ещё много чего, от чего дёргается глаз, когда я вижу свой код. И то, будучи студентом, с бюджетом в 50000 руб я не смог сделать сайт медленным. Я понимаю, что интернет-магазины будут сложнее просто доски объявлений. Но вроде там должны же работать нормальные специалисты и делать не в одно лицо (как я), а командой, с тех. лидами, блэкджеком и прочим. Однако какой-нибудь условный dns-shop у меня на телефоне загружается полностью почти за 10 секунд, ещё и подлагивает при скроллинге. Я даже не представляю, кто и как это делает (представляю)
Проверять ссылки с помощью Postman?)) Это типа вбивать вручную каждую ссылку и смотреть ответ?)))
Теперь с помощью этого java-кода вы можете проверить все ссылки.
Я не шарю в java, но как я понял, он проверяет не все ссылки, а только ссылки на одной странице. Если надо проверить весь сайт, это не прокатит.
Да и вообще, в большинстве случаев selenium и не нужен тут (если там не какая-нибудь хитрая штука, которая не даст просто так получить данные), просто делаем обычный GET-запрос, парсим html (с помощью библиотеки специальной или просто ручками ищем все href=, если только гиперссылки надо проверять) и проверяем ссылки также GET-запросом. Тут можно без особых проблем сделать рекурсию и искать битые ссылки в коде, который получили переходя по другим ссылкам. Ну и если нужна авторизация на сайте перед парсингом, её тоже сделать не так сложно в большинстве случаев, тем более, если это ваш проект
я в детстве очень много читал. Уроки русского языка мне давались крайне легко. Тут прикол в том, что когда много читаешь, написание слов и расстановка знаков препинания ставятся уже автоматически (интуитивно). В 9 классе было ГИА, я единственный в классе сдал на 5, хотя не готовился вообще. Даже на подготовку не ходил, за что учительница меня ругала постоянно и говорила что без неё и без подготовки я провалюсь. Просто много правил русского языка я вообще не знаю, просто знаю подсознательно, что надо писать так. Конечно, я знаю про деепричастные обороты, которые выделяются запятыми, знаю про союзы «а» и «но», перед которыми всегда ставится запятая. А еще перед союзом «и» при перечислении и т.д. Это как-то отрывками откладывалось в памяти на уроках, но в целом оно мне нужно, я с 5-6 лет делал это на автомате, не зная ещё никаких правил
Оффтоп: помню как несколько лет назад, живя в общаге, начинал свой путь на фрилансе имея нетбук соседа с 1гб оперативки (не помню остальные характеристики). Писал в Brackets, используя плагин для автозагрузки измененных файлов по FTP на хостинг ибо локальный веб-сервер не потянул бы аппарат. Было тяжело, но что-то получалось и зарабатывал первые денежки. Копейки, конечно (в среднем рублей 300-500 в день), но главным было — опыт и отзывы. Сейчас сижу за мощным игровым ноутбуком и работаю по ставке 700 руб/час и пустил слезу, очень тяжелые и одновременно приятные воспоминания.
Ну как минимум потому что очень мало таких людей в принципе читают хабр. А если кто и читает — нафиг оно им. Если б я работал в поддержке яндекса, я бы с радостью написал подробную статью о внутренней кухне. Но я лишь видел краем глаза работу знакомых. Вообще, если считаете, что тема интересная, могу «взять анонимное интервью» и оформить постом. Только сразу говорю, что никаких пруфов не будет ибо мне их никто не даст, боясь вылететь с работы.
Так вот, к чему я. Следачка — вполне нормальная адекватная женщина была. Опера пытались наезжать. И вот тут, с одной стороны, они вели себя как гопари с района, а с другой — будь я реально тем грабителем — они бы всё равно меня точно так же бы отпустили. Видимо, видя мою уверенность, они боялись давить сильно, как-то угрожать, потому что были сомнения, что это действительно я. Но они работали. Реально работали. Они реально пытались искать ту мразь. Возможно, будь на моём месте там реальный преступник, он бы сознался. И учитывая, что на опознание меня так и не повезли, возможно они нашли того, кто реально это совершил. Конечно, это не характеризует всю полицию и ничего толком не значит. Но всё же есть те, кто реально пытается делать свою работу.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.
Одно дело, когда на том же ютубе авторов видео волнуют просмотры и лайки, потому что это влияет на продвижение ролика. Здесь это не влияет ни на что. А если даже сильно сольют карму, ограничивания в комментировании — можно просто создать новый профиль за пару минут
Ну а если захотите написать, что для этого надо использовать не php, а какой-нибудь пайтон, то не нужно пожалуйста. Мне удобно это делать на php, и я делаю это на php
Ну вообще, для работы с PHP вообще необязателен браузер, это не HTML. Код можно просто запускать из консоли вроде «php hello-world.php», и выводить в коде в консоль значения — тоже не проблема ни разу.
UPD. А, дошло)) Просто считываем файл и прямо так и пишем в бд) Настолько жесть, что в голову не пришло даже)
Я не шарю в java, но как я понял, он проверяет не все ссылки, а только ссылки на одной странице. Если надо проверить весь сайт, это не прокатит.
Да и вообще, в большинстве случаев selenium и не нужен тут (если там не какая-нибудь хитрая штука, которая не даст просто так получить данные), просто делаем обычный GET-запрос, парсим html (с помощью библиотеки специальной или просто ручками ищем все href=, если только гиперссылки надо проверять) и проверяем ссылки также GET-запросом. Тут можно без особых проблем сделать рекурсию и искать битые ссылки в коде, который получили переходя по другим ссылкам. Ну и если нужна авторизация на сайте перед парсингом, её тоже сделать не так сложно в большинстве случаев, тем более, если это ваш проект