Комментарии 49
Отчасти тут играет роль ещё эффект выжившего. Просто там качающие смогли написать нормального бота, который распределился по нескольким городам и успешно обходит капчу, а у других программистов сделать это не получилось.
Свой дамп может быть полезно иметь в нескольких случаях: чтобы не терять доступ, если сайхаб вдруг откажет. Имхо, для надёжного будущего, SciHub-у очень не хватает механизмов децентрализации — и люди понимают, что легко могут остаться без рабочего инструмента.
Ещё кто-то писал (сорри, ссылку сейчас не найду), что это полезно, чтобы проводить text mining по статьям, ибо получить у издателя разрешение на это — очень трудоёмкий процесс. Для публикации результатов всё равно придётся с издателем договариваться, но предварительные исследования проще сделать на спираченной версии. Но в этот расклад я меньше верю: качают, фактически весь год (хотя летом сильно активизируются); предварительная подготовка исследования в компьютерных науках столько времени занимать не может.
Вот недельный heatmap для США. Совершеннейшая дичь же

Так википедия крошечная. А тут полсотни терабайт, если не ошибаюсь. Торренты сломаны и неудобны: это архивы(!) по сотне гигов каждый. Кажется, даже без нормального индекса, который позволил бы скачать только нужный торрент.
Anyway, вы можете попробовать сами обнаружить вклад от таких блокировок, пытаясь вычленить институции, предположительно подверженные им и те, что похожи на них, но не блокируются. Я уверен, что в небольших городах вполне можно найти ip институтов и даже понять, who is who. Например, прокоррелировать списки цитирований сотрудников НИИ и списки скачиваний.
Собственно, одна из целей статьи — побудить других поисследовать датасет и откопать что-нибудь новое.
Ваш NREN, кстати, не висит на каком-нибудь крупном хостинге? Меня, скажем, википедия банит при попытке редактировать статью через VPN на Digital Ocean. Объяснение простое: DO — крупный хостинг, с которого потенциально может прибежать толпа ботов, поэтому его забанили целиком
Про хостинг я не очень удачно выразился. Вопрос в том, кто выдаёт вам IP. Есть диапазоны адресов, принадлежащие amazon, google, DO итд, которые хорошо известны — и трафик с них может вырубаться просто на всякий случай.
Есть ещё шанс, что кто-то из вашей же сети просто врубает слишком агрессивного бота и тем подводит вашу сеть под бан по лимиту на число скачиваний. Попробуйте это помониторить.
А в данных не сомневайтесь. ;) Когда у вас измерений много, такие мелочи как блокировка сети /21 могут быть проигнорированы: всё усреднится. Если бы средства обхода блокировок использовались массово, на графиках это было бы очень хорошо видно (см. кейс Монреаля).
Я верю в технические проблемы, но не верю в злой умысел
https://habr.com/post/406449/ — Sci-Hub прекратил работу на территории РФ. Александра Элбакян обиделась
Ещё раз, сервис обслуживает добрую сотню стран и огромное количество сетей научных учреждений. Вы всерьез считаете, что администратор ресурса в состоянии бегать по десяткам тысяч институций и искать, кого бы забанить сегодня вечером? Эта задача даже чисто логистически не решается.
Так или иначе, в рамках этой статьи я не хочу обсуждать политику управления ресурсом. Только статистика, только хардкор!
Поэтому диапазоны хостеров превентивно банят, а если какому-то участнику нужно править Википедию через личный прокси-сервер, то такому участнику выдают специальное исключение (и для этого должна быть объективная причина, например — доступ к Википедии заблокирован в стране проживания участника, а не просто «я параноик и хочу через прокси»).
Насчёт прокси — в рувики, например, к прокси относятся вообще негативно. Если у вас, допустим, дома весь трафик завёрнут в ваш собственный приватный VPN, то вам сперва предложат настроить маршрутизацию таким образом, чтобы править Википедию в обход VPN.
Что меня удивило — это что они не могут добавить в белый список конкретный IP, если он входит в заблокированный диапазон. Но это уже оффтоп.
Я не уверен, что можно добавить, скажем, в ру-вики исключение для адреса, заблокированного глобально. Если это интересует, лучше спросить у инженеров или на техническом форуме в ру-вики.
Впрочем, пока в России википедию не заблокировали, лень разбираться; проще VPN отключать.
Спасибо за интересный угол зрения на мир! :)
Некоторые мысли:
Вечерний пик в Китае — детей уложили же! :) Штрафы на второго ребёнка относительно недавно отменили, да и в общем — у активных техников/инженеров/программистов как раз и дети соответствующего возраста есть. :)
Вечерние спады жары — что любопытно, очень актуально как минимум на примере юга Германии. Последние несколько лет климат меняется, становится сильно и дольше жарче при достаточно высокой влажности — а кондиционеров в частных жилищах почти ни у кого нет, народ на улицах до позднего вечера часто тусит. Ну, а с телефона/планшета не очень удобно научные статьи тягать.
В Индии по ощущениям последние несколько лет бум embedded — в том числе и всяческого околоавтомобильного — а это куча электрики и электроники.
По миру — сопряжение центров аутсорса (Индия и кто ещё?) со временем заказчика.
- Тунис хоть и мусульманский, но очень светский, так что там могут и фрилансеры, да и просто инженеры быть. В моей профжизни в Германии среди не так уж большого количества арабоязычных ребят процент тунисцев, отучившихся в Германии (вплоть до докторской) необычайно высок — это может быть интересный факт. Да, а еще у них цветная революция была и уровень жизни просел — может, эмигранты, например, через VPN через родные адреса качают? :)
2) Если сопряжёте данные скачиваний с погодой за окном, поделитесь результатами! Я, боюсь, не осилю ещё на месяц уйти в исследование, у меня диссер недописан. :)
4) Ага, это было бы очень интересно отловить. Правда, может оказаться, что в эти моменты работники сидят в скайпе, а статьи читают совсем в другое время.
5) Мне кажется, VPN-ом пользуются немногие люди (и немногие учёные, в частности). Если можно с родного компа качать, то люди не будут заморачиваться тем, чтобы качать через родные адреса.
Что меня действительно удивляет — это полное пренебрежение сайхабом в КНДР. Иран, вынужденный жить под санкциями, нашёл способ читать научные статьи. А КНДР (хотя народу там ого-го) почти совсем не качает: всего 3773 закачки за год.
Вы смеетесь, а я такие тексты наблюдал написанными рукой, покороче конечно.
Ваш Кэп.
Мы же говорим не про всех китайцев, а про учёных. Работать в современной науке, не зная английского фактически невозможно.
1) в Ираке у ученых практически нет интернета на работе, они все ищут статьи из дома. В Иране — наоборот — интернет у многих только на работе.
2) «ночная жизнь» в рамадан: дейсвтительно, у них два приема пищи. Один — сразу после захода солнца около 8 часов вечера, и второй — в 3-4 часа ночи. Мы можем видеть эту картинку по перераспределению рабочего времени в Июне. Между приемами пищи многие садятся за работу.
3) Пик в Ноябре в Ираке — это не дедлайны по грантам (там вообще нет никаких грантов). Это время, когда дома можно наконец-то нормально поработать + конец года играет свою роль. Температура за окном нормальная (не требуется включать обогреватеь или кондиционер), это означает что не будет перебоев с электричеством. Поэтому все пытаются в это время сделать как можно больше. Можно заметить пик-антагонист в марте, когда устанавливается похожая погода.
Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub