Умирает ли RuTracker? Анализируем раздачи

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?


Понимаете о чем я?


Дисклеймер

Я не поддерживаю пиратство в интернете и против него. Прибегаю к использованию торрентов только в случае скачивания open source продуктов.


Выбор данной темы вызван исключительно интересом к аналитике и big data.


Стэк – R, Clickhouse, Dataiku


Любая аналитика проходит несколько основных этапов: извлечение данных, их подготовка и изучение данных (визуализация). Для каждого этапа — свой инструмент. Потому сегодняшний стэк:


  1. R. Да, непопулярный и уступает Python. Но до того же чистый и приятный со своим dplyr и ggplot2. Он рожден для аналитики и не пользоваться этим – преступление.
  2. Clickhouse. Колоночная аналитическая СУБД. Наверняка слышали: “clickhouse не тормозит” или “скорость на грани фантастики”. Народ не врет, и мы в этом убедимся. В ответе за моментальность.
  3. Dataiku. Платформа для обработки, визуализации и прогнозного анализа бизнес-данных.

Ревью: Dataiku работает на линуксе и маке. Доступна бесплатная версия с ограничением пользователей до 3 человек. Документация тут.


Удивительно, но на русскоязычных ресурсах и даже на Хабре до сих пор нет ажиотажа или хайпа, если хотите, на тему неотразимости данной платформы. Возьмусь исправить сие недоразумение и прошу поздравить dataiku с почином.


Big Data – big problems


На руках сжатый xml–файл весом 5 Гб. Внутри – база всех раздач сайта rutracker.org, с самого начала его существования (2005 г.) и до ноября 2019 г. А это 15 лет!


Загрузить такой объем в R Studio – ха! Не вариант. Мы люди простые, ресурсы ограничены.


Значит нужна БД, дабы подключаться и делать запросы через R. Поскольку имеем дело с Big Data, выбираем Clickhouse и … не так быстро, у нас все еще xml–файл. Надо распарсить. И опять упираемся в ресурсы.


Тут на сцену выходит наш сегодняшний дебютант. Импортировать и подготовить такой объем в Dataiku DSS не проблема. Но у нас будет ограничение на отображаемый семпл – 10 000 строк. Просмотреть аналитику также можно только в рамках семпла. Но для парсинга нам достаточно, вполне. Лимит на семпл можно и поднять, документация для корректной работы советует не больше 200 000 строк.


Создаем проект, импортируем дату. Пару минут и сырые данные готовы к предобработке.


image


Получили данные разных форматов. Самые интересные: колонка content — с описанием каждого торрента в разметке форумного движка и несколько колонок в формате массива json.


Удаляем пока колонку content, для сквозного анализа она будет нам в тягость. Но к ней мы еще вернемся – там есть где закопаться.


Создаем recipe — правила предобработки. Из соответствующих колонок достаем информацию о торренте, загружаемом файле и форуме к которому он относится. Благо датайку позволяет нам парсить json массивы.


image


Форматируем дату регистрации торрента. Отмечу, ни строчки кода еще не написано, и это огромный + для dataiku.


Запускаем наш recipe, ждем полчаса — на выходе все красиво.


image


Забираем csv с чистой датой и импортируем в Clickhouse.


Простота и фантастическая скорость


Давайте протестируем Clickhouse и охватим наконец все 15 лет существования rutracker-a.


Сколько же торрентов в нашей базе?


SELECT ROUND(uniq(torrent_id) / 1000000, 2) AS Count_M
FROM rutracker

┌─Count_M─┐
│    1.46 │
└─────────┘
1 rows in set. Elapsed: 0.247 sec. Processed 25.51 million rows, 204.06 MB (103.47 million rows/s., 827.77 MB/s.)

Итого 1.5 млн торрентов и 25 млн строк. За 0.3 с! Попробуем запрос посложнее и понаблюдаем за скоростью.


Посмотрим, к примеру, сколько книжек нам доступно для скачивания.


SELECT COUNT(*) AS Count
FROM rutracker
WHERE (file_ext = 'epub') OR (file_ext = 'fb2') OR (file_ext = 'mobi')

┌──Count─┐
│ 333654 │
└────────┘
1 rows in set. Elapsed: 0.435 sec. Processed 25.51 million rows, 308.79 MB (58.64 million rows/s., 709.86 MB/s.)

300 тыс — читать не перечитать! Но согласитесь, там есть дубли. Раз уж на то пошло узнаем их суммарный вес.


SELECT ROUND(SUM(file_size) / 1000000000, 2) AS Total_size_GB
FROM rutracker
WHERE (file_ext = 'epub') OR (file_ext = 'fb2') OR (file_ext = 'mobi')

┌─Total_size_GB─┐
│        625.75 │
└───────────────┘
1 rows in set. Elapsed: 0.296 sec. Processed 25.51 million rows, 344.32 MB (86.24 million rows/s., 1.16 GB/s.)

Итог – мы охватили 25 млн строк менее чем за пол секунды. Приятно, не правда ли?


Добыча данных в R


Продолжим добывать данные уже в R. Подключим библиотеки, в часности DBI (для работы с БД). И установим соединение с Clickhouse.


R код
library(DBI) # Для работы с БД, в.т.ч. Clickhouse
library(dplyr) # Для пайпов %>%

# Визуализация
library(ggplot2) 
library(ggrepel)
library(cowplot)
library(scales)
library(ggrepel)

# Подключимся к localhost:9000 
connection <- dbConnect(RClickhouse::clickhouse(), host="localhost", port = 9000)

Все, можно делать запросы и сразу же визуализировать. А благодаря dplyr можем легко обойтись и без переменных.


Так умирают ли торренты? Давайте посмотрим статистику их количества на rutracker.org по годам.


R код
years_stat <- dbGetQuery(connection,
                       "SELECT
                          round(COUNT(*)/1000000, 2) AS Files,
                          round(uniq(torrent_id)/1000, 2) AS Torrents,
                          toYear(torrent_registred_at) AS Year
                        FROM rutracker
                        GROUP BY Year")

ggplot(years_stat, aes(as.factor(Year), as.double(Files))) +
  geom_bar(stat = 'identity', fill = "darkblue", alpha = 0.8)+

  theme_minimal() +
  labs(title = "Сколько файлов было загружено на RuTracker", subtitle = "за  2005 - 2019\n")+

  theme(axis.text.x = element_text(angle=90, vjust = 0.5),
        axis.text.y = element_text(),

        axis.title.y = element_blank(),
        axis.title.x = element_blank(),

        panel.grid.major.x = element_blank(),
        panel.grid.major.y = element_line(size = 0.9),
        panel.grid.minor.y = element_line(size = 0.4),

        plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
        plot.caption = element_text(vjust = 3, hjust = 0, family = "sans", size = 12, color = "#101010", face = "bold"),
        plot.margin = unit(c(1,0.5,1,0.5), "cm"))+

    scale_y_continuous(labels = number_format(accuracy = 1, suffix = " млн"))

ggplot(years_stat, aes(as.factor(Year), as.integer(Torrents))) +
  geom_bar(stat = 'identity', fill = "#008b8b", alpha = 0.8)+

   theme_minimal() +
   labs(title = "Сколько торрентов было добавлено на RuTracker", subtitle = "за  2005 - 2019\n", caption = "*Количество уникальных торрентов")+

   theme(axis.text.x = element_text(angle=90, vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,0.5,1,0.5), "cm")) +

     scale_y_continuous(labels = number_format(accuracy = 1, suffix = " тыс"))

imageimage


На каждом из графиков заметно просел 2016 год. Важно отметить, что в январе 2016 официально вступило в силу решение Роскомнадзора о блокировке rutracker.org для российских пользователей. Тогда в СМИ сообщалось о незначительном снижении посещаемости сайта, что коррелирует с нашей картиной.


Количество файлов последние года очевидно возрастает, при том что количество торрентов остается практически на одном уровне. Это значит, что на один торрент приходится все больше возможных расширений.


Пролить свет на данную картину нам поможет статистика ТОПа расширений за весь период.


R код
extention_stat <- dbGetQuery(connection,
       "SELECT toYear(torrent_registred_at) AS Year,
              COUNT(tracker_id)/1000 AS Count,
              ROUND(SUM(file_size)/1000000000000, 2) AS Total_Size_TB,
              file_ext
         FROM rutracker
         GROUP BY Year, file_ext
         ORDER BY Year, Count")

# Функция получения ТОПа расширений для каждого года
TopExt <- function(x, n) {
  res_tab <- NULL
  #Упустим 2005 и 2006, т.к. там мало торрентов
  for (i in (3:15)) {
    res_tab <-bind_rows(list(res_tab,
          extention_stat %>% filter(Year == x[i]) %>%
          arrange(desc(Count), desc(Total_Size_TB)) %>%
          head(n)
      ))
  }
  return(res_tab)
}

years_list <- unique(extention_stat$Year)
ext_data <- TopExt(years_list, 5)

ggplot(ext_data, aes(as.factor(Year), as.integer(Count),  fill = file_ext)) +
  geom_bar(stat = "identity",position="dodge2", alpha =0.8, width = 1)+

  theme_minimal() +
  labs(title = "Динамика ТОПа расширений файлов на RuTracker", 
          subtitle = "за  2005 - 2019\n", 
          caption = "*взято ТОП-5 за каждый год", fill = "") +

   theme(axis.text.x = element_text(angle=90, vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          legend.title = element_text(vjust = 1, hjust = -1, family = "sans", size = 9, color = "#101010", face = "plain"),
          legend.position = "top",

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -4, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,0.5,1,0.5), "cm")) +

     scale_y_continuous(labels = number_format(accuracy = 0.5, scale = (1/1000), suffix = " млн"))+guides(fill=guide_legend(nrow=1))

image


И вот ответ. Очень существенно возросло количество картинок в торрентах. Они и влияют на рост количества файлов.


Давайте погуляем по разделам rutracker-a. Узнаем их суммарный вес и количество торрентов внутри.


R код
chapter_stat <- dbGetQuery(connection, 
      "SELECT 
             substring(forum_name, 1, position(forum_name, ' -')) Chapter, 
             uniq(torrent_id) AS Count, 
             ROUND(median(file_size)/1000000, 2) AS Median_Size_MB, 
             ROUND(max(file_size)/1000000000) AS Max_Size_GB, 
             ROUND(SUM(file_size)/1000000000000) AS Total_Size_TB 
        FROM rutracker WHERE Chapter NOT LIKE('\"%') 
        GROUP BY Chapter 
        ORDER BY Count DESC")

  chapter_stat$Count <- as.integer(chapter_stat$Count)

# Функция для агрегации по разделам
AggChapter2 <- function(Chapter){
  var_ch <- str(Chapter)
  res = NULL
  for(i in (1:22)){
    select_str <-paste0(
    "SELECT 
           toYear(torrent_registred_at) AS Year, 
           substring(forum_name, 1, position(forum_name, ' -')) Chapter, 
           uniq(torrent_id)/1000 AS Count, 
           ROUND(median(file_size)/1000000, 2) AS Median_Size_MB, 
           ROUND(max(file_size)/1000000000,2) AS Max_Size_GB, 
           ROUND(SUM(file_size)/1000000000000,2) AS Total_Size_TB 
      FROM rutracker 
      WHERE Chapter LIKE('", Chapter[i], "%') 
      GROUP BY Year, Chapter 
      ORDER BY Year")
    res <-bind_rows(list(res, dbGetQuery(connection, select_str)))
                  }
  return(res)
}

chapters_data <- AggChapter2(chapter_stat$Chapter)

chapters_data$Chapter <- as.factor(chapters_data$Chapter)
chapters_data$Count <- as.numeric(chapters_data$Count)

chapters_data %>% group_by(Chapter)%>% 

ggplot(mapping = aes(x = reorder(Chapter, Total_Size_TB), y = Total_Size_TB))+
geom_bar(stat = "identity", fill="darkblue", alpha =0.8)+

  theme(panel.grid.major.x = element_line(colour="grey60", linetype="dashed"))+
  xlab('Раздел\n') + theme_minimal() +

  labs(title = "Cуммарный вес разделов RuTracker-а", 
          subtitle = "на ноябрь 2019\n")+
  theme(axis.text.x = element_text(),
       axis.text.y = element_text(family = "sans", size = 9, color = "#101010", hjust = 1, vjust = 0.5),

       axis.title.y = element_text(vjust = 2.5, hjust = 0, family = "sans", size = 9, color = "grey40", face = "plain"),
       axis.title.x = element_blank(),

       axis.line.x  = element_line(color = "grey60", size = 0.1, linetype = "solid"),

       panel.grid.major.y = element_blank(),
       panel.grid.major.x = element_line(size = 0.7, linetype = "solid"),
       panel.grid.minor.x = element_line(size = 0.4, linetype = "solid"),

       plot.title = element_text(vjust = 3, hjust = 1, family = "sans", size = 16, color = "#101010", face = "bold"),
       plot.subtitle  = element_text(vjust = 2, hjust = 1, family = "sans", size = 12, color = "#101010", face = "plain"),
       plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),

       plot.margin = unit(c(1,0.5,1,0.5), "cm"))+
   scale_y_continuous(labels = number_format(accuracy = 1, suffix = " ТБ"))+
   coord_flip()

image


Топ увесистых разделов вполне понятен и логичен. А вот антилидеры — Мобильные устройства и Иностранные языки — вероятно на торрентах умирают. Взглянув на распределение количества торрентов, мы в этом убедимся. Тут же, рядом расположился и раздел с Apple.


R код
chapters_data %>% group_by(Chapter)%>% 

ggplot(mapping = aes(x = reorder(Chapter, Count), y = Count))+
   geom_bar(stat = "identity", fill="#008b8b", alpha =0.8)+

   theme(panel.grid.major.x = element_line(colour="grey60", linetype="dashed"))+
   xlab('Раздел') + theme_minimal() +
   labs(title = "Распределение торрентов по разделам RuTracker-а", 
           subtitle = "на ноябрь 2019\n")+
   theme(axis.text.x = element_text(),
       axis.text.y = element_text(family = "sans", size = 9, color = "#101010", hjust = 1, vjust = 0.5),

       axis.title.y = element_text(vjust = 3.5, hjust = 0, family = "sans", size = 9, color = "grey40", face = "plain"),
       axis.title.x = element_blank(),

       axis.line.x  = element_line(color = "grey60", size = 0.1, linetype = "solid"),

       panel.grid.major.y = element_blank(),
       panel.grid.major.x = element_line(size = 0.7, linetype = "solid"),
       panel.grid.minor.x = element_line(size = 0.4, linetype = "solid"),

       plot.title = element_text(vjust = 3, hjust = 1, family = "sans", size = 16, color = "#101010", face = "bold"),
       plot.subtitle  = element_text(vjust = 2, hjust = 1, family = "sans", size = 12, color = "#101010", face = "plain"),
       plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),

       plot.margin = unit(c(1,0.5,1,0.5), "cm"))+
    scale_y_continuous(limits = c(0, 300), labels = number_format(accuracy = 1, suffix = " тыс"))+
    coord_flip()

image


Уяснив ранее, что торренты с годами не умирают, у вас вероятно возник вопрос: а как же тогда время влияет на понятие торрент-трекера.
Тут мы можем использовать агрегацию по разделам и просмотреть тенденции за ~15 лет.


R код
library("RColorBrewer")
getPalette = colorRampPalette(brewer.pal(19, "Spectral"))

chapters_data %>% #filter(Chapter %in% chapter_stat$Chapter[c(4,6,7,9:20)])%>%
  filter(!Chapter %in% chapter_stat$Chapter[c(16, 21, 22)])%>%
  filter(Year>=2007)%>%

ggplot(mapping = aes(x = Year, y = Count, fill = as.factor(Chapter)))+
   geom_area(alpha =0.8, position = "fill")+

   theme_minimal() +
   labs(title = "Как изменяется характер торрент-трекера", 
           subtitle = "за ~15 лет", fill = "Раздел")+
   theme(axis.text.x = element_text(vjust = 0.5),
          axis.text.y = element_blank(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.x = element_blank(),
          panel.grid.major.y = element_line(size = 0.9),
          panel.grid.minor.y = element_line(size = 0.4),

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,1,1,1), "cm")) +

     scale_x_continuous(breaks = c(2008, 2010, 2012, 2014, 2016, 2018),expand=c(0,0)) +
     scale_fill_manual(values = getPalette(19))

image


Кино-пиратство на торрентах умирает — это факт. С ним за руку — Apple и мобильные устройства, которых почти и не видно.
При этом в последнее время явно возрастает количество игр и сериалов. Вероятно эта тенденция будет сохраняться.


Отойдя немного в сторону и взглянув на данные под новым углом, можно обнаружить еще пару скелетов Rutracker-a. Посмотрим-ка на тепловую карту ежедневного появления торрентов на rutracker.org.


R код
unique_torr_per_day <- dbGetQuery(connection, 
          "SELECT toDate(torrent_registred_at) AS date, 
                          uniq(torrent_id) AS count
           FROM rutracker 
           GROUP BY date
           ORDER BY date")

unique_torr_per_day %>% 
ggplot(aes(format(date, "%Y"), format(date, "%j"), fill = as.numeric(count)))+
  geom_tile() +

  theme_minimal() +
  labs(title = "Тепловая карта пополняемости RuTracker-a", 
          subtitle = "за ~15 лет\n\n", 
          fill = "К-во уникальных торрентов \n")+
      theme(axis.text.x = element_text(vjust = 0.5),
          axis.text.y = element_text(),

          axis.title.y = element_blank(),
          axis.title.x = element_blank(),

          panel.grid.major.y = element_blank(),
          panel.grid.major.x = element_line(size = 0.9),
          panel.grid.minor.x = element_line(size = 0.4),

          legend.title = element_text(vjust = 0.7, hjust = -1, family = "sans", size = 10, color = "#101010", face = "plain"),
          legend.position = c(0.88, 1.30),
          legend.direction = "horizontal",

          plot.title = element_text(vjust = 3, hjust = 0, family = "sans", size = 16, color = "#101010", face = "bold"),
          plot.caption = element_text(vjust = -3, hjust = 1, family = "sans", size = 9, color = "grey60", face = "plain"),
          plot.margin = unit(c(1,1,1,1), "cm"))+ coord_flip(clip = "off") +
          scale_y_discrete(breaks = c(format(as.Date("2007-01-15"), "%j"), 
                                      format(as.Date("2007-02-15"), "%j"), 
                                      format(as.Date("2007-03-15"), "%j"), 
                                      format(as.Date("2007-04-15"), "%j"), 
                                      format(as.Date("2007-05-15"), "%j"), 
                                      format(as.Date("2007-06-15"), "%j"), 
                                      format(as.Date("2007-07-15"), "%j"),
                                      format(as.Date("2007-08-15"), "%j"),
                                      format(as.Date("2007-09-15"), "%j"),
                                      format(as.Date("2007-10-15"), "%j"),
                                      format(as.Date("2007-11-15"), "%j"),
                                      format(as.Date("2007-12-15"), "%j")), 
          labels = c("янв", "фев", "мар", "апр", "май", "июн","июл", "авг", "сен", "окт","ноя","дек"), position = 'right') +
          scale_fill_gradientn(colours = c("#155220", "#c6e48b"))  + 

       annotate(geom = "curve", x = 16.5, y = 119, xend = 13, yend = 135, 
                   curvature = .3, color = "grey15", arrow = arrow(length = unit(2, "mm"))) +
       annotate(geom = "text", x = 16, y = 45, 
label = "Релиз приложения для борьбы с «замедлителем торрентов» Роскомнадзора\n", 
hjust = "left", vjust = -0.75, color = "grey25") + 

       guides(x.sec = guide_axis_label_trans(~.x)) + 
       annotate("rect", xmin = 11.5, xmax = 12.5, ymin = 1, ymax = 366,
                       alpha = .0, colour = "white", size = 0.1) + 
       geom_segment(aes(x = 11.5, y = 25, xend = 12.5, yend = 25, colour = "segment"), 
                                  show.legend = FALSE)

image


Сразу бросается в глаза всплеск активности в 2017 году. (ред. В мае того года на GitHub было выложено приложение для борьбы с попытками российских властей замедлять скорость скачивания файлов). А вот блокировка сайта в 2016 году отнюдь не очевидна, т.к существенно не повлияла на активность добавления торрентов.


Закопаться можно и хочется в любую из найденных выше закономерностей. Добывать данные можно до бесконечности. А писать и читать статью – нет.
Давайте еще немного поиграем, вернем весьма информативную колонку content и посмотрим, что нам расскажут данные, к примеру, об аниме за последние 15 лет.


Её величество Dataiku


Создаем новую ветку, оставляем все видео файлы касательно аниме и парсим колонку с описанием торрентов: вытягиваем режиссера, страну, жанр, продолжительность и год выхода анимешки.


image


Отфильтруем картинки, субтитры и инфо-файлы. Также поднимем лимит отображаемого семпла. Пару кликов – все красиво.


image


Предлагаю взглянуть на года выхода наших анимешек и в тоже время потрогать удобнейшую функцию датайку – внутриколоночную аналитику.


image


Резюмирую: на rutracker.org доступно для скачивания аниме, снятое за последние пол века Если быть точнее, уникальных годов выпуска — 60. При этом наиболее продуктивными оказались 2009 — 2014 года.


Платформа также позволяет моментально визуализировать данные. И при этом, напомню, никакого кода. Просто выбираем нужные фильтры.


К примеру, агрегируем Японию и возьмем топ самых продуктивных режиссеров. Получаем тепловую карту их активности простым перетаскиванием переменных.


image


К чему я веду, dataiku — отличный инструмент для аналитика любого уровня. Импорт, подготовка, анализ и визуализация данных реализуется как кодом (R, Python), так и кликаньем мышки. Но это уже совсем другая история и отличная тема для следующей статьи.


А пока, возвращаясь к RuTracker, констатируем: торренты не умирают, даже в условиях блокировок. Сама же база раздач невероятно емкая и может ответить еще не на один вопрос. Могу пообещать сделать больше аналитики, при проявленном интересе. Предлагайте свои гипотезы в комментариях.


UPD: В ответ на один из комментариев, опишу детальнее этап формирования recipe в dataiku.


Условно, приведенный в данной статье recipe, можно разделить на две части: подготовка данных для анализа в R и подготовка данных об аниме для анализа непосредственно на платформе.


Этап подготовки к анализу в R

Состоит из блоков парсинга json-колонок и даты.


image


Блоки парсинга json-колонок

Блоки однотипны. Задаем колонку из которой нужно достать переменную и ее название.


image


Блок парсинга даты

Парсим и форматируем timestamp указав удобный формат.


image


Этап подготовки данных об аниме

Этап в основном состоит из фильтров, нацеленных на отбор только видео файлов, связанных с аниме. Также он содержит блок парсинга колонки content — Descr_Data.


image


Блок парсинга колонки content

С помощью regexp достаем данные о режиссере, стране, жанре, продолжительности и дате выхода аниме. Отмечу, что синтаксис regexp в dataiku немного специфичный и к нему нужно приловчиться.


image



AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 293

    +3
    Было бы интересно узнать как карантин сказался на активности )
      +6
      Да, с карантином работы у аналитиков прибавилось )
      Хорошая идея, ждем обновления базы.
        0
        Для полноценной картины нужна информация по обеим базам
          0
          «Кино-пиратство на торрентах умирает — это факт»
          Потому что все перебрались на кинозал, после того как rutracker заблокировал hevc на трекере. Сейчас разрешили, так что скоро все обратно хлынут.
            +1
            А чем мотивировали запрет (я просто «в анабиозе» был)?
              0
              Железо не тянет. Плюс у них давно были рекомендуемые параметры, так их просто банально не обновляли под современные реалии.
                0
                А там ведь еще есть dolby vision с двумя, ха, видио потоками. Это тоже разрешили. А есть и однослойный. А есть с неправильными цветами IPTPQc2. Который только с помощью проприетарного приложения воспроизводится. И т.д.
              0
              а почему блокировали hevc?
                0
                Думали не станет next gen форматом, ошиблись прям очень серьёзно.
                0
                Я не очень понимаю, откуда взялся такой вывод. Информация идет в процентах.
                В последние годы на торрентах ЗНАЧИТЕЛЬНО вырос процент сериалов, причем одновременно доступно несколько вариантов перевода, разное качество.
                Также значительно вырос процент аудиокниг.

                Я бы хотел, чтобы автор пересчитал не в процентном, а в абсолютном количестве (кол-во, общий объем в тб) и положил графики рядом, а уже потом делал выводы.
                  +1
                  Ой ли? Я вот сейчас потихоньку пересматриваю Гарри-Поттера на английском в формате полного по длительности режиссёрского издания, как такое посмотреть на Кинопоиске — никак. Много смотрю аниме, большинство из которого либо отсутствует как класс (даже страницы нет и я уже устал им каждый раз писать про аниме вышедшее 2-3 года назад, Яндекс, ау!), либо присутствует с бесчувственной русской озвучкой, а мне нужны сабы и оригинальная дорожка с реальными эмоциями, опять пролетели. Смешариков вот тех — да, на Кинопоиске сейчас смотрю, только в этом году на них наткнулся. Ещё у меня часто случается формат английская дорожка + английские сабы + русские сабы (чтобы в словарь не лазить за терминами) такое в онлайн сервисах вообще невозможно. А ещё в принципе невозможно оформление: шрифты, надписи, подписи, всё это в раздачах на торрентах есть, например в напряжённых диалогах может быть цветовая маркировка говорящих, а онлайн такого вообще нет от слова совсем. И да, проблема ещё в том, что все эти переводы и оформление сделаны часто незаконно с точки зрения копирастов, что лишь лишний доказывает что эту застарелую помойку надо реформировать. Пока не будет полноценной реформы авторского права торренты и другие системы раздачи контента никуда не денутся и это не только кино касается.
                    0
                    Боюсь, субтитры с оригинальной дорожкой нужны меньшинству. Раньше да, пиратство было распространено среди многих групп потребителей, и развитие обмена происходило в том числе за счёт тех, кто качал обычные «лицензионные» дубляжи. Сейчас же их меньше, сложнее и файлообмену. Плюс у торрент протокола есть пара фатальных недостатков, которые уже никто не исправит.
                      0
                      Основной недостаток p2p протокола это сиды, нет сидов раздачу уже не скачать никак, пиши please seed, не пиши, ничто не поможет если нет сида.

                      А на рутрекере раздачи мрут регулярно ибо нет рейтинга на трекере, зря убрали рейтинг, рейтинг дает стимул сидировать раздачи, нет рейтинга=нет стимула сидировать. Надеюсь спорить не будете.
                        +1
                        Основной недостаток p2p протокола это сиды, нет сидов раздачу уже не скачать никак

                        А сидов нету потому что они размазываются по 100500 раздачам с разными хешами, но одинаковыми (некоторыми или даже всеми) файлами. Потому что хеш торрента зависит от порядка файлов, а этот порядок произволен. Потому что хеш торрента зависит от размера части, а он произволен. Потому что хеш зависит от набора файлов, а он произволен.
                        Вот если бы хешировался каждый файл отдельно, с чётко зависимым от размера файла размером части, и анонсировался по DHT по отдельности, а торрент файл был бы просто архивом таких мини-торрентов с указанием имён файлов и их местоположения, то обмен происходил бы намного эффективнее.
                        Плюс глупая настройка приватного торрент файла, созданная в угоду приватным трекерам, которые боятся утечки каждого байта на сторону. В итоге файл может быть и есть, но доступен только илитарным пользователям таких трекеров. А регистрироваться на них я считаю ниже своего достоинства.
                        Кстати, торрент с последних версий поддерживает веб-сида, который по сути просто сервер с нужным файлом, но всем как всегда пофиг.
                        Надеюсь спорить не будете.

                        Буду. Был рейтинг, мне на него было плевать, лишь бы не было ограничений. Сейчас же я на чистом альтруизме раздаю 60-100 ГБ в день, и на одном только рутрекере имею 120+ ТБ розданного.
                        А вот на ноунейме рейтинг типа есть (хотя по сути его нету, ну да ладно). И знаете что? При 1000 раздач на рутрекере и ~60 на ноунейме на втором у меня примерно одинаковое число раздач, где я последний сид. Плюс на одинаковых раздачах сидов на рутрекере всегда больше.
                          0
                          Плюс глупая настройка приватного торрент файла, созданная в угоду приватным трекерам, которые боятся утечки каждого байта на сторону. В итоге файл может быть и есть, но доступен только илитарным пользователям таких трекеров. А регистрироваться на них я считаю ниже своего достоинства


                          А вот это зря, я зареген на многих западных приватных трекерах, там есть то что в рунете никогда не будет вообще, куча эксклюзивных материалов. Например на hd-torrents есть куча редких блюрей ремуксов и дисков фильмов и сериалов а на hd-spain есть множество редких релизов с испанской дорожкой а также бонусных дисков, которых в рунете никогда не будет + на приватных трекерах рейтинг а это значит что есть стимул сидировать скачанное как можно дольше, посему там раздачи даже залитые в 2008 году сидируются + скорости высокие ибо сидируют с сидбоксов а не с хилого adsl как на рутрекере. Надеюсь когда нибудь вы по достоинству оцените приватные трекеры.
                            0
                            Надеюсь когда нибудь вы по достоинству оцените приватные трекеры.

                            Надеюсь на развитие свободного файлообмена.
                              0
                              а его не будет свободного развития то если нет рейтинга, нет рейтинга= нет стимула сидировать то. Верните рейтинг на рутрекер и будут вам сутками напролет сидировать раздачи ибо появится цель стоять на раздаче как можно дольше а без рейтинга годами сидировать так себе идея.

                              Вот вы за так будете работать? Естетсвенно нет, в p2p мире рейтинг своего рода аналог денег что дает стимул стоять на раздачах.
                                0
                                а его не будет свободного развития то если нет рейтинга, нет рейтинга= нет стимула сидировать то.

                                А есть рейтинг, то есть борьба с его накруткой. А это автоматом приватные торренты. А это автоматом несвободный файлообмен.
                                Впрочем ХЗ, как по мне рутрекер сейчас нормально работает. Не сталкивался с проблемами скачать оттуда. Ну разве что один артхаус, которого вообще походу нигде во вменяемом качестве нет, впрочем я уже забыть успел, как он назывался.
                                Вот вы за так будете работать?

                                А сейчас я почему на рутрекере раздаю? А почему это делают хранители? Ради группы? Глупость. Человек либо может позволить себе альтруизм и раздаёт, либо нет. И от рейтинга это мало зависит.
                                Естетсвенно нет, в p2p мире рейтинг своего рода аналог денег что дает стимул стоять на раздачах.

                                То есть достаточно зайти в статистику торрент клиента. Можно было бы вывести соотношение «Скачано.Роздано» прямо в интерфейс, если это греет чьё-то самолюбие. И рейтинг этот будет точнее, чем измеренный на трекере.
                                  0
                                  А есть рейтинг, то есть борьба с его накруткой. А это автоматом приватные торренты. А это автоматом несвободный файлообмен.


                                  На приватных трекерах вроде hd-spain, hdbits, hd-torrents за читерство при помощи чит клиента ака ратио мастер бан перманентный прилетает, причем банит не администрация а скрипты, моментальный бан идет перманентный.

                                  + приватных трекеров перед открытыми это эксклюзивные материалы, которых нет на открытых, как я выше сказал кучу бонусных дисков, редких фильмов, сериалов а так же музыки во флаке со сканами обложек а так же полно музла в bluray audio чего на открытых трекерах нету, за этим люди и идут на приватные трекеры ибо там есть то чего нет на том же рутрекере, например с одного приват трекера скачал сканы всей энциклопедии Star Trek Fact Files чего на открытых трекерах вообще нет и не будет никогда. Так что приватные трекеры по наполнению намного больше чем открытые + там можно реквест создать и в качестве награды дать апплоад и зальют даже супер редкое если в качестве награды будет 100 терабайт например а такой апплоад там получить не сложно, достаточно в течении месяца залить порядка 20-30 раздач сериалов или фильмов в блюрей ремуксах или в полных образах.

                                  На рутрекере что бы такой апплоад получить надо сидировать скаченное в течении 10 лет. Тут опять приватные трекеры выигрывают то.

                                  Но дело ваше, нравится вам свободный файлообмен го на всех открытых трекерах сидировать, даже бухта к вашим услугам. Мне же нравятся приватные ибо там есть стимул стоять на раздачах так как есть рейтинг.
                                    0
                                    На приватных трекерах вроде hd-spain, hdbits, hd-torrents за читерство при помощи чит клиента ака ратио мастер бан

                                    Именно. И это без приватного торрента невозможно.
                                    + приватных трекеров перед открытыми это эксклюзивные материалы, которых нет на открытых, как я выше сказал кучу бонусных дисков, редких фильмов, сериалов а так же музыки во флаке со сканами обложек

                                    ХЗ, мне рутрекера хватает.
                                    а такой апплоад там получить не сложно, достаточно в течении месяца залить порядка 20-30 раздач сериалов или фильмов в блюрей ремуксах

                                    Эм, откуда? Откуда я это всё возьму? И кто будет качать, если все дрожат над рейтингом?
                                    На рутрекере что бы такой апплоад получить надо сидировать скаченное в течении 10 лет.

                                    В смысле? У меня тупо ограничивается старым роутером и каналом. А так хранители раздают с нескольких клиентов, ибо один тупо не справляется с объёмом трафика.
                                    Но дело ваше, нравится вам свободный файлообмен го на всех открытых трекерах сидировать, даже бухта к вашим услугам. Мне же нравятся приватные ибо там есть стимул стоять на раздачах так как есть рейтинг.

                                    Посмотрим кто выживет. Пока рутрекер держится (ага, все 15 оказывается лет), а сколько приватных закрылось за это время?
                                    сканы всей энциклопедии Star Trek Fact Files чего на открытых трекерах вообще нет и не будет никогда

                                    Скиньте мне — будет, я залью.
                                      0
                                      Эм, откуда? Откуда я это всё возьму? И кто будет качать, если все дрожат над рейтингом?


                                      Я лично не дрожу над рейтингом на приват трекерах чего нет на трекере просто переливаю из usenet, а там уже люди качают то, при апплоаде в несколько сотен терабайт а у многих юзеров есть и петабайтные апплоады ибо сидируют с гигабитных сидбоксов дрожать над рейтингом смысла нет.

                                      Я на одном трекере спокойно путем создания новых раздач за месяц в легкую 50 терабайт набил, на рутрекере такое не реально сделать то, особенно если создавать раздачи не мейнстримовых тайтлов.

                                      ХЗ, мне рутрекера хватает.


                                      Если не ищите чего то редкого и эксклюзивного то да рутрекера выше крыши но если ищите что то спецефическое и редкое то тут только приватные трекеры и спасают.

                                      Ибо что то редкое не реально найти на рутрекере, особенно это касается аниме в полном Bluray формате или в Remux, на рутрекере лишь есть рипы в жутком качестве в AVI DivX.
                                        0
                                        особенно это касается аниме в полном Bluray формате

                                        Только в таком и качаю, ави забыл вообще чем открывать.
                                  +2
                                  Извините, чтот смешно. Как поднять рейтинг? Скачиваешь, например, экранку нового фильма, за неделю на файле наверно за 100 отношение разданого/скачанного можно набрать. А теперь берём редкий контент: сидишь месяц одним сидом — скачали 3,5 пользователя, рейтинг так и прёт.
                                  Никакого стимула для сохранения малопопулярных раздач, никакой дополнительной поддержки редким сидам таких раздач рейтинг не даёт.
                                    0
                                    Иногда делают костыли под всё это, от множителей к рейтингу при раздаче при малом количестве сидов до таймбонусов за сам факт нахождения на раздаче. Только всё это всё равно работать не будет, рейтинг это просто циферки, не несущие никакой реальной выгоды.
                                      0
                                      Система поиска на рутрекере дурацкая, пишешь в поиске Star Wars episode 5 MKV и ничего не находит, на приватных трекерах типа iptorrents тоже самое вводишь и куча раздач в списке, когда нибудь на рутрекере починят поиск?

                                      И еще не реально выбрать категорию на рутрекере в поиске ибо их нету, вот хочу категорию музла во flac а такой категории нет вообще или хочу ремуксы bluray посмотреть а такой категории опять нету, форумные движки вымирающая вещь. Лучше бы на движок кинозал тв перенесли бы трекер.
                                        0
                                        Хороший съезд с темы ))
                                        MKV

                                        Зачем вам формат контейнера? Тем более в названии, где его никто не указывает. Конечно вы ничего не найдёте.
                                        Вбиваю без этой пометки, и вуаля, релизы на любой вкус, от CD болванки до 65ГБ ремукса.
                                        вот хочу категорию музла во flac а такой категории нет

                                        Потому что это всё lossless, и таких категорий даже слишком много, придётся уточнять или выбирать сразу все. Кстати, по категориям там есть поиск.
                                        ремуксы bluray посмотреть

                                        Забавно смотреть формат видео ))
                                        Вообще, это HD Video, хотя не все HD ремуксы, но все ремуксы HD, так что…
                                        К чему вообще эти претензии?
                                        форумные движки вымирающая вещь.

                                        С 2005 всё никак не вымрет, а только вширь растёт.
                                        Хотя да, я не против разбития релиза на отдельные поля (а не тупо текстом с разметкой, как сейчас) и поиск с фильтрами на основе выбора из выбранных значений.
                            0
                            *нет пиров
                            Если только личи, иногда можно скачать все от разных и стать сидом.
                +3
                до ноября 2019 г

                Вот реально стал активно пользоваться торрентами с марта. Рутракер в меньшей степени. В основном nnm-club. До этого момента дежурно висели раздачи 10-летней давности с небольшим количеством скачек по необходимости в последующие годы.
                Думаю провайдер в шоке с трафика.
                  –1
                  Главное чтобы роутер не был в шоке от трафика. Хотя в современных железо должно тянуть. Но иногда бывает, что обновив роутер можно повысить скорость у большого количества одновременных соединений.
                    0
                    Мой например просто не тянет провайдеровские 100 мегабит, спасибо устаревшему PPTP.
                      0
                      Можно узнать модель вашего роутера?
                        0
                        Старичок Zyxel Keenetic Giga.
                          0
                          Да, у меня был такой, там CPU слабоват. В моём случае роутер упирался в CPU при активной работе с USB-диском.
                            0
                            Протокол не тот, по сетке он может близкое к заявленному гигабиту гонять.
                    0
                    Рутракер в меньшей степени. В основном nnm-club

                    Странно… на ннм вагон рекламы (если кто ткнет носом в фильтьр-правило для ublock, которое ее таки сможет порезать, будет здорово).

                    А еще у них часто выкладывают медиа без оригинальной дороги, и не указывают языки в наименовании. На рутрекере тоже с этим не фонтан, но он гораздо ближе к некой униформности.

                    И сильно раздражает на ннм, когда промахиваюсь мимо «правильного» (маленького) поля поиска, и ввожжу в большое и заметное — результатами такого поиска пользховаться невозможно.

                    Единственное, что удобно делать на ннм — когда хочется чего-то скачать из свежего, но не знаешь, чего — проскроллить первые пару страниц, иногда что-то находится. На рутрекере для этого надо скакать по форумам «новинки», причемс по нескольким сразу (может, упустил из виду, и что-то типа ленты последних релизов есть, но если и да, то ее куда-то глубоко запрятано).
                      0
                      Честно говоря не вижу на nnm рекламы. Но у меня и на компьютере и на телефоне лежит антирекламный hosts. На роутере работает adblock Openwrt. Еще есть PiHole, но только для телевизора и похоже теперь не нагружен с началом использования adblock Openwrt.
                        0
                        стоит AdBlock — никакой рекламы на nnm не показывается
                          +2
                          Странно… на ннм вагон рекламы (если кто ткнет носом в фильтьр-правило для ublock, которое ее таки сможет порезать, будет здорово).

                          nnmclub.to/forum/profile.php?mode=editprofile
                          Внизу
                          Отключить рекламу на сайте: да.
                            0
                            Как раз у них очень слабенькие списки топов, даже просил их сделать отдельную страницу, но не судьба. Идеальные списки топов по категориям и периодам на рутор инфо
                              0
                              На nnm тоже есть раздел новинок, хочешь экраны без рекламы, хочешь с рекламой.
                            +30
                            Пиратство это, конечно, плохо (но не точно!), но если хочется послушать диск, который вышел лет 20 назад тиражом в 300 экземпляров и больше не переиздавался — что делать? Автор переизданием не занимается, по причине чего сам диск — коллекционная редкость.
                              +31
                              Уже не раз бывало, что игры из стима выпиливали как будто никогда там не было.
                              А ещё, например, стим перестал поддерживать XP — в то время, как многие игры только на ней нормально и работают.
                              Так что это не пиратсво, а бэкапы. А то и просто возможность поиграть в честно купленное.
                                +2
                                Со стороны Стима это вообще подлость
                                  +5

                                  Справедливости ради: у купивших игру в стиме остаётся возможность игру заново скачать в стиме. По какой бы причине игра не была удалена — вы свои деньги не потеряли, игра при вас.


                                  Вот с XP конечно досадно, но опять же, справедливости ради: настолько старые игры часто не защищены стимовским DRM. Т.е. их можно скачать на современной ОС, а потом тупо скопировать папку с игрой на старую машину — и всё заработает. Опять таки, "часто" не значит "всегда" и даже "в большинстве случаев", но тем не менее.


                                  "Справедливости ради" номер три, "многие игры из стим, нормальное работающие только на XP" явно в меньшинстве в стиме. Большинство таки нормально работают на современных ОС. Слабое оправдание для ситуации, когда ты хочешь поиграть в конкретную игру, но тем не менее.

                                    +1
                                    их можно скачать на современной ОС, а потом тупо скопировать папку с игрой на старую машину

                                    «можно» в смысле просто технически, или это действительно не нарушает соглашения стима?
                                      +5
                                      Зачастую в Steam'е есть издания старых игр, но в них нет локализации (ну ладно не беда, английский то не такой уж сложный, да и часто в руководствах уже есть русификатор сделанный фанатами), нету оптимизации под современные операционные системы(!), нет поддержки широких экранов, вообще ничего нет. А если в этот же момент зайти на любой трекер и скачать репак от любой более менее вменяемой релиз-группы, то там внезапно все есть и работает из коробки.

                                      Поэтому ко многим старым играм после релиза можно видеть негативные отзывы, часть из которых из-за отсутствия локализации, а другая часть из-за невозможности запустить в современном программном и аппаратном окружении.
                                        0
                                        У меня такой прикол был с оригинальной копией старой call of duty mw1, купленной в стиме. Игра легенда и в нее до сих пор рубится армия преданных фанатов.
                                        Что бы поиграть в нее — нужно установить старое античитерское ПО, которое уже давным давно не работает через стим
                                        И единственный выход — это играть на пиратке
                                        +1
                                        у купивших игру в стиме остаётся возможность игру заново скачать в стиме

                                        редко, но бывает кейс, когда стим изымает игру из библиотеки в принципе. если почитать договор со стимом — игры мы берем в бессрочную аренду у платформы.

                                        2. ЛИЦЕНЗИИ

                                        A. Общая лицензия на Контент и Услуги

                                        Для использования Steam и Ваших Подписок требуется загрузка и установка на Ваш компьютер Контента и Услуг. Настоящим Valve передает Вам, а Вы принимаете неэксклюзивное право пользования Контентом и Услугами в личных некоммерческих целях (за исключением случаев, когда коммерческое использование разрешено в прямой форме в настоящем документе или в соответствующих Условиях подписки). Лицензия утрачивает силу по окончании срока действия (a) данного Соглашения или (b) Подписки, включающей лицензию. Настоящим передается право пользования Контентом и Услугами, а не какие-либо иные вещные права. Передаваемое право не порождает никакого титула или права собственности на Контент и Услуги. Чтобы использовать Контент и Услуги, Вы должны иметь Аккаунт в Steam, а также Вам может потребоваться запустить клиентское приложение Steam и поддерживать соединение с Интернетом.

                                          +8
                                          Дело даже не столько в удалении всей игры. Из игры могут исчезнуть ресурсы, на которые была только временная лицензия. К примеру, для GTA IV на десятилетие игры выкатили «подарочек»: поскольку лицензия была только на 10 лет, то удалили часть песен, большая часть — русскоязычные. Изменилось каноничное интро игры, поскольку теперь песни Глюкозы из таксо Романа на раздаётся. Удалили даже песню Русланы на «Владивостоке ФМ», которую она часто упоминает на радиостанции. Ситуация интересная: заплатил я за полную игру, а сейчас она урезана.

                                          Что-то подобное было с переизданием Mafia. Сейчас в «Стиме» можно купить только издание без музыки.

                                          Разумеется, есть небольшие моды, которые возвращают музыку на место. Хотя формально это нарушение авторского права, лично я ничего аморального в них не вижу.
                                            0
                                            К примеру, для GTA IV на десятилетие игры выкатили «подарочек»

                                            А где-нибудь можно почитать подробности?

                                            0
                                            В GTA IV такая процедура активации, что я десять раз пожалел, что купил лицензию, а не скачал с торрентов.
                                          +2
                                          да даже необязательно стим. Вот захотелось мне поиграть в классические NFS, но нигде купить я не могу. Только б/у диски. Вот в подобных ситуациях вообще ничего плохого в пиратстве не вижу. Иначе контент никак не получишь.
                                          Отчасти поэтому пугает потенциальный облачный гейминг (да и вообще стриминговые сервисы по подписке). Если правообладателю в голову что-нибудь ударит, и он захочет удалить контент по каким-либо причинам, то ты не сможешь никак это сохранить для себя
                                            0
                                            Я некоторые игры купил уже по два-три раза — сначала лицензию на диске, потом — некоторые ещё раз, когда первый диск спёрли\зацарапался, и наконец, по причине отсутствия привода в компе — очередную версию купил в стиме со скидкой. Особенно обидно, когда она после этого не идёт даже после плясок с бубном(привет, Wizardry 8).
                                            Будет ли нарушением с моей стороны скачать версию с торрента если что? Я считаю, что нет.
                                              0

                                              Я думаю, что проблема не в происхождении игры (т.е. откуда она скачана), а в юридическим аспектах возможности ее запуска.

                                              +1
                                              В чём вообще смысл покупать старые игры в Steam когда есть GOG? Там и бэкапы никто не мешает делать, ибо нет DRM.
                                                0
                                                так и получается, что приходится несколько раз покупать… Пока свежее — часто в стиме лучше, через несколько лет уже можно поймать по акции на gog…
                                              +12

                                              На рутрекере в раздаче Группа "Реки" / Дискография есть вот такая благодарность:


                                              Ну вот, докатился… Собственные песни с торрентов скачиваю....)))) Лирика сдулась вместе с буком) Кстати на ютубе пару самопальных клипов недавно выложил.
                                              Спасибо. Лаптев
                                                +7
                                                Поддерживаю! Считаю что в законах об авторском праве давно пора закрепить — если автор/издатель перестал продавать некоторое произведение (фильм/игру/музыкальный альбом), то разрешить его свободное распространение. Хочешь зарабатывать — продавай и зарабатывай, не хочешь — так какая тебе разница пиратит кто-то или нет?
                                                  +3

                                                  Кому может и никакой, а кто-то может быть против распространения вообще (хоть коммерческого, хоть бесплатного), и не обязан вам даже сообщать причины такого решения. И не надо у добросовестных авторов отнимать это право.
                                                  Когда подобным занимаются копирайтодержатели, не являющиеся авторами — другое дело.

                                                    +1
                                                    Ну как то странно выходит. Желания продавать нет, а желание судиться с «пиратами» есть.
                                                      +1

                                                      Иногда исполнитель стесняется того, что он играл в молодости, ведь тепепь он серьёзный человек, коллеги не поймут. Да, это предательство своей молодости, но это их право. Я лично удалял местную музыку из публичного доступа, которым заведовал, когда ко мне обращались с такими просьбами.

                                                        0

                                                        А через 100 лет это "играл в молодости" станет public domain и что делать будем?

                                                          +2
                                                          Мёртвым всё равно.
                                                            0

                                                            Мёртвым, может быть и всё равно, а фанатам где добыть эту чёртову удалённую запись?

                                                            0
                                                            Быть может, это станет не актуально. А вот сейчас, если у условного полицейского найдутеся условне записи гаражной панкухи десятилетней давности, где он кроет милицию разными органами, у него могут случиться проблемы.
                                                          0

                                                          Так это же вариант продаж.

                                                        0
                                                        Не вы первый, кому такое приходит в голову.
                                                        Мне идея тоже нравится, но у нее есть критическая проблема: а как определить доступность произведения?
                                                        Допустим, что если официально вещь уже не продается, но ее можно купить Б/У? А если ее можно купить Б/У в официальном магазине?
                                                        Или если купить ее можно на носителе специфического устаревшего формата, который уже ничем не поддерживается?
                                                        Что, если вещь можно купить только в одном магазине в США?
                                                        Или если ее продадут любому желающему по интернету, но не менее чем за $100k долларов? А если «всего» за $1000?
                                                        А если вещь формально продается, но ее никогда нет в наличии?
                                                        Что, если вещь не продавалась в течение года, но затем появилась? В течение месяца? В течение недели?

                                                        Где граница того, что вещь доступна для покупки?
                                                        И как обычному человеку определить, есть возможность купить вещь или нет? Не существует же никакого единого магазина или аггрегатора, где это можно проверить.
                                                          +2
                                                          Где граница того, что вещь доступна для покупки?

                                                          Вопросы действительно здравые. Но если мы говорим о формулировке «пользователь спиратил потому что не имел законной возможности купить» — то пусть правообладатель доказывает, что такая возможность на самом деле есть. И пусть суд решает, была ли на самом деле возможность покупки по адекватной цене (например по сравнению с ценой на момент первого официального релиза)
                                                          И, да, понимаю что утопия и никто такой закон принимать в обозримом будущем не будет. Ну хоть помечтать то немного можно
                                                          0

                                                          Тогда правоторговцы станут продавать все, но за миллион баксов только в одном физическом магазине с самовывозом со склада на соседнем континенте. Все, чтобы не потерять права. Кто знает, может вдруг что-то случится и на волне ностальгии, допустим, можно будет за полную цену опять всем понапродавать старую вещь.


                                                          И никогда такого закона не будет, потому что у правоторговцев до жопы денег, которые они не стесняются тратить на лоббирование своих интересов.

                                                          0
                                                          А ещё бывает, что один и тот же альбом ремастерится в разных студиях по 10 раз и переиздается в разных странах (как, например, LED Zeppelin), не покупать же их все…
                                                          0

                                                          После первого запроса, время его выполнения написано 0.03с вместо 0.3с.
                                                          Статья интересная, спасибо.

                                                            +24
                                                            Кино-пиратство на торрентах умирает — это факт.

                                                            Новых фильмов — мб, а вот старые с нормальными дорожками найти нереально ника кроме торрентов. Да и новые фильмы на торентах многие вон уже лежат а во всех магазинах даж упоминаний нет и не будет года 1.5
                                                              0
                                                              del
                                                                +3
                                                                Я, если честно, не понял фразу эту, почему умирает. Процентно не видно разницу и в среднем полоска с кино примерно одинакова по всей длине. Так по какому фактору считается что «умирает»?
                                                                  +1
                                                                  Многие новые фильмы сейчас достаточно легко доступны во всех возможных магазинах и не очень дорого.

                                                                  Но с другой стороны есть множество фильмов (напр «Дитя погоды» умаялся уже ждать/искать) которые будут ли во всяких кинопоисках и когда будут понятия никто не имеет. Причем эту проблему никто даже не пытается решить. С каждого утюга кричат, что пираты зло, но альтернативы просто нет.
                                                                    0
                                                                    Надо смотреть конкретно по статистике, а то получается что фраза является личным мнением на основе «ну я так считаю» и не должно присутствовать в статье, ибо не соответствует теме.
                                                                    Конкретно по графику я не вижу, что кино-пиратство умирает, потому что в среднем +- одинаковый вклад в торрент.
                                                                      +1
                                                                      Законы пишут те, кто повзрослел в 80-х, а то и ещё раньше, они не понимают, как мир ушел вперед.
                                                                      Ну а что человек мог сделать в 80-х, когда недоступны старые фильмы? Да ничего, он про них даже не усышал бы никогда.
                                                                    +10
                                                                    Когда мы боролись за рутрэкер, мы ведь совершенно не преувеличивая говорили про то, что это трэкер с уникальными раздачами. Это огромный музей, в котором можно найти первые фильмы 20ых годов и старые фолианты. Помимо этого рутрэкер очень ценен своим комьюнити, в котором собралось много энтузиастов. Они всё время что-то переводят или реставрируют. Озвучивают книги. Исправляют в старых любимых играх баги, или добавляют новые фичи расширяющие игры на 300%. Над некоторыми модами энтузиасты работают по 5-10 лет.

                                                                    Есть масса людей — хранителей раздач, которые специально покупали компьютеры и оборудовали их десятками жёстких дисков для того чтобы оставаться на раздачах. По моему, это прекрасно и даже жаль, что я не могу сейчас провести для вас экскурсию по таким раздачам. Но они есть и их много. Я бесконечно признателен так же моим любимым чтецам аудиокниг, которые открыли для меня, моей жены и моих детей столько потрясающих произведений.

                                                                    Пользуясь случаем, передаю тем, кто относится к числу этих людей огромную свою признательность и благодарность.
                                                                      +2
                                                                      это трэкер с уникальными раздачами
                                                                      Поддерживаю. Недавно там случайно наткнулся на полнометражный французский фильм 1919г. Был впечатлён.
                                                                    0
                                                                    Всегда очень привлекал анализ данных и их визуализация, но никогда, к сожалению, не любил математику, а без неё, как я понимаю, серьёзным специалистом в этой области не стать.
                                                                      0
                                                                      Стать, для бизнеса главное умение строить гипотезы и быстро их проверять, причем не важно какими инструментами, хоть exel.
                                                                        +3

                                                                        Как правило, тем, кому не заходит математика — легко дается статистика и, особенно легко, теория вероятности. Парадокс, но сама видела, и не раз, такую ситуацию. Надо пробовать.

                                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                                            0
                                                                            Странное утверждение. Ведь в основе теорвера и статмода лежит в первую очередь матан и линал соответственно (это все-таки базовые направления из «математики»).

                                                                            А если про частности, учитывая свой академический и рабочий опыт, встречал только обратные ситуации — не все те, кто хорошо разбираются в мат. анализе и лин. алгебре, могут освоить (или скорее даже осваивают) статистику и теорию вероятностей. Но в то же время все кто хорошо разбираются в статистике или теорвере хорошие спецы в лин. алгебре и матане.

                                                                            Да, действительно, для подготовки данных и первичного анализа, как в статье, можно обойтись и без математического бэкграунда. Как и во многих задачах BI, достаточно хорошего учебника а-ля «Статистика для экономистов» Princeton University, но про статистику и математику ИМХО не согласен.
                                                                          +40

                                                                          Пиратсво это плохо? Пиратсво это хорошо. Без пиратсва вы бы до сих пор ходили в магазин за всем тем, что можно купить онлайн. С точки зрения индустрии с пиратсвом надо бороться, но не запретами, а качественным контентом, адекватной ценой и удобством.


                                                                            –7

                                                                            Пиратство — это плохо.
                                                                            Отказ от покупки контента на не устраивающих тебя условиях — хорошо.

                                                                              +28
                                                                              Пиратство — это плохо.
                                                                              Когда я был школотой, вопрос о покупке какой-то лицензионщины не стоял вообще. Наскрести бы с карманных денег на самый вшивенький целерончик, а сдохший блок питания в первом компьютере был чуть ли не концом света. Не совсем понятно что при таком раскладе теряют жирные издатели и прочие авторы? У меня будет либо пиратка, либо не будет ничего.
                                                                              Зато нынче все любимые игры куплены просто для коллекции. Не было бы пиратства — я бы про них не узнал и не думал бы покупать.
                                                                              Так что пиратство — это плохо, если речь про морской разбой. Копирование байтов не стоит ничего. А благодарность авторам — так или иначе просто дело доброй воли.
                                                                                +1
                                                                                Копирование байтов не стоит ничего.

                                                                                А создание этих байтиков — стоит ;-)


                                                                                Да, холиварная тема. Я могу понять "пиратство" контента, который нельзя никак иначе получить — игры, который в определённую страну не завозили и не издавали, сериалы в сервисах, которые в стране не работают и т.п. Автор владеет правами на игру, но не выкладывает её в GOG, Steam или другой цифровой стор? Значит ему просто не нужны ваши деньги, ну что тут сделаешь :)


                                                                                Но вот чего не могу принять — так это принципиальной позиции "пиратство — хорошо". Вот GPL и прочие подобные движения — да, хороши. Они агититруют авторов по иному распоряжаться своим творением.

                                                                                  +3
                                                                                  Я так понимаю позиции lain8dono и redsh0927, что пиратство хорошо тем, что оно популяризует продукт, который люди бы иначе не купили. Своеобразное сарафанное радио. Ну, и, да, на раздачах есть другие версии аудиозаписей, которых нет на яндекс-музыке, например. Пиратские игры иногда более стабильны, чем их лицензионные версии.

                                                                                  А потом можно и купить игру/песню/мерч, если понравилось.
                                                                                    +1

                                                                                    А вот тут согласен! Другое дело, что тот же Steam для игр упростил ситуацию с "попробуй, прежде чем купить" — всегда можно вернуть продукт, если за первые условные 2 часа игра не понравилась. А вот с кино ситуация сложнее. С другой стороны, для книг и сериалов демо-период или демо-доступ организовать не сложно (первые X серий/глав бесплатно), странно, что этим пока мало площадок пользуется.

                                                                                      0

                                                                                      У гугла и амазона сам видел демки книг, первые несколько глав. Причем достаточный объем, чтобы понять интересность книги.
                                                                                      Проблемы демок в любой области в том, что зная момент, который в демке будет виден, можно только его сделать качественным, а остальное сделать средненько

                                                                                        –2
                                                                                        Ну да, еще можно добавить, что некоторые создатели фильмов могут включить все самые сочные кадры и сюжетные повороты прямо в первый трейлер, а во второй трейлер добавить остаток цен предполагаемую концовку, а потом они надеются, что ты будешь тратить свое время чтобы заполнить пробелы в сюжете между трейлерами :)
                                                                                        –1
                                                                                        Ну в кино продукции пошли по пути аренды, правда цена…
                                                                                          0
                                                                                          С другой стороны, для книг и сериалов демо-период или демо-доступ организовать не сложно (первые X серий/глав бесплатно), странно, что этим пока мало площадок пользуется.

                                                                                          По книгам — Amazon Kindle Store, Google Play Books, Литрес, Author.Today — везде у книг есть бесплатное начало (сколько — похоже зависит и от площадки и от автора, в тяжелых случаях может быть и 1 глава ).

                                                                                          В Amazon Kindle Store можно тупо вернуть книгу, да, файл, да — он удалится, с Kindle (читалки и приложений), нет, если вы этот файл скачали и он был без DRM(или с DRM но вы ее сняли) — ну… вы нехороший человек если не стерли и Amazon может за злоупотребление данной функцией ее отключить.
                                                                                          С Play Books все хуже — функция есть но только через техподдержку и должны быть серьезные основания вроде оно не читается.
                                                                                            0

                                                                                            Хм? Литрес и площадки типа author.today уже давно такое практикуют (точнее в первом — сами литресовцы сделали — ~30% в начале книги бесплатно, а во втором — авторы на длинных сериях первую книгу зачастую выставляют бесплатно).

                                                                                              0
                                                                                              У Author.today вообще можно и первую книгу бесплатно (влияет роль особенность получения коммерческого статуса там — он не совсем уж кому попало дается), можно любой число глава выше 0 сделать бесплатными можно вообще сделать (и мне такие книги у них встречались) «те главы что пишутся — платно но потом постепенно становятся бесплатными».
                                                                                              0
                                                                                              А потом расплодились ланчеры, и запущенный ланчер, качающий 2 часа игру, не дает вам ее вернуть нив каком виде.
                                                                                            +6
                                                                                            Но вот чего не могу принять — так это принципиальной позиции «пиратство — хорошо».
                                                                                            Пиратство (получение доступа неофициальным путём) — всего лишь инструмент, повышающий физическую доступность контента. Что, разумеется, хорошо. У тебя останется доступ, когда диск поцарапается, стим перестанет работать и т.д. А когда контент облеплен защитами, доступом по подписке и вообще только на сайте издателя — плохо, это хамство и ущемляет свободу пользователя. Вознаграждение авторам за просмотренный хороший фильм — хорошо и справедливо. А покупать у копираста, который половину твоих денег спустит на лоббирование законов против интернета — плохо. Просто не стоит пытаться сваливать разные вещи в одну кучу. Само по себе копирование никому не вредит…
                                                                                              0
                                                                                              Некоторые специализированные сайты по видеоклипам (художественные но не то что принято называть кино) тут тебе и превьюшка (похоже тоже автор решает какой длины, не трейлер с 'оптимальной' нарезкой а именно кусок видео)и более менее внятное описание. При этом прямо при покупке говорится что деньги — не возращаем! Вообще не возвращаем! В том числе потому что клипы — без DRM.
                                                                                              Да, стриминга — нету. Но можно сразу качать в Dropbox а не себе.
                                                                                              Возможность скачать через N месяцев после покупки — только через техподдержку.

                                                                                              На торрент-трекерах их контент кстати но не весь.
                                                                                                +8

                                                                                                Хамство — не то слово.
                                                                                                Заказал разок на одном сайте одну мангу любимого иллюстратора. Увидел, что есть ещё и электронная, решил — почему бы и нет, сейчас ПДФку возьму и поеду по своим делам, читая по пути, а физическую на полочку поставлю.


                                                                                                Ага, разбежался. Вместо ПДФ после покупки пришла ссылка на облепленный жаваскриптом, дико греющий телефон и садящий батарейку ридер. Ну ладно, думаю, против веб-инспектора ещё никто не отвертелся. Дёргаю картинки из таймлайна, а там страницы перемешаны на манер пятнашек, а рядом JSON бегает.


                                                                                                В итоге я сел, написал пару строчек на питоне, которые на вход берут ссылку на сессию ридера, а на выходе дают слепленный ПДФ, загрузил его в сообщество любителей этой темы, а денег подкинул просто иллюстратору на палку. Ибо он заслужил, а магазин-копирасторассадник — нет.
                                                                                                Хотели защитить книгу от пиратства? Получите, распишитесь — прямо противоположный эффект.


                                                                                                Не говоря уже, что менее прошаренный, но более упорный пират просто-напросто бы с этого ридера наделал скриншотов.

                                                                                                +5
                                                                                                А создание этих байтиков — стоит ;-)

                                                                                                Ну так надо на создание и собирать деньги, у некоторых вполне получается.
                                                                                                А вовсе не за копирование, которое ничего не стоит.
                                                                                                  +2
                                                                                                  Вот GPL и прочие подобные движения — да, хороши. Они агититруют авторов по иному распоряжаться своим творением.

                                                                                                  Это тоже холиварная тема. Вот на мой взгляд хорошие движения — это MIT, в которых автор не ограничивает использование своих творений только в открытых продуктах.

                                                                                                    +4
                                                                                                    Я лично придерживаюсь мнения, что пиратство позволяет бороться с монополией.
                                                                                                    Проблема в том, что все законы об авторском праве ведут просто к дичайшей монополии. Ведь, если говорить о произведениях, имеющих художественную ценность, то все они, можно сказать, уникальны. Две разные игры, в одном жанре, всегда останутся двумя разными играми. И если человек хочет поиграть в одну из них, то наличие другой не будет полноценной заменой. То же самое можно сказать про два разных музыкальных альбома, два разных сериала, два разных фильма, две разные книги и т.д. При этом, по всем законам, у автора/правообладателя есть монополия на созданный контент. Если он решит не распространять контент на какой-то платформе, в какой-то стране, запретить переводы на какой-то язык и т.д., то он может это с лёгкостью сделать. И останется только нелегальный путь.
                                                                                                    Пиратство, в данном случае, является сдерживающим фактором для правообладателя-монополиста, порождая, хоть и нелегальную, но конкуренцию. Установишь драконовские ограничения — получишь повальное пиратство. Не сможешь предоставить удобного сервиса по доставке контента — его предоставят пираты. Задерёшь цены — пираты раздадут бесплатно.
                                                                                                    Было бы здорово, если бы можно было обеспечить баланс интересов чисто легальными методами. Так всем было бы спокойнее. Но пока закон гласит, что права есть только у правообладателей, и при этом не накладывает на них никаких обязанностей, а у потребителя, наоборот, есть только обязанности, и никаких прав, баланс будет достигаться за пределами правового поля. Неадекватность закона, компенсируется его неисполнением.
                                                                                                    GPL, как раз тем хорош, что даёт легальный способ противостояния драконовскому авторскому праву. Но свободные лицензии не решат проблему, если речь идёт о произведениях, имеющих художественную ценность. Нельзя просто взять и сделать свободный аналог такого произведения.
                                                                                                    Так что, я хоть и не стану категорично заявлять, что «пиратство — хорошо», у него есть существенные недостатки, но уверен, что без пиратства, при нынешних законах, было бы намного хуже.
                                                                                                    0
                                                                                                    Копирование байтов не стоит ничего.

                                                                                                    Доступная возможность их копировать без оплаты стоит разработчикам миллионные убытки.

                                                                                                    У меня будет либо пиратка, либо не будет ничего.

                                                                                                    Индустрия не ориентируется на такую аудиторию. Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить — превышают сомнительные плюсы от сарафанного радио.

                                                                                                    А благодарность авторам — так или иначе просто дело доброй воли.

                                                                                                    Покупка ПО (а точнее его аренда) — это не знак доброй воли. Это плата за сервис, который тебе предоставляется. Будь то фильм, игра или профессиональное специфическое ПО.
                                                                                                      +5
                                                                                                      Как раз концепция платы за сервис отлично работает — стим и иже с ними процветает. В нём можно без особых ограничений на пользование получить игру в один клик, имея сразу интеграцию с сервисами типа воркшопа. Поэтому стало реально удобнее купить игру официально. С кино сервиса на урове пиратских сайтов никто, вроде, не предоставляет: то региональные ограничения, то нет/нельзя подключить нужные аудиодорожки и субтитры на нужном языке, то нельзя полноценно оффлайн смотреть, то могут по правилам в любой момент убрать «купленный» фильм. И при этом контент сильно разбит по разным сервисам.
                                                                                                        +4
                                                                                                        Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить — превышают сомнительные плюсы от сарафанного радио.

                                                                                                        Давайте будем называть вещи своими именами — "убытки" — это когда реальные затраты превосходят реальные доходы. Т.е. выпустили фильм, потратив на него $100 млн, а собрали всего $50 млн — да, имеем убытки. Если собрали $200 млн — то уже имеем прибыль, и никакие пиратки (и даже выкладывание его в свободном доступе) не смогут сделать его убыточным.


                                                                                                        В то же время, в связи с наличием отсутствия параллельной реальности, доказать что можно было бы ещё столько же собрать (да пусть вообще хоть что-то собрать) если бы не пиратки — невозможно, равно как и невозможно доказать что именно пиратки виноваты в сборах ниже бюджета (часто они вообще не виноваты, не все произведения окупаются).

                                                                                                          0
                                                                                                          А доказывать никто и не будет. Очевидно, что потенциальная прибыль теряется, соответственно есть и заинтересованность бороться с пиратством. А судя по тому, как в той-же игровой индустрии на разработку защиты тратятся порой крупные суммы — профит в этом есть (другой вопрос что это скорее борьба с пиратками первого дня).

                                                                                                          Убытки — это не разницы прибыли и затрат. Если баржа, на которой везли твой груз на 10 тысяч долларов утонула, а у твоей фирмы оборот миллион долларов — от потери этой баржи твоя фирма не станет убыточной, но убытки равные стоимости доставки и самой продукции — будут являться все еще убытками.
                                                                                                            0
                                                                                                            это скорее борьба с пиратками первого дня

                                                                                                            Учитывая типичную политику всех крупных издателей выпускать игры с критическими багами (которые потом чинят в патчах (или не чинят, если продалось не очень)) или просто недоделанными (пользуясь случаем, передаю привет всем игрокам Anthem, а так же персональный привет Bioware и их Anthem Roadmap) — против покупок игр в первый день сами издатели борются куда лучше пиратов.

                                                                                                              0
                                                                                                              А судя по тому, как в той-же игровой индустрии на разработку защиты тратятся порой крупные суммы — профит в этом есть (другой вопрос что это скорее борьба с пиратками первого дня).

                                                                                                              Я не слежу за темой, но это до сих пор актуально? У меня было ощущение, что потихоньку отходят от сильных защит вплоть до полного отказа от них — например, многие игры в магазине GOG можно после скачивания скопировать кому угодно и будет работать.
                                                                                                                +1
                                                                                                                Насколько я знаю GOG с самого своего начала — принципиальный противник DRM в любом виде и все их игры без защиты. Или что-то уже поменялось?
                                                                                                                  0
                                                                                                                  Так я об этом и говорю. Просто не был уверен, там прям все игры без защиты, поэтому написал «многие».
                                                                                                            +3
                                                                                                            Убытки от людей, которые бы купили, если бы не было возможности бесплатно получить

                                                                                                            А эти убытки точно есть?
                                                                                                            Вообще, непонятен этот спор в 2020. Вот был раньше рынок пека-гейминга, который мертвый. А потом пришел габен и как-то бац — оказалось, что люди вполне готовы платить за контент и сервис, надо лишь им предоставить такую возможность. И нет никаких убытков.

                                                                                                              +2
                                                                                                              Ну давайте холивар разведем. Сколько там средняя зарплата в СШП? ну где то наверное 6-10к$. Сколько стоит подписька на тот же нетфликс или хбо? Путин сказал что у нас средний класс получает 17кр. Сколько та же подписка стоит в процентном соотношении к обеим зарплатам? Сантехник Вася не будет подписываться на нетфликс, потому-что ему тупо надо что-то весь месяц жрать, платить ипотеку и заправлять машину и бухать на что то.

                                                                                                              Я к тому, что нищим пох на ваши DRM, контент они скачают. И дело не в том, что они такие плохие. А просто цели не совпадают с возможностями. А потом уже рождается привычка.

                                                                                                              Ну ка вспомните, кто там и СССР платил за лицензии начиная с Винды 3.1 и кончая ХР? Только юрики, и только когда прижали. Тот же «программист» Петя когда идет бабушке переустанавливать винду, какую он ставит? Если к ноутбуку не привязана лицензия, то ставит свою с кмс. И даже если привязана на 8.1, к примеру, один хрен ставит десятку с кмс. Так что тут спорить можно долго, но все-таки проблема скорее в возможностях, нежели в желаниях.

                                                                                                              Есть еще один аспект — проблемы с оплатой. Иногда авторы, например, программ изобретают вычурные методы активации. Например автор ОПЕHДИAГ. Надо зайти во внутрь андроида, выслать файл, оплатить (к счастью картой). Потом по почте получить файл, положить его внутрь андроида и все будет работать. Ничего сложного. Но там можно активировать несколько десятков моделей. Это-ж даже подкованному человеку пытка, а обычному вообще смерть. Еще я ничего не покупаю в гуглсторе, потому-что не хочу светить карту. Это не говорит о том, что я пользуюсь пиратским софтом, как то не нужно было до сих пор.

                                                                                                              То есть принципов, почему для некоторых неприемлемо платить за контент много и проблема эта не совсем однозначная.
                                                                                                                0
                                                                                                                Сколько там средняя зарплата в СШП?

                                                                                                                Справедливости ради у многих подобных сервисов есть такая фича, как региональные цены. Для рф подписка на нетфликс будет стоить 560 рублей (правда насколько я знаю она столько же стоит и в США). Это подъемная сумма, её может и школьник с завтраков собрать. Если вдруг резко магической палочкой закрыть любые простые возможности получения контента от нетфликса бесплатно (а сейчас этим пользуются даже те, у кото лицензионная винда, грубо говоря) — прибыль у нетфликса увеличится на беспрецедентные суммы.

                                                                                                                Пират — это не человек с «идеей» о бесплатном софте и услугах, это обычный человек, который просто вводит в гугл «Х смотреть онлайн без регистрации и смс» и смотрит, если он это не найдет в сети — в первые разы он просто забьет, а потом купит подписку. Люди не из принципа используют бесплатные пути, просто они даже не думают об этом и им пофиг.

                                                                                                                Я к тому, что нищим пох на ваши DRM, контент они скачают.

                                                                                                                Нищие и не составляют ЦА индустрии. ЦА составляют все остальные, которые могли бы позволить себе оплатить большую часть сервисов, но просто не видят в этом смысла, когда все это можно получить бесплатно. Вы немного не в ту сторону смотрите.

                                                                                                                Есть еще один аспект — проблемы с оплатой.

                                                                                                                С этим я никогда не сталкивался за свою жизнь, так что тут сказать не могу, но думаю это достаточно малый процент ПО.

                                                                                                                Еще я ничего не покупаю в гуглсторе, потому-что не хочу светить карту

                                                                                                                Что? А что такого будет если вы «спалите» карту, на которой единовременно может пару тысяч лежать. Или вы все свои сбережения на карте храните, а не на счету в банке?

                                                                                                                То есть принципов, почему для некоторых неприемлемо платить за контент много и проблема эта не совсем однозначная.

                                                                                                                Принципиальных людей определенно мало. Большинство даже не задумывается об альтернативе, но это не значит, что если альтернативу уберут — они просто забудут о фильмах и софте. Начнут платить, и много.

                                                                                                                Я сейчас не занимаю радикальную позицию «уничтожить пиратство», я просто говорю о том, что авторы контента имеют право его защищать, и бесплатно раздавать его всем они не должны.
                                                                                                                  0
                                                                                                                  ничего не покупаю в гуглсторе, потому-что не хочу светить карту
                                                                                                                  Можно светить виртуальную карту, например, которую пополнять непосредственно перед покупкой на сумму её (если речь о возможной краже средств).
                                                                                                              +2

                                                                                                              Меня не устраивает качество контента, качество перевода, цена, отсутствие выбора и условия приватности. Кроме того я буду бесплатно смотреть тот контент, который не стал бы покупать в любом случае. И в том и в другом случае я не заплатил за этот контент. Но я же могу посоветовать кому-то другому, для кого этот контент окажется достаточно ценным, чтоб потратить на него деньги.


                                                                                                              Кроме того вы забываете, что контент во многих случаях не сам создаёт деньги, а рекламирует всякие фигурки, наклейки, футболки, значки и прочих хлам, в том числе и цифровой. И доходы от этого хлама будут больше в разы и на порядки.

                                                                                                                +4
                                                                                                                Кроме того я буду бесплатно смотреть тот контент, который не стал бы покупать в любом случае.

                                                                                                                Если не секрет: а… зачем вы его тогда смотрите? Вам жалко денег, но не жалко времени? О_О

                                                                                                                  +4
                                                                                                                  Вам бы такого работодателя/заказчика.
                                                                                                                  «Ты сначала сделай, отдай все нам, а мы потом будем решать устраивает нас это или нет.
                                                                                                                  Кроме того ты забыл, какая реклама тебе будет. Будешь продавать всякие фигурки со своим именем»
                                                                                                                  +19
                                                                                                                  Зачем вы поддерживаете подмену понятий, которое насаждают правоторговцы.
                                                                                                                  Никакое это не пиратство.
                                                                                                                  image
                                                                                                                    +1

                                                                                                                    Зачем вы настаиваете на том, что в русском языке нет омонимов?

                                                                                                                      +5
                                                                                                                      И какое слово в тезисе «copying isn't piracy» написано на русском?

                                                                                                                      Вообще, почему «пиратство», если можно «изнасилование»? Омонимы-то в русском языке есть, но объявлять омонимами любые пары слов по произволу нельзя, особенно если получающиеся фразы имеют юридический смысл, тянущий на десять лет лишения свободы. Изобретая новояз, скромнее нужно быть.
                                                                                                                        0
                                                                                                                        Вообще, почему «пиратство», если можно «изнасилование»?
                                                                                                                        Потому что устоялось. И потому что, общаясь с другими людьми, мы хотим, чтобы они нас понимали. Поэтому, приходится использовать устоявшиеся термины, а не самовыдуманные. В мыслях-то у себя я могу подумать хоть «о, какая глокая куздра побокрила», но если я это скажу товарищу вместо «о, какая симпатичная девушка прошла», то он меня не поймет.

                                                                                                                        Так и тут, если вы будете употреблять «компьютерное изнасилование» вместо «компьютерное пиратство», вам будет несколько сложнее донести свои мысли до других людей, только и всего.
                                                                                                                          0
                                                                                                                          Хабрасовет: не пытайтесь повторять эту мысль под постами со словосочетанием «силиконовая долина».
                                                                                                                            0
                                                                                                                            Вы агитируете за новояз, одновременно объясняя на утрированных примерах, к чему приводит подмена слов произвольными созвучиями. Прошу прощения, но это оксюморон.

                                                                                                                            Что значит «устоялось» и в чем это выражается? Определенная группа, желающая называть вещи не своими именами, налицо. Настырности ей не занимать. Цели ее понятны. Но права по произволу реформировать русский язык (по факту — все мировые языки) она еще явно не купила. Ее влияние на узус также не стоит преувеличивать.

                                                                                                                            Самое большее, можно сказать, что с этим ярлыком происходит нечто подобное тому, что в случилось с кличкой «гезы» («оборванцы») во время войны за независимость Нидерландов: она была принята и превращена в знамя. Тому примером piratebay.
                                                                                                                              0

                                                                                                                              Не прячьте голову в песок. Термин "пиратство" устоялся и все прекрасно понимают о чём идёт речь.

                                                                                                                                +1
                                                                                                                                1) Понимай есть можливо всем очинно кучырявые спычи. С езыковой номрой однакож, заколдобина вельми есть.

                                                                                                                                2) Все прекрасно понимают, что некоторым хотелось бы представить неугодные им действия в качестве преступных прямо на уровне базовой лексики. Это и есть цель новояза, как она была определена дедушкой Орвеллом. Говорите, получается? Фу, какая гадость.
                                                                                                                                  +1
                                                                                                                                  Ну как бы не совсем устоялся, термин «пиратство» насаждается частью общества заинтересованной в защите информации он копирования, а сопротивляющаяся часть общества отвечает вводом термина «копирастия», клеймя жадность дистрибьюторов. Все понимают и тот и другой термин, а многие понимают также и неадекватность сложившейся ситуации. Занимайте место в своём лагере, заказывайте попкорн с доставкой на дом.
                                                                                                                          0
                                                                                                                          А если автор запрещает кому-либо копировать его картинку, при этом злобно скалясь? Или разрешает, но за определённую сумму? Что тогда делать?
                                                                                                                        0
                                                                                                                        Спасибо вам за раздачу.
                                                                                                                          0
                                                                                                                          По скриншоту он уже не раздаёт.
                                                                                                                          А вот у меня из-за работы дома теперь раздаётся по 200+ ГБ в день вместо обычных 80-ти.
                                                                                                                          0
                                                                                                                          Даже первая сотня еще не роздана =)?
                                                                                                                          +1
                                                                                                                          народ смотрит в пиратских онлайн-кинотеатрах
                                                                                                                            +6

                                                                                                                            Это правда. Многие уже даже не знают, что такое торрент. И даже подкованные технически знакомые, когда спрашивал, как они смотрят кино, отвечали: «Просто вбиваю название в поисковик и смотрю онлайн».


                                                                                                                            Ну а торрентам желаю процветания и долгой жизни. Например, когда у меня была подписка Netflix, я был в легком шоке от того, что найти там какой-то сериал с нужным языком и субтитрами — почти нерешаемая задача.


                                                                                                                            Например, для поддержания уровня испанского, стараюсь смотреть иногда сериалы на испанском. Вбиваю в поиск «сериалы на испанском», нахожу десятки сериалов, причем именно Netflix. Но в приложении и на сайте Netflix найти их не могу — просто не находит. А если что-то даже находит, то предлагает только на английском, хотя сериал испанский/латиноамериканский и был снят на этом языке.


                                                                                                                            Эти попытки все время «додумать» за меня, что мне нужно, так сильно бесят, что отменил подписку после 2-3 месяцев мучений. Понимаю, что ориентируются всегда на самого массового пользователя, в том числе и содержание фильмов/сериалов давно уже математически рассчитано на вкус самого массового зрителя, и это уже смотреть невозможно, хотя никогда не считал себя ценителем изысканного кино. И так редко смотрел кино, а если торренты исчезнут, то просто перестану смотреть вообще, и вряд ли пожалею.

                                                                                                                              +3

                                                                                                                              Там какая-то муть с региональным контентом. Ну т.е. я точно знаю, что в нетфликсе есть некоторые сериалы, но я их не могу посмотреть. Почему? Ну видимо потому что я не в страной нахождения/оплаты не вышел.

                                                                                                                                0
                                                                                                                                Всю эту информацию можно посмотреть здесь unogs.com/?q=Flash&st=bs по странам. Можно использовать специальный VPN, чтобы смотреть через другую страну.
                                                                                                                                  +3
                                                                                                                                  Можно использовать специальный VPN, чтобы смотреть через другую страну.

                                                                                                                                  Это точно такое же нелицензионное воспроизведение как и торренты. Даже если вы на нетфликс подписаны, с точки зрения правоторговцев, смотреть через впн недоступное вам кино — это тоже "пиратство". Не знаю, где тут упущенная прибыль, правда. Может вы должны были купить ДВД или переехать в другую страну. Эти чертовы впны убивают сериалы! /sarcasm.

                                                                                                                                    0
                                                                                                                                    Вы самого прикола не поняли. Если через аргентину или Турцию подключать карту, оплата будет в их валюте в несколько раз (!) дешевле. Мда.
                                                                                                                                      +1

                                                                                                                                      Тем более! Вот и упущенная прибыль есть! Вы должны платить в несколько раз больше а смотреть в несколько раз меньше. А если вы этого не делаете, даже платя нетфликсу — вы пират и убиваете киноиндустрию. Правоторговцы так думают, по крайней мере.

                                                                                                                                      0
                                                                                                                                      Вот да, у меня VPN до США и Нидерландов существует ещё с середины 00х годов и маршрутизация туда на всё что «тут никак не работает, а там работает» давно настроена.
                                                                                                                                  0
                                                                                                                                  Да, нетфликс этим немного раздражает. Причём, там есть и языки, и субтитры — но их вам не предлагают)
                                                                                                                                  Отдыхал полтора года назад в Европе, снимали коттедж в котором был нетфликс. И естественно — практически всё в нетфликсе было с выбором максимум двух языков(голландский и английский) для озвучки и сабов.
                                                                                                                                  +3
                                                                                                                                  Самый большой минус в таких кинотеатрах — это реклама. Причём раздражают как видеовставки, так и ещё больше аудио прямо в сценах фильма. Ну и, конечно, качество звука и видео не всегда можно найти даже 1080p, про 4K как бы и так понятно )
                                                                                                                                    0
                                                                                                                                    4pda.ru/forum/index.php?showtopic=730699 ну правда. Кто смотрит рекламу в 21 веке?
                                                                                                                                      +1
                                                                                                                                      Если реклама тупо вклеена в поток, то что с этим сделаешь? Я ещё видел релизы, где кроме аудио рекламы по всему видео бегали надписи. Конечно же оно было скачано не с рутрекера, где подобная фигня запрещена.
                                                                                                                                        0
                                                                                                                                        Дак перемотать же можно в mx player.
                                                                                                                                          0
                                                                                                                                          Так это вшито поверх видеоряда, а не рядом с ним. Так можно пол кино переметать. Я тоже не мог представить, что такое говно вообще существует и кто-то это смотрит, видимо, рутрекер расслабил.
                                                                                                                                            0
                                                                                                                                            Это на сайте. Я вам зачем приложение скинул? Оно открывает ссылку в mx player.
                                                                                                                                              0
                                                                                                                                              Это в торрент файле с ноунейма. Никакой плеер тут не поможет.
                                                                                                                                                0
                                                                                                                                                «вшито поверх видеоряда» ну не бывает такого!
                                                                                                                                                  0
                                                                                                                                                  Эм, вам скрины наделать что ли? Ну так я снёс с раздачи и больше не качал с пометкой «Реклама». Хотя да, сам виноват, пометка же была.
                                                                                                                                                    0
                                                                                                                                                    Вполне себе бывает. Недавно смотрел что-то с рекламой какого-то казино, там в тихих моментах два раза шла голосовая реклама и по экрану логотип скакал, то в одном углу, то в другом.
                                                                                                                                                      0
                                                                                                                                                      Ну дак это не поверх, а «в» потоке. Там и качество обычно дрянь.
                                                                                                                                                        0
                                                                                                                                                        Я не занимаюсь этой областью и не знаю нужных терминов.
                                                                                                                                                        0
                                                                                                                                                        А не вытерпел больше 6 минут, удалил не жалея, наверное единственная раздача, которую я не раздал с хотя бы х2 коэффициентом.
                                                                                                                                      +6
                                                                                                                                      сколько книжек нам доступно для скачивания.
                                                                                                                                      300 тыс — читать не перечитать!
                                                                                                                                      1 раздача:
                                                                                                                                      Библиотека: Флибуста
                                                                                                                                      Количество книг: 466232
                                                                                                                                      Просто книги в zip'ах.
                                                                                                                                        0
                                                                                                                                        Library Genesis — libgen.is 2 000 000 книг. Не знаю, как автор статьи считал (ну знаю, по расширениям) учитывая, что часть базы на rutracker есть. Но вообще всё это надо на booktracker смотреть.
                                                                                                                                        +3
                                                                                                                                        Отличная аналитика, спасибо.
                                                                                                                                        Реквестирую аналогичную по отпочковавшейся дочке RuTracker'a тогда еще Torrents.ru
                                                                                                                                          +2
                                                                                                                                          С превью самого популярного.
                                                                                                                                            0
                                                                                                                                            А это именно дочка рутрэкера? Есть история создания?
                                                                                                                                              0
                                                                                                                                              В их правоотношениях не силен. Но в свое время это был один из разделов торрентс.ру. Потом, по понятным причинам переехал на свой домен.
                                                                                                                                              Там до сих пор можно найти раздачи с торрентс.ру в наименовании торрент файла. Одно время это было правилом, чтобы домен был в названии.

                                                                                                                                              Да еще: некоторое время раздел оставался, но как ссылка, ведущая на новый домен.
                                                                                                                                                0
                                                                                                                                                Это был раздел рутрекера. Потом они склонировали сайт только с этим разделом и даже всеми пользователями с сохранением их паролей. Кому сайт не нужен — предлагали самостоятельно в него залогиниться и в профиле шмякнуть по кнопке удаления.
                                                                                                                                              +3
                                                                                                                                              с такими фильмами какие щас выходят, я и бесплатно то особо не смотрю, еще «это» покупать
                                                                                                                                                +9
                                                                                                                                                Прекрасная статья, спасибо. Я так вижу, torrents.ru живёт и процветает.
                                                                                                                                                Единственный нюанс – прошу, будьте чуть поаккуратнее с цветами иллюстраций. У меня просто неидеальное зрение и хреновая цветопередача у монитора, а кто-то другой может банально не видеть часть спектра.
                                                                                                                                                Например, эта картинка
                                                                                                                                                На первый взгляд, она мне понравилась. Но есть нюансы:
                                                                                                                                                1. Я долго пытался понять, что за самый высокий столбец в 2019 году: jpg или mkv. Кажется, всё-таки jpg.
                                                                                                                                                2. Некоторые пункты пропадают. Например, в 2007 есть что-то нежно-лососевое слева, а в 2018 и 2019 его нет.
                                                                                                                                                3. Нет чёткой границы между годами. Хотя бы два дополнительных пикселя между наборами столбцов сыграли бы роль. С учётом предыдущего пункта вообще невозможно понять, к какому году что относится на стыке.


                                                                                                                                                Или эта картинка
                                                                                                                                                Она красивая и наглядная ровно до тех пор, пока озверевший пользователь не начнёт тыкать пипеткой, чтобы понять, что та тонкая одна-из-оранжевых линий это «Джаз и Блюз», а не «Авто и Мото».
                                                                                                                                                А, и ещё тонкая полупрозрачная сетка на фоне окончательно сводит его с ума, создавая градиенты там, где их нет. :D



                                                                                                                                                Увы, я не знаю, как пофиксить эти недостатки. Делать таблицы с цифрами? Играть с цветовой схемой? Делать графики интерактивными, чтобы на них можно было наводить мышкой и смотреть, кто есть кто? (ещё бы хабр это поддерживал) Выдавать пользователю исходники, чтобы он сам смотрел, что ему надо? :)

                                                                                                                                                Кстати, количество загружаемых файлов != живости трекера. Надо где-то откопать статистику по сидам/пирам, чтобы оценить число раздающих/качающих. Но она вряд ли есть.
                                                                                                                                                Спасибо за статью, её было приятно читать.
                                                                                                                                                  +1
                                                                                                                                                  Вот так можно, как в ч/б книгах.
                                                                                                                                                  Заголовок спойлера
                                                                                                                                                  image
                                                                                                                                                    0

                                                                                                                                                    Эти паттерны имеют гнусную привычку сливаться друг с другом. По крайней мере, лично у меня не получалось подобрать их так, чтобы больше пяти категорий были однозначно различимы.

                                                                                                                                                    0
                                                                                                                                                    rutracker.org/forum/viewtopic.php?t=3746347
                                                                                                                                                    Если есть доступ к Рутрекеру, советую изучить эту тему. Там как раз статистика по сидам\пирам за многие годы существования ресурса. Внизу главной страницы она меняется каждые 10 минут
                                                                                                                                                      0

                                                                                                                                                      О, ни разу не выдел её. Впрочем, я рутрекером пользуюсь с другой целью, нежели изучать его статистику. :)
                                                                                                                                                      Там немного сложно наглядно рассматривать данные, но есть минимум один сводный комментарий за 2017-2020 годы.
                                                                                                                                                      <blockquote>Если есть доступ к Рутрекеру</blockquote>
                                                                                                                                                      А его до сих пор блокируют? О_о

                                                                                                                                                        0
                                                                                                                                                        Да, Рутрекер заблокирован «навечно» на территории РФ.
                                                                                                                                                        Касательно упомянутого Вами комментария: юзер ежечасно сканирует статистику с главной страницы и выдаёт её результат раз в месяц в той теме.
                                                                                                                                                          0

                                                                                                                                                          Значит, я должен боготворить своего провайдера за человечность, ибо открывается без нареканий. Надеюсь, он после этого комментария не вычислит меня по ip и не закроет доступ. Или ему не скажут закрыть доступ. %)

                                                                                                                                                      +1
                                                                                                                                                      В первом случае достаточно просто разделить года промежутками, во втором — не ставить похожие цвета рядом.