HeadWithoutBrains14 авг 2008 в 18:55

Как узнать количество видеороликов на Youtube

2 мин

53K

Облачные сервисы *

Перевод

+60

Комментарии 88

S0ul_Tr4d3r 14 авг 2008 в 19:01

занятная арифметика, спасибо

НЛО прилетело и опубликовало эту надпись здесь

HeadWithoutBrains 14 авг 2008 в 19:54

Полностью с вами согласен, но русский язык никогда не учил, и пишу возможно с некоторыми ошибками. Но на этих ошибках и учусь. Так что если не так, указывайте и с радостью поправлю.

stolen 14 авг 2008 в 20:01

Основная ошибка у Вас — мягкий знак в глаголах. Есть простое правило — в глаголе то же, что и в вопросе к нему:
Собаки умеют (что делать?) кусаться.
Длинный текст (что делает?) пишется долго.

HeadWithoutBrains 14 авг 2008 в 20:08

Большое вам спасибо за мини урок русского языка. Поправил во всех местах + некоторые орфографические ошибки, которые пропустил при проверке.

НЛО прилетело и опубликовало эту надпись здесь

ekrn 14 авг 2008 в 21:11

вот ты щас реально не по теме высрал!

НЛО прилетело и опубликовало эту надпись здесь

ekrn 14 авг 2008 в 21:28

да ты ваще потс, асадил меня нириально!

morozzo 14 авг 2008 в 23:33

*занавес*

НЛО прилетело и опубликовало эту надпись здесь

aleb 14 авг 2008 в 20:15

предполагаемое, но примерное количество

подразумевается одно и то же. лучше оставить какое-нибудь одно слово

HeadWithoutBrains 14 авг 2008 в 20:18

Fixed :)

aleb 14 авг 2008 в 20:22

не пойму, у меня теги не работают или делаю что-то не правильно? цитату хотел сделать…

HeadWithoutBrains 14 авг 2008 в 20:24

Могу ошибаться, но у вас может для тэгов кармы не хватать. Но в html вашего комментария только plain text.

aleb 14 авг 2008 в 20:42

да, точно. повысил кто-то, и все заработало.

по переводу — апрель пишется с маленькой, и запятая после не нужна :)

mercurymd 14 авг 2008 в 22:39

ещё бросилось в глаза:

mercurymd 14 авг 2008 в 22:58

Союз итак (в значении вводного слова «следовательно») пишется слитно в отличие от сочетания и так (союз и наречие), например:

Итак, все кончено.
И так кончается каждый раз.

Союз чтобы пишется слитно в отличие от сочетания что бы (местоимение и частица), например:

Редактор встретился с автором и чтобы (для того чтобы) согласовать внесенные в рукопись изменения;
Важно, чтобы люди это понимали;

но:

Что бы такое еще придумать?;
Что бы ни случилось, я не оставлю его в беде;
Не имею понятия, что бы он сделал на моем месте.

На местоимение что падает логическое ударение, союз чтобы – безударный.

hitodessit 14 авг 2008 в 19:13

Интересно было бы еще прикинуть, на скольких HDD весь этот объем хранится :)

kabachok 14 авг 2008 в 19:19

скорее всего они юзают харды по 750 гигов, так что посчитать не сложно

stolen 14 авг 2008 в 19:58

такие харды появились сравнительно недавно, так что, если вспомнить концеплию гугла про множество «cheap and dirty Linux boxes», то, скорее всего, 750 и 1000 стоят не более, чем в двух третях случаев.

khim 14 авг 2008 в 20:15

Не забудьте ещё про то, что всё это хранится в трёх копиях, скорее всего. Но в любом случае по меркам Гугла это не бог весть какой объём: даже если в среднем на каждый комп приходится по 750GB, всего компов 500'000 и используется трёхкратное дублирование то получим 125PB. Это консервативная оценка: если в среднем на компе стоит на один винт, а два — будет уже 250PB. Но в любом случае выделить из них 5-10PB на Youtube и хранить там все ролики во всех видах — не бог весть какая проблема (всё-таки Youtube это одна из любимых цацек Гугла).

Другое дело что Youtube всё-таки долгое время жил отдельно: как данные хранились тогда и что сохранилось с тех времён — одному богу ведомо…

Так что расчёты выглядят правдоподобно. Вот если бы кто-то намерял не 140 миллионов роликов, а 140 миллиардов — можно было бы смело говорить «не верю»…

stolen 14 авг 2008 в 20:24

Вы когда-нибудь видели настоящий сервер? В 2U машину (где-то 9 см в высоту) влезает 12 дисков. В одной стойке около 15 машин (иногда больше). В одном ряду около 10 стоек. В одной комнате датацентра, как правило, 10..30 рядов. Скорее всего, все хранилище могло уместиться в одном помещении.
Мой пост не выражал мое сомнение в верности расчетов, а лишь говорил, что подсчет количества дисков — нетривиальная задача.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.

khim 14 авг 2008 в 20:34

Вы когда-нибудь видели настоящий сервер?

Не только видел, но и собирал/ремонтировал/etc :-) Правда то было несколько лет назад.

В 2U машину (где-то 9 см в высоту) влезает 12 дисков.

Никто не будет ставить в двухвершковый сервер 12 дисков. Это элементарно не-вы-год-но. Либо 6 винтов в двухвершковый корпус, либо 14 — в трёхвершковый. Учитывая стремление Гугла к экономии я скорее поверю в первое — это дешевле (как это не удивительно).

Это когда вы арендуете место в каком-нибудь Мастерхосте вы платите за вершок и это заставляет вас набивать сервера «под завязку». Если вы строите датацентр (а то, что Гугл этим занимается хорошо известно), то вам дешевле сделать чуть больше помещение, но зато чуть слабее вентиляцию. Но это — так, к слову.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.

Это зависит от многих причин. Если ваш файл может использоваться тысячами машин и 20 копий могут не лишними оказаться. Но думаю что типичное количество — всё же три копии, пять как-то уж очень много. Для надёжности пять копий тоже не нужны (думаете у Гугла нет денег сделать нормальный backup на ленту?).

NickMitin 15 авг 2008 в 11:31

Можно поподробнее про бэкап на ленту. Очень интересно, может ссылка какая?

BlackFoks 15 авг 2008 в 03:13

Прочитал недавно в IT-журнале, что google хочет перейти с hdd на твердотельные винты, из-за их меньшего энергопотребления. Было написано, что обычные hdd в год потребляют столько энергии, сколько стоят сами))

cst 15 авг 2008 в 05:16

Бойанчег =)
С месяц назад об этом в Радио-Т говорили. Вот только объемы у SSD по меньше, но зато жизненный цикл больше. А вот по поводу энергопотребления тут не все так однозначно, на данном этапе развития SSD, конечно.

stolen 15 авг 2008 в 05:32

При переходе на SSD (на текущий момент) носители будут стоить на порядок-два дороже, а при несколько большем энергопотреблении время, за которое они потребят энергии на свою же стомость, возрастет чуть менее, чем на порядок-два.
ИМХО, неправильно сравнивать стоймость харда и стоймость потребляемой им энергии.

kurokikaze 15 авг 2008 в 07:20

Как SSD подешевле станут — так сразу и перейдут имхо.

НЛО прилетело и опубликовало эту надпись здесь

stolen 15 авг 2008 в 05:33

GreenPower, по некоторым данным (не именно по Гуглу, а по Америке вообще)

kabachok 15 авг 2008 в 06:03

Хорошие харды, я их и подразумевал, почему 750гб? потому что на данный момент у низ самое лучшее сообношение цены и качества.

senser 16 авг 2008 в 16:39

скорее или самые дешевые или самые малопотребляемые, союз «и» здесь маловероятен (хотя все может быть)

nooze 14 авг 2008 в 19:25

И лучше даже не пытайтесь посчитать сколько все это стоит ))

raptor 14 авг 2008 в 20:05

Если я не ошибаюсь, то база youtube одна из самых больщшх в мире…

HeadWithoutBrains 14 авг 2008 в 20:09

Ну я думаю если считать гугловский BigTable базой, то он будет больше. Хотя, возможно про него нельзя говорить как про базу.

khim 14 авг 2008 в 20:18

Есть подозрение что база AdSense всё же больше. Но да — объёмы должны быть сравнимы.

Rexedead 14 авг 2008 в 20:09

Им бы еще дубликаты видео удалить. На 3/4 думаю место освободится.

rold 14 авг 2008 в 20:37

Есть подозрение что это и так делается постоянно.
Поскольку полные дубликаты определить достаточно просто, то логично не хранить их.

Хотя, конечно, при таких масштабах любая простая задача превращается в сложную.

khim 14 авг 2008 в 20:40

Ну полные дубликаты по SHA1 отлавливаются. Но там наверняка куча роликов вроде как одинаковых, но попавших на YouTube разными путями (скажем через Rutube и через ВКонтакте). Их отлавливать замучаешься… И потом — не вполне ясно насколько корректно это делать…

rold 15 авг 2008 в 01:11

Эти ролики имеют другие параметры видео, соответственно это другие ролики. Но они тоже не будут дублироваться.

Rexedead 14 авг 2008 в 20:41

Полные дубликаты еще «ерунда» а вот видео которые на 1, 0,5 сек длиннее или короче оригиналов+ называются по другому — это действительно проблема

rold 15 авг 2008 в 01:21

Я думаю, что роликов которые на несколько секунд длиннее или короче не так много. К тому же нельзя их подменять на другие без согласия пользователя. Но спросить у него можно только после закачки и очень ресурсоемкого поиска похожих видео.

А название имеет слабое отношение к проблеме дублирования :)

MonkAlbino 15 авг 2008 в 04:01

По-моему как раз наоборот, роликов на несколько секунд много: можно просто ввести название какой-нибудь известной песни и увидеть множество разных вариантов, причем многие из них как раз по времени и разнятся, а остальные по всяким внутренним рюшечкам.

maq 14 авг 2008 в 20:17

>a = средний размер FLV видео, пусть будет 4 МБ, но наверно это далеко от истины. На Youtube много коротких видеороликов, и у Youtube есть ограничение на длину — 10 минут. Все же, это приблизительная цифра.

По результатам эксперимента №1, думаю, средний размер видео можно определить достаточно точно :-)

kurokikaze 15 авг 2008 в 07:23

Кстати, идея не лишена смысла :)

Но тогда проще сразу определить размер базы :)

maq 15 авг 2008 в 07:30

Кстати да!
Только вот, если определять сразу размер базы, будет достаточно тяжело отсекать выбросы.

kurokikaze 15 авг 2008 в 07:31

Почему? Порядок цифр мы себе представляем.

maq 15 авг 2008 в 07:35

Ну, если эксперимент проводить сейчас, то результат будет стремиться к уже озвученным числам.
А для чистоты эксперимента как раз не надо, чтобы участники представляли себе порядок велечин.

TimTim 14 авг 2008 в 20:17

О таких обьемах и думать то страшно… понимаю еще винт на 1 тб, но такое…

maq 14 авг 2008 в 20:21

Помню, был у меня первый компьютер. Ну, который уже настоящий, а не спектрум.
И был на нем диск 2 ГБ. Потом поменяли сразу на 20 — и были уверены, что уж столько-то места хватит очень на долго. Мог ли я тогда подумать о терабайте? :-)

Сейчас кстати только вот подумал. У меня сейчас в КПК карточка — те же 2 гига, что были в первом компьютере. При этом процессор в КПК мощнее, ОЗУ больше.

Кошмар!

combax 15 авг 2008 в 09:34

и что? можете сейчас подумать о карточке для кпк на 1 терабайт?;)

maq 15 авг 2008 в 11:09

Так я про то и говорю, что это вопрос времени.

khim 14 авг 2008 в 20:23

Да ладно вам. ОпСоСы, например. Конечно база с записями «Вася позвонил Пете и проговорил 34 секунды» вызывает меньше восторгов, чем YouTube, но объёмы там вполне сравнимы — можете быть уверены…

Вообще всё это впечатляет только до тех пор пока ты примеряешь это всё на одного «себя любимого». Как только вспоминаешь что там многие миллионы пользователей… понимаешь что, в общем-то, это не так и много видеороликов…

NULLov 17 авг 2008 в 21:19

в этой базе далеко не только такие записи :) в зависимости от оператора, там хранится аудиозапись ВСЕХ разговоров за последние полгода + список звонков за год или два, а также все смс

Requilence 14 авг 2008 в 20:26

Мда… ужасающие цифры)
По переводу — поправьте «Гуловскими патчами»

Rexedead 14 авг 2008 в 20:46

Кстати, интересно, почему youtube не сделает прямые ссылки на скачку видео? Ведь в интернете полно сервисов по скачке с youtube и новых решений они не придумывают, для защиты файлов от скачивания.

aleb 14 авг 2008 в 20:51

могу ошибаться, но думаю потому, что у каждого видео по идее есть владелец, который разрешения на скачивание не давал. это же, теоретически, сервис хранения, а не распространения контента.

да и в чем смысл скачивания? намного удобнее хранить контент на сервере, если есть доступ к нему

Rexedead 14 авг 2008 в 21:05

rutube.ru тоже сервис хранения, но скачивание разрешено.
Согласен с вами про «намного удобнее хранить контент на сервере» (то что нравится кидать в favorites),
но бывает так, что слишком много видео надо пересмотреть, а под рукой не будет интернета в ближайшее время — удобней скачать и посмотреть локально(когда время есть), чем смотреть это все через несколько недель.

НЛО прилетело и опубликовало эту надпись здесь

Scala 14 авг 2008 в 20:59

kylecordes.com/2007/07/12/youtube-scalability/

googol 14 авг 2008 в 21:44

Мне кажется что статья несколько устарела. А именно — часть технологий была сменена на гугловские. Такие как GoogleWebServer, GFS (файловая система расчитанная на эксабайты + репликация), BigTable вместе MySQL. Ну а python остался (хотя может и на java медленно все мигрируется).

petejones83 14 авг 2008 в 21:23

Кстати, а почему именно хранится в трех копиях, а не преобразовывается из одного в другой run-time?
Это не критика, просто почему вы считаете, что именно так работает youtube?

rojer 14 авг 2008 в 21:53

потому что это самоубийство :)
перекодирование сильно нагружает проц, которого, во-первых, мало, а во-вторых в это время он жрёт гораздо больше чем крутящийся диск.

khim 15 авг 2008 в 04:22

Три копии хранятся не из соображений преобразования из одного формата в другой (так может и 10 копий хранится), а из соображений конечности времени жизни винтов.

LDEV 14 авг 2008 в 21:44

Теперь понятно, что в Дата Центре Гугла места гораздо больше, чем 7 петабайт. Офигеть.

khim 15 авг 2008 в 04:23

В одном датацентре — скорее всего примерно как раз столько. Ну может 10PB. Во всех — да, там явно за 100PB уходит…

Ueasley 14 авг 2008 в 22:01

beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/

а это что?

HeadWithoutBrains 14 авг 2008 в 22:06

Это оригинал перевода.

Ueasley 15 авг 2008 в 12:16

Извиняюсь, почему-то показалось что вы написали «прошу сильно не пинать, это мой первый взгляд»

Удачи :-)

Suomi 14 авг 2008 в 22:11

Юзеры bit-hdtv.com уже скачали 13.51 PB.

vitaminych 14 авг 2008 в 22:37

Ну учитывая, что серверов у гугла сотня-другая тысяч, а сегодня винты есть уже по 1 Тб (и в гугле предпочитают брать диски максимального объема), то петабайты кажутся не такой уж и большой цифрой. Это пара сотен серверов… всего-то. Разумеется, если на каждом сервере висит по несколько винтов, допустим, по 8.

НЛО прилетело и опубликовало эту надпись здесь

combax 15 авг 2008 в 09:40

а еще у меня как то поменялись плюсы и минусы местами на время(
жмешь плюс, а ставится минус, и наоборот %)

Stormix 14 авг 2008 в 23:27

Кстати, интересно, почему Вы думаете, что там MySQL? Это же сервер для «маленьких» баз…
P. S. Просто заинтересовало :)

khim 15 авг 2008 в 04:27

Потому что об этом явно было написано в нескольких интервью. Собственно вариантов ровно два: Youtube всё ещё использует MySQL (как и Хабрахабр, кстати), либо ужё перебрался на Bigtable…

P.S. А насчёт маленьких баз вы неправы: как раз для больших баз MySQL очень даже хорошо подходит. Он плохо подходит для баз со сложной структурой — но это другие звери совсем…

mentalic 14 мар 2011 в 01:28

Раньше был MySQL, а сейчас используются распределенные базы данных.
Читайте о ВСЕЙ архитектуре Youtube на русском языке:
www.insight-it.ru/masshtabiruemost/arkhitektura-youtube/
А английский оригинал вот здесь: highscalability.com/youtube-architecture

AmirL 14 авг 2008 в 23:29

Интересно — а коллективный разум смог бы здесь угадать число роликов? :)

ren 15 авг 2008 в 08:40

И посчитать средний размер заодно.

menvil 14 авг 2008 в 23:51

Магия больших чисел всегда нравилась людям

NemeZZiZZ 15 авг 2008 в 02:07

Я читал — и меня коробило: ЧИСЛА!
Числа, а не цифры. Цифры — это знаки, которым представляются числа.

Fatal1ty 15 авг 2008 в 04:34

Спасибо за большие цифры! :)

В статье помоему ошибочка есть, «d = средний размер оригинальный видео роликов, закачанных на Youtube.». Поправьте пожалуйста ;)

ALiENZ 15 авг 2008 в 06:16

А с каких пор на ютуб ограничение в 10 минут на видео? Я видел много роликов по 15-20 минут…

Sathram 15 авг 2008 в 09:11

www.youtube.com/my_videos_upload

«Your video is limited to 10 minutes and 1024 MB.»

ALiENZ 16 авг 2008 в 05:55

ru.youtube.com/watch? v=Bsjd7fVJQy0
22 минуты

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий