HeadWithoutBrains Aug 14 2008 at 22:55

Как узнать количество видеороликов на Youtube

2 min

52K

Cloud services*

Translation

+60

Comments 88

S0ul_Tr4d3r Aug 14 2008 at 23:01

занятная арифметика, спасибо

+11

UFO just landed and posted this here

HeadWithoutBrains Aug 14 2008 at 23:54

Полностью с вами согласен, но русский язык никогда не учил, и пишу возможно с некоторыми ошибками. Но на этих ошибках и учусь. Так что если не так, указывайте и с радостью поправлю.

stolen Aug 15 2008 at 00:01

Основная ошибка у Вас — мягкий знак в глаголах. Есть простое правило — в глаголе то же, что и в вопросе к нему:
Собаки умеют (что делать?) кусаться.
Длинный текст (что делает?) пишется долго.

HeadWithoutBrains Aug 15 2008 at 00:08

Большое вам спасибо за мини урок русского языка. Поправил во всех местах + некоторые орфографические ошибки, которые пропустил при проверке.

UFO just landed and posted this here

ekrn Aug 15 2008 at 01:11

вот ты щас реально не по теме высрал!

-12

UFO just landed and posted this here

ekrn Aug 15 2008 at 01:28

да ты ваще потс, асадил меня нириально!

-12

morozzo Aug 15 2008 at 03:33

*занавес*

UFO just landed and posted this here

aleb Aug 15 2008 at 00:15

предполагаемое, но примерное количество

подразумевается одно и то же. лучше оставить какое-нибудь одно слово

HeadWithoutBrains Aug 15 2008 at 00:18

Fixed :)

aleb Aug 15 2008 at 00:22

не пойму, у меня теги не работают или делаю что-то не правильно? цитату хотел сделать…

HeadWithoutBrains Aug 15 2008 at 00:24

Могу ошибаться, но у вас может для тэгов кармы не хватать. Но в html вашего комментария только plain text.

aleb Aug 15 2008 at 00:42

да, точно. повысил кто-то, и все заработало.

по переводу — апрель пишется с маленькой, и запятая после не нужна :)

mercurymd Aug 15 2008 at 02:39

ещё бросилось в глаза:

mercurymd Aug 15 2008 at 02:58

Союз итак (в значении вводного слова «следовательно») пишется слитно в отличие от сочетания и так (союз и наречие), например:

Итак, все кончено.
И так кончается каждый раз.

Союз чтобы пишется слитно в отличие от сочетания что бы (местоимение и частица), например:

Редактор встретился с автором и чтобы (для того чтобы) согласовать внесенные в рукопись изменения;
Важно, чтобы люди это понимали;

но:

Что бы такое еще придумать?;
Что бы ни случилось, я не оставлю его в беде;
Не имею понятия, что бы он сделал на моем месте.

На местоимение что падает логическое ударение, союз чтобы – безударный.

hitodessit Aug 14 2008 at 23:13

Интересно было бы еще прикинуть, на скольких HDD весь этот объем хранится :)

kabachok Aug 14 2008 at 23:19

скорее всего они юзают харды по 750 гигов, так что посчитать не сложно

stolen Aug 14 2008 at 23:58

такие харды появились сравнительно недавно, так что, если вспомнить концеплию гугла про множество «cheap and dirty Linux boxes», то, скорее всего, 750 и 1000 стоят не более, чем в двух третях случаев.

khim Aug 15 2008 at 00:15

Не забудьте ещё про то, что всё это хранится в трёх копиях, скорее всего. Но в любом случае по меркам Гугла это не бог весть какой объём: даже если в среднем на каждый комп приходится по 750GB, всего компов 500'000 и используется трёхкратное дублирование то получим 125PB. Это консервативная оценка: если в среднем на компе стоит на один винт, а два — будет уже 250PB. Но в любом случае выделить из них 5-10PB на Youtube и хранить там все ролики во всех видах — не бог весть какая проблема (всё-таки Youtube это одна из любимых цацек Гугла).

Другое дело что Youtube всё-таки долгое время жил отдельно: как данные хранились тогда и что сохранилось с тех времён — одному богу ведомо…

Так что расчёты выглядят правдоподобно. Вот если бы кто-то намерял не 140 миллионов роликов, а 140 миллиардов — можно было бы смело говорить «не верю»…

stolen Aug 15 2008 at 00:24

Вы когда-нибудь видели настоящий сервер? В 2U машину (где-то 9 см в высоту) влезает 12 дисков. В одной стойке около 15 машин (иногда больше). В одном ряду около 10 стоек. В одной комнате датацентра, как правило, 10..30 рядов. Скорее всего, все хранилище могло уместиться в одном помещении.
Мой пост не выражал мое сомнение в верности расчетов, а лишь говорил, что подсчет количества дисков — нетривиальная задача.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.

khim Aug 15 2008 at 00:34

Вы когда-нибудь видели настоящий сервер?

Не только видел, но и собирал/ремонтировал/etc :-) Правда то было несколько лет назад.

В 2U машину (где-то 9 см в высоту) влезает 12 дисков.

Никто не будет ставить в двухвершковый сервер 12 дисков. Это элементарно не-вы-год-но. Либо 6 винтов в двухвершковый корпус, либо 14 — в трёхвершковый. Учитывая стремление Гугла к экономии я скорее поверю в первое — это дешевле (как это не удивительно).

Это когда вы арендуете место в каком-нибудь Мастерхосте вы платите за вершок и это заставляет вас набивать сервера «под завязку». Если вы строите датацентр (а то, что Гугл этим занимается хорошо известно), то вам дешевле сделать чуть больше помещение, но зато чуть слабее вентиляцию. Но это — так, к слову.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.

Это зависит от многих причин. Если ваш файл может использоваться тысячами машин и 20 копий могут не лишними оказаться. Но думаю что типичное количество — всё же три копии, пять как-то уж очень много. Для надёжности пять копий тоже не нужны (думаете у Гугла нет денег сделать нормальный backup на ленту?).

NickMitin Aug 15 2008 at 15:31

Можно поподробнее про бэкап на ленту. Очень интересно, может ссылка какая?

BlackFoks Aug 15 2008 at 07:13

Прочитал недавно в IT-журнале, что google хочет перейти с hdd на твердотельные винты, из-за их меньшего энергопотребления. Было написано, что обычные hdd в год потребляют столько энергии, сколько стоят сами))

cst Aug 15 2008 at 09:16

Бойанчег =)
С месяц назад об этом в Радио-Т говорили. Вот только объемы у SSD по меньше, но зато жизненный цикл больше. А вот по поводу энергопотребления тут не все так однозначно, на данном этапе развития SSD, конечно.

-2

stolen Aug 15 2008 at 09:32

При переходе на SSD (на текущий момент) носители будут стоить на порядок-два дороже, а при несколько большем энергопотреблении время, за которое они потребят энергии на свою же стомость, возрастет чуть менее, чем на порядок-два.
ИМХО, неправильно сравнивать стоймость харда и стоймость потребляемой им энергии.

kurokikaze Aug 15 2008 at 11:20

Как SSD подешевле станут — так сразу и перейдут имхо.

UFO just landed and posted this here

stolen Aug 15 2008 at 09:33

GreenPower, по некоторым данным (не именно по Гуглу, а по Америке вообще)

kabachok Aug 15 2008 at 10:03

Хорошие харды, я их и подразумевал, почему 750гб? потому что на данный момент у низ самое лучшее сообношение цены и качества.

senser Aug 16 2008 at 20:39

скорее или самые дешевые или самые малопотребляемые, союз «и» здесь маловероятен (хотя все может быть)

nooze Aug 14 2008 at 23:25

И лучше даже не пытайтесь посчитать сколько все это стоит ))

raptor Aug 15 2008 at 00:05

Если я не ошибаюсь, то база youtube одна из самых больщшх в мире…

HeadWithoutBrains Aug 15 2008 at 00:09

Ну я думаю если считать гугловский BigTable базой, то он будет больше. Хотя, возможно про него нельзя говорить как про базу.

khim Aug 15 2008 at 00:18

Есть подозрение что база AdSense всё же больше. Но да — объёмы должны быть сравнимы.

Rexedead Aug 15 2008 at 00:09

Им бы еще дубликаты видео удалить. На 3/4 думаю место освободится.

rold Aug 15 2008 at 00:37

Есть подозрение что это и так делается постоянно.
Поскольку полные дубликаты определить достаточно просто, то логично не хранить их.

Хотя, конечно, при таких масштабах любая простая задача превращается в сложную.

khim Aug 15 2008 at 00:40

Ну полные дубликаты по SHA1 отлавливаются. Но там наверняка куча роликов вроде как одинаковых, но попавших на YouTube разными путями (скажем через Rutube и через ВКонтакте). Их отлавливать замучаешься… И потом — не вполне ясно насколько корректно это делать…

rold Aug 15 2008 at 05:11

Эти ролики имеют другие параметры видео, соответственно это другие ролики. Но они тоже не будут дублироваться.

Rexedead Aug 15 2008 at 00:41

Полные дубликаты еще «ерунда» а вот видео которые на 1, 0,5 сек длиннее или короче оригиналов+ называются по другому — это действительно проблема

rold Aug 15 2008 at 05:21

Я думаю, что роликов которые на несколько секунд длиннее или короче не так много. К тому же нельзя их подменять на другие без согласия пользователя. Но спросить у него можно только после закачки и очень ресурсоемкого поиска похожих видео.

А название имеет слабое отношение к проблеме дублирования :)

MonkAlbino Aug 15 2008 at 08:01

По-моему как раз наоборот, роликов на несколько секунд много: можно просто ввести название какой-нибудь известной песни и увидеть множество разных вариантов, причем многие из них как раз по времени и разнятся, а остальные по всяким внутренним рюшечкам.

maq Aug 15 2008 at 00:17

>a = средний размер FLV видео, пусть будет 4 МБ, но наверно это далеко от истины. На Youtube много коротких видеороликов, и у Youtube есть ограничение на длину — 10 минут. Все же, это приблизительная цифра.

По результатам эксперимента №1, думаю, средний размер видео можно определить достаточно точно :-)

kurokikaze Aug 15 2008 at 11:23

Кстати, идея не лишена смысла :)

Но тогда проще сразу определить размер базы :)

maq Aug 15 2008 at 11:30

Кстати да!
Только вот, если определять сразу размер базы, будет достаточно тяжело отсекать выбросы.

kurokikaze Aug 15 2008 at 11:31

Почему? Порядок цифр мы себе представляем.

maq Aug 15 2008 at 11:35

Ну, если эксперимент проводить сейчас, то результат будет стремиться к уже озвученным числам.
А для чистоты эксперимента как раз не надо, чтобы участники представляли себе порядок велечин.

TimTim Aug 15 2008 at 00:17

О таких обьемах и думать то страшно… понимаю еще винт на 1 тб, но такое…

maq Aug 15 2008 at 00:21

Помню, был у меня первый компьютер. Ну, который уже настоящий, а не спектрум.
И был на нем диск 2 ГБ. Потом поменяли сразу на 20 — и были уверены, что уж столько-то места хватит очень на долго. Мог ли я тогда подумать о терабайте? :-)

Сейчас кстати только вот подумал. У меня сейчас в КПК карточка — те же 2 гига, что были в первом компьютере. При этом процессор в КПК мощнее, ОЗУ больше.

Кошмар!

combax Aug 15 2008 at 13:34

и что? можете сейчас подумать о карточке для кпк на 1 терабайт?;)

maq Aug 15 2008 at 15:09

Так я про то и говорю, что это вопрос времени.

khim Aug 15 2008 at 00:23

Да ладно вам. ОпСоСы, например. Конечно база с записями «Вася позвонил Пете и проговорил 34 секунды» вызывает меньше восторгов, чем YouTube, но объёмы там вполне сравнимы — можете быть уверены…

Вообще всё это впечатляет только до тех пор пока ты примеряешь это всё на одного «себя любимого». Как только вспоминаешь что там многие миллионы пользователей… понимаешь что, в общем-то, это не так и много видеороликов…

NULLov Aug 18 2008 at 01:19

в этой базе далеко не только такие записи :) в зависимости от оператора, там хранится аудиозапись ВСЕХ разговоров за последние полгода + список звонков за год или два, а также все смс

Requilence Aug 15 2008 at 00:26

Мда… ужасающие цифры)
По переводу — поправьте «Гуловскими патчами»

Rexedead Aug 15 2008 at 00:46

Кстати, интересно, почему youtube не сделает прямые ссылки на скачку видео? Ведь в интернете полно сервисов по скачке с youtube и новых решений они не придумывают, для защиты файлов от скачивания.

aleb Aug 15 2008 at 00:51

могу ошибаться, но думаю потому, что у каждого видео по идее есть владелец, который разрешения на скачивание не давал. это же, теоретически, сервис хранения, а не распространения контента.

да и в чем смысл скачивания? намного удобнее хранить контент на сервере, если есть доступ к нему

Rexedead Aug 15 2008 at 01:05

rutube.ru тоже сервис хранения, но скачивание разрешено.
Согласен с вами про «намного удобнее хранить контент на сервере» (то что нравится кидать в favorites),
но бывает так, что слишком много видео надо пересмотреть, а под рукой не будет интернета в ближайшее время — удобней скачать и посмотреть локально(когда время есть), чем смотреть это все через несколько недель.

UFO just landed and posted this here

Scala Aug 15 2008 at 00:59

kylecordes.com/2007/07/12/youtube-scalability/

googol Aug 15 2008 at 01:44

Мне кажется что статья несколько устарела. А именно — часть технологий была сменена на гугловские. Такие как GoogleWebServer, GFS (файловая система расчитанная на эксабайты + репликация), BigTable вместе MySQL. Ну а python остался (хотя может и на java медленно все мигрируется).

petejones83 Aug 15 2008 at 01:23

Кстати, а почему именно хранится в трех копиях, а не преобразовывается из одного в другой run-time?
Это не критика, просто почему вы считаете, что именно так работает youtube?

UFO just landed and posted this here

khim Aug 15 2008 at 08:22

Три копии хранятся не из соображений преобразования из одного формата в другой (так может и 10 копий хранится), а из соображений конечности времени жизни винтов.

LDEV Aug 15 2008 at 01:44

Теперь понятно, что в Дата Центре Гугла места гораздо больше, чем 7 петабайт. Офигеть.

khim Aug 15 2008 at 08:23

В одном датацентре — скорее всего примерно как раз столько. Ну может 10PB. Во всех — да, там явно за 100PB уходит…

Ueasley Aug 15 2008 at 02:01

beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/

а это что?

HeadWithoutBrains Aug 15 2008 at 02:06

Это оригинал перевода.

Ueasley Aug 15 2008 at 16:16

Извиняюсь, почему-то показалось что вы написали «прошу сильно не пинать, это мой первый взгляд»

Удачи :-)

Suomi Aug 15 2008 at 02:11

Юзеры bit-hdtv.com уже скачали 13.51 PB.

-2

vitaminych Aug 15 2008 at 02:37

Ну учитывая, что серверов у гугла сотня-другая тысяч, а сегодня винты есть уже по 1 Тб (и в гугле предпочитают брать диски максимального объема), то петабайты кажутся не такой уж и большой цифрой. Это пара сотен серверов… всего-то. Разумеется, если на каждом сервере висит по несколько винтов, допустим, по 8.

-2

UFO just landed and posted this here

combax Aug 15 2008 at 13:40

а еще у меня как то поменялись плюсы и минусы местами на время(
жмешь плюс, а ставится минус, и наоборот %)

Stormix Aug 15 2008 at 03:27

Кстати, интересно, почему Вы думаете, что там MySQL? Это же сервер для «маленьких» баз…
P. S. Просто заинтересовало :)

khim Aug 15 2008 at 08:27

Потому что об этом явно было написано в нескольких интервью. Собственно вариантов ровно два: Youtube всё ещё использует MySQL (как и Хабрахабр, кстати), либо ужё перебрался на Bigtable…

P.S. А насчёт маленьких баз вы неправы: как раз для больших баз MySQL очень даже хорошо подходит. Он плохо подходит для баз со сложной структурой — но это другие звери совсем…

mentalic Mar 14 2011 at 04:28

Раньше был MySQL, а сейчас используются распределенные базы данных.
Читайте о ВСЕЙ архитектуре Youtube на русском языке:
www.insight-it.ru/masshtabiruemost/arkhitektura-youtube/
А английский оригинал вот здесь: highscalability.com/youtube-architecture

AmirL Aug 15 2008 at 03:29

Интересно — а коллективный разум смог бы здесь угадать число роликов? :)

ren Aug 15 2008 at 12:40

И посчитать средний размер заодно.

menvil Aug 15 2008 at 03:51

Магия больших чисел всегда нравилась людям

NemeZZiZZ Aug 15 2008 at 06:07

Я читал — и меня коробило: ЧИСЛА!
Числа, а не цифры. Цифры — это знаки, которым представляются числа.

Fatal1ty Aug 15 2008 at 08:34

Спасибо за большие цифры! :)

В статье помоему ошибочка есть, «d = средний размер оригинальный видео роликов, закачанных на Youtube.». Поправьте пожалуйста ;)

ALiENZ Aug 15 2008 at 10:16

А с каких пор на ютуб ограничение в 10 минут на видео? Я видел много роликов по 15-20 минут…

Sathram Aug 15 2008 at 13:11

www.youtube.com/my_videos_upload

«Your video is limited to 10 minutes and 1024 MB.»

ALiENZ Aug 16 2008 at 09:55

ru.youtube.com/watch? v=Bsjd7fVJQy0
22 минуты

UFO just landed and posted this here

Show the best of all time