Pull to refresh

Comments 88

UFO just landed and posted this here
Полностью с вами согласен, но русский язык никогда не учил, и пишу возможно с некоторыми ошибками. Но на этих ошибках и учусь. Так что если не так, указывайте и с радостью поправлю.
Основная ошибка у Вас — мягкий знак в глаголах. Есть простое правило — в глаголе то же, что и в вопросе к нему:
Собаки умеют (что делать?) кусаться.
Длинный текст (что делает?) пишется долго.
Большое вам спасибо за мини урок русского языка. Поправил во всех местах + некоторые орфографические ошибки, которые пропустил при проверке.
UFO just landed and posted this here
вот ты щас реально не по теме высрал!
UFO just landed and posted this here
да ты ваще потс, асадил меня нириально!
UFO just landed and posted this here
предполагаемое, но примерное количество

подразумевается одно и то же. лучше оставить какое-нибудь одно слово
не пойму, у меня теги не работают или делаю что-то не правильно? цитату хотел сделать…
Могу ошибаться, но у вас может для тэгов кармы не хватать. Но в html вашего комментария только plain text.
да, точно. повысил кто-то, и все заработало.

по переводу — апрель пишется с маленькой, и запятая после не нужна :)
Союз итак (в значении вводного слова «следовательно») пишется слитно в отличие от сочетания и так (союз и наречие), например:

Итак, все кончено.
И так кончается каждый раз.

Союз чтобы пишется слитно в отличие от сочетания что бы (местоимение и частица), например:

Редактор встретился с автором и чтобы (для того чтобы) согласовать внесенные в рукопись изменения;
Важно, чтобы люди это понимали;


но:

Что бы такое еще придумать?;
Что бы ни случилось, я не оставлю его в беде;
Не имею понятия, что бы он сделал на моем месте.


На местоимение что падает логическое ударение, союз чтобы – безударный.
Интересно было бы еще прикинуть, на скольких HDD весь этот объем хранится :)
скорее всего они юзают харды по 750 гигов, так что посчитать не сложно
такие харды появились сравнительно недавно, так что, если вспомнить концеплию гугла про множество «cheap and dirty Linux boxes», то, скорее всего, 750 и 1000 стоят не более, чем в двух третях случаев.
Не забудьте ещё про то, что всё это хранится в трёх копиях, скорее всего. Но в любом случае по меркам Гугла это не бог весть какой объём: даже если в среднем на каждый комп приходится по 750GB, всего компов 500'000 и используется трёхкратное дублирование то получим 125PB. Это консервативная оценка: если в среднем на компе стоит на один винт, а два — будет уже 250PB. Но в любом случае выделить из них 5-10PB на Youtube и хранить там все ролики во всех видах — не бог весть какая проблема (всё-таки Youtube это одна из любимых цацек Гугла).

Другое дело что Youtube всё-таки долгое время жил отдельно: как данные хранились тогда и что сохранилось с тех времён — одному богу ведомо…

Так что расчёты выглядят правдоподобно. Вот если бы кто-то намерял не 140 миллионов роликов, а 140 миллиардов — можно было бы смело говорить «не верю»…
Вы когда-нибудь видели настоящий сервер? В 2U машину (где-то 9 см в высоту) влезает 12 дисков. В одной стойке около 15 машин (иногда больше). В одном ряду около 10 стоек. В одной комнате датацентра, как правило, 10..30 рядов. Скорее всего, все хранилище могло уместиться в одном помещении.
Мой пост не выражал мое сомнение в верности расчетов, а лишь говорил, что подсчет количества дисков — нетривиальная задача.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.
Вы когда-нибудь видели настоящий сервер?
Не только видел, но и собирал/ремонтировал/etc :-) Правда то было несколько лет назад.

В 2U машину (где-то 9 см в высоту) влезает 12 дисков.
Никто не будет ставить в двухвершковый сервер 12 дисков. Это элементарно не-вы-год-но. Либо 6 винтов в двухвершковый корпус, либо 14 — в трёхвершковый. Учитывая стремление Гугла к экономии я скорее поверю в первое — это дешевле (как это не удивительно).

Это когда вы арендуете место в каком-нибудь Мастерхосте вы платите за вершок и это заставляет вас набивать сервера «под завязку». Если вы строите датацентр (а то, что Гугл этим занимается хорошо известно), то вам дешевле сделать чуть больше помещение, но зато чуть слабее вентиляцию. Но это — так, к слову.

Кстати, знакомый программист из гугла говорил, что там данные реплицируются 5 раз.
Это зависит от многих причин. Если ваш файл может использоваться тысячами машин и 20 копий могут не лишними оказаться. Но думаю что типичное количество — всё же три копии, пять как-то уж очень много. Для надёжности пять копий тоже не нужны (думаете у Гугла нет денег сделать нормальный backup на ленту?).
Можно поподробнее про бэкап на ленту. Очень интересно, может ссылка какая?
Прочитал недавно в IT-журнале, что google хочет перейти с hdd на твердотельные винты, из-за их меньшего энергопотребления. Было написано, что обычные hdd в год потребляют столько энергии, сколько стоят сами))
Бойанчег =)
С месяц назад об этом в Радио-Т говорили. Вот только объемы у SSD по меньше, но зато жизненный цикл больше. А вот по поводу энергопотребления тут не все так однозначно, на данном этапе развития SSD, конечно.
При переходе на SSD (на текущий момент) носители будут стоить на порядок-два дороже, а при несколько большем энергопотреблении время, за которое они потребят энергии на свою же стомость, возрастет чуть менее, чем на порядок-два.
ИМХО, неправильно сравнивать стоймость харда и стоймость потребляемой им энергии.
Как SSD подешевле станут — так сразу и перейдут имхо.
UFO just landed and posted this here
GreenPower, по некоторым данным (не именно по Гуглу, а по Америке вообще)
Хорошие харды, я их и подразумевал, почему 750гб? потому что на данный момент у низ самое лучшее сообношение цены и качества.
скорее или самые дешевые или самые малопотребляемые, союз «и» здесь маловероятен (хотя все может быть)
И лучше даже не пытайтесь посчитать сколько все это стоит ))
Если я не ошибаюсь, то база youtube одна из самых больщшх в мире…
Ну я думаю если считать гугловский BigTable базой, то он будет больше. Хотя, возможно про него нельзя говорить как про базу.
Есть подозрение что база AdSense всё же больше. Но да — объёмы должны быть сравнимы.
Им бы еще дубликаты видео удалить. На 3/4 думаю место освободится.
Есть подозрение что это и так делается постоянно.
Поскольку полные дубликаты определить достаточно просто, то логично не хранить их.

Хотя, конечно, при таких масштабах любая простая задача превращается в сложную.
Ну полные дубликаты по SHA1 отлавливаются. Но там наверняка куча роликов вроде как одинаковых, но попавших на YouTube разными путями (скажем через Rutube и через ВКонтакте). Их отлавливать замучаешься… И потом — не вполне ясно насколько корректно это делать…
Эти ролики имеют другие параметры видео, соответственно это другие ролики. Но они тоже не будут дублироваться.
Полные дубликаты еще «ерунда» а вот видео которые на 1, 0,5 сек длиннее или короче оригиналов+ называются по другому — это действительно проблема
Я думаю, что роликов которые на несколько секунд длиннее или короче не так много. К тому же нельзя их подменять на другие без согласия пользователя. Но спросить у него можно только после закачки и очень ресурсоемкого поиска похожих видео.

А название имеет слабое отношение к проблеме дублирования :)
По-моему как раз наоборот, роликов на несколько секунд много: можно просто ввести название какой-нибудь известной песни и увидеть множество разных вариантов, причем многие из них как раз по времени и разнятся, а остальные по всяким внутренним рюшечкам.
>a = средний размер FLV видео, пусть будет 4 МБ, но наверно это далеко от истины. На Youtube много коротких видеороликов, и у Youtube есть ограничение на длину — 10 минут. Все же, это приблизительная цифра.

По результатам эксперимента №1, думаю, средний размер видео можно определить достаточно точно :-)
Кстати, идея не лишена смысла :)

Но тогда проще сразу определить размер базы :)
Кстати да!
Только вот, если определять сразу размер базы, будет достаточно тяжело отсекать выбросы.
Почему? Порядок цифр мы себе представляем.
Ну, если эксперимент проводить сейчас, то результат будет стремиться к уже озвученным числам.
А для чистоты эксперимента как раз не надо, чтобы участники представляли себе порядок велечин.
О таких обьемах и думать то страшно… понимаю еще винт на 1 тб, но такое…
Помню, был у меня первый компьютер. Ну, который уже настоящий, а не спектрум.
И был на нем диск 2 ГБ. Потом поменяли сразу на 20 — и были уверены, что уж столько-то места хватит очень на долго. Мог ли я тогда подумать о терабайте? :-)

Сейчас кстати только вот подумал. У меня сейчас в КПК карточка — те же 2 гига, что были в первом компьютере. При этом процессор в КПК мощнее, ОЗУ больше.

Кошмар!
и что? можете сейчас подумать о карточке для кпк на 1 терабайт?;)
Так я про то и говорю, что это вопрос времени.
Да ладно вам. ОпСоСы, например. Конечно база с записями «Вася позвонил Пете и проговорил 34 секунды» вызывает меньше восторгов, чем YouTube, но объёмы там вполне сравнимы — можете быть уверены…

Вообще всё это впечатляет только до тех пор пока ты примеряешь это всё на одного «себя любимого». Как только вспоминаешь что там многие миллионы пользователей… понимаешь что, в общем-то, это не так и много видеороликов…
в этой базе далеко не только такие записи :) в зависимости от оператора, там хранится аудиозапись ВСЕХ разговоров за последние полгода + список звонков за год или два, а также все смс
Мда… ужасающие цифры)
По переводу — поправьте «Гуловскими патчами»
Кстати, интересно, почему youtube не сделает прямые ссылки на скачку видео? Ведь в интернете полно сервисов по скачке с youtube и новых решений они не придумывают, для защиты файлов от скачивания.
могу ошибаться, но думаю потому, что у каждого видео по идее есть владелец, который разрешения на скачивание не давал. это же, теоретически, сервис хранения, а не распространения контента.

да и в чем смысл скачивания? намного удобнее хранить контент на сервере, если есть доступ к нему
rutube.ru тоже сервис хранения, но скачивание разрешено.
Согласен с вами про «намного удобнее хранить контент на сервере» (то что нравится кидать в favorites),
но бывает так, что слишком много видео надо пересмотреть, а под рукой не будет интернета в ближайшее время — удобней скачать и посмотреть локально(когда время есть), чем смотреть это все через несколько недель.
UFO just landed and posted this here
UFO just landed and posted this here
Мне кажется что статья несколько устарела. А именно — часть технологий была сменена на гугловские. Такие как GoogleWebServer, GFS (файловая система расчитанная на эксабайты + репликация), BigTable вместе MySQL. Ну а python остался (хотя может и на java медленно все мигрируется).
Кстати, а почему именно хранится в трех копиях, а не преобразовывается из одного в другой run-time?
Это не критика, просто почему вы считаете, что именно так работает youtube?
UFO just landed and posted this here
Три копии хранятся не из соображений преобразования из одного формата в другой (так может и 10 копий хранится), а из соображений конечности времени жизни винтов.
Теперь понятно, что в Дата Центре Гугла места гораздо больше, чем 7 петабайт. Офигеть.
В одном датацентре — скорее всего примерно как раз столько. Ну может 10PB. Во всех — да, там явно за 100PB уходит…
Извиняюсь, почему-то показалось что вы написали «прошу сильно не пинать, это мой первый взгляд»

Удачи :-)
Юзеры bit-hdtv.com уже скачали 13.51 PB.
Ну учитывая, что серверов у гугла сотня-другая тысяч, а сегодня винты есть уже по 1 Тб (и в гугле предпочитают брать диски максимального объема), то петабайты кажутся не такой уж и большой цифрой. Это пара сотен серверов… всего-то. Разумеется, если на каждом сервере висит по несколько винтов, допустим, по 8.
UFO just landed and posted this here
UFO just landed and posted this here
а еще у меня как то поменялись плюсы и минусы местами на время(
жмешь плюс, а ставится минус, и наоборот %)
Кстати, интересно, почему Вы думаете, что там MySQL? Это же сервер для «маленьких» баз…
P. S. Просто заинтересовало :)
Потому что об этом явно было написано в нескольких интервью. Собственно вариантов ровно два: Youtube всё ещё использует MySQL (как и Хабрахабр, кстати), либо ужё перебрался на Bigtable…

P.S. А насчёт маленьких баз вы неправы: как раз для больших баз MySQL очень даже хорошо подходит. Он плохо подходит для баз со сложной структурой — но это другие звери совсем…
Интересно — а коллективный разум смог бы здесь угадать число роликов? :)
И посчитать средний размер заодно.
Магия больших чисел всегда нравилась людям
Я читал — и меня коробило: ЧИСЛА!
Числа, а не цифры. Цифры — это знаки, которым представляются числа.
Спасибо за большие цифры! :)

В статье помоему ошибочка есть, «d = средний размер оригинальный видео роликов, закачанных на Youtube.». Поправьте пожалуйста ;)
А с каких пор на ютуб ограничение в 10 минут на видео? Я видел много роликов по 15-20 минут…
UFO just landed and posted this here
Sign up to leave a comment.

Articles