Комментарии 11
b = bit, B = byte — https://en.wikipedia.org/wiki/Byte
25 Tb — в восемь раз меньше, чем вы, наверное, имели в виду.
P.S. В статье везде "Тб". Почему тогда в заголовке "Tb"?
Spark непросто осилить, и ещё сложнее научиться правильно его готовить. Нам (один малоизвестный GIS-стартап) для построения процесса обработки от сырых данных до конечного результата потребовалось полтора года. Добились ускорения на три порядка относительно первоначальной наивной реализации (в несколько тысяч раз, не шучу), но всё ещё есть что улучшать в этом процессе.
Когда-нибудь я напишу об этом статью.
Во-вторых, надо учитывать уровень жизни, пара тысяч долларов у нас это может быть годовой зарплатой профессора, а у них профессор за неделю больше получает. Если переводить на уровень зарплат в США и РФ, пара тыс.$ у них это как тыс 4-5 рублей у нас. Получить аспиранту грант тыс на 10 рублей скорее всего не так уж сложно.
P.S. Я не спорю в РФ с наукой проблема, но это следствте слабой экономики.
Во-первых, он не студент в нашем понимании, правильнее переводить его как аспирант или даже кандидат наук. Просто на Западе всех аспирантов до получения докторской степени называют студентами, но это только название.
Я тоже аспирант, но мне научрук не даст потратить 150к рублей на поиграться с Амазоном. Правда у меня есть доступ на институтский кластер и там ноды помощнее чем бюджетные инстансы Амазона.
Во-вторых, надо учитывать уровень жизни, пара тысяч долларов у нас это может быть годовой зарплатой профессора, а у них профессор за неделю больше получает.
Я собственно и говорю, что вот она живая разница в финансировании науки.
Качество каждого такого решения имеет много измерений. Конкретно тут (особенно, если это университет):
1) дальнейшая применимость решения в другом университете/отделе. Надо лишь AWS аккаунт и запустить скрипт за 5 минут, или же искать железку и админа к ней?
2) университет вполне может иметь скидки/гранты на AWS (почему бы не подсадить студента на свой стек, чтобы он потом стал бесплатным евангелистом)
3) процесс закупки. Может быть, что процесс по трате денег на облако давно налажен, документы три года назад подписаны, и только жми кнопку, а собрать шайтан-машину за $2000 это аппрувить у декана, и потом кому-то материально отвечать, что ее ночью не унесут.
4) банально, если это обучение, то почему бы не поучиться бигдате на кошках?)
PS: если что, сам я скептик облаков, и всегда предпочту онпрем решение с использованием современного железа.
Когда пробуешь с Билайна быстро вытянуть данные с сервера в сети mail.ru
Парсим 25TB с помощью AWK и R