Как стать автором
Обновить

Комментарии 11

Показал коллегам по проекту, поугорали над текстом вместе.

Spark непросто осилить, и ещё сложнее научиться правильно его готовить. Нам (один малоизвестный GIS-стартап) для построения процесса обработки от сырых данных до конечного результата потребовалось полтора года. Добились ускорения на три порядка относительно первоначальной наивной реализации (в несколько тысяч раз, не шучу), но всё ещё есть что улучшать в этом процессе.

Когда-нибудь я напишу об этом статью.
Интересно, но ведь 4.8Тб сжатых данных это относительно немного и вполне помешается на ssd диск за 600-700 евро. Не было бы правильнее взять один сервер (или даже обычный десктоп), sql или no-sql базу данных и залить нужные индексы просто в базу? Действительно ли тут есть смысл поднимать кластеры и все прочее? Нет ли тут попытки использовать инструменты BigData, когда данные еще не особо BigData?
Тут интереснее другое, статья подчеркивает разницу между состоянием российской и западной наукой. У нас бы никто не дал студенту пару тысяч долларов для тестирования, если бы он не доказал полною работоспособность решения.
Во-первых, он не студент в нашем понимании, правильнее переводить его как аспирант или даже кандидат наук. Просто на Западе всех аспирантов до получения докторской степени называют студентами, но это только название.

Во-вторых, надо учитывать уровень жизни, пара тысяч долларов у нас это может быть годовой зарплатой профессора, а у них профессор за неделю больше получает. Если переводить на уровень зарплат в США и РФ, пара тыс.$ у них это как тыс 4-5 рублей у нас. Получить аспиранту грант тыс на 10 рублей скорее всего не так уж сложно.

P.S. Я не спорю в РФ с наукой проблема, но это следствте слабой экономики.
Во-первых, он не студент в нашем понимании, правильнее переводить его как аспирант или даже кандидат наук. Просто на Западе всех аспирантов до получения докторской степени называют студентами, но это только название.

Я тоже аспирант, но мне научрук не даст потратить 150к рублей на поиграться с Амазоном. Правда у меня есть доступ на институтский кластер и там ноды помощнее чем бюджетные инстансы Амазона.

Во-вторых, надо учитывать уровень жизни, пара тысяч долларов у нас это может быть годовой зарплатой профессора, а у них профессор за неделю больше получает.

Я собственно и говорю, что вот она живая разница в финансировании науки.

Качество каждого такого решения имеет много измерений. Конкретно тут (особенно, если это университет):
1) дальнейшая применимость решения в другом университете/отделе. Надо лишь AWS аккаунт и запустить скрипт за 5 минут, или же искать железку и админа к ней?
2) университет вполне может иметь скидки/гранты на AWS (почему бы не подсадить студента на свой стек, чтобы он потом стал бесплатным евангелистом)
3) процесс закупки. Может быть, что процесс по трате денег на облако давно налажен, документы три года назад подписаны, и только жми кнопку, а собрать шайтан-машину за $2000 это аппрувить у декана, и потом кому-то материально отвечать, что ее ночью не унесут.
4) банально, если это обучение, то почему бы не поучиться бигдате на кошках?)
PS: если что, сам я скептик облаков, и всегда предпочту онпрем решение с использованием современного железа.

Да и тот-же parallel работает по сети, можно было готовить датасет прямо в сети лабы.
Согласен. Буквально на днях нужно было погрепать ~20Тб логов, два железных сервера были под рукой + zcat обернутый в parallel = за несколько часов все закончилось.
Хм, если партиций получилось слишком много, почему бы не попробовать бакеты? Оно как раз для этого и нужно, чтобы можно было находить нужный бакет по хешу, а число бакетов можно задать разумно-большим, чтобы файлы были не очень большие, но не настолько огромным, чтобы было меньше операций чтения.
image
Когда пробуешь с Билайна быстро вытянуть данные с сервера в сети mail.ru
Зарегистрируйтесь на Хабре, чтобы оставить комментарий