Именно. Когда мне надо наколбасить ETL на гошке, даже claude 3.5 справляется. Офигенно ускоряет разработку. Когда надо простейший фронтенд сделать по-быстрому - тоже отлично.
Когда мне надо пояснить особенности Unreal Engine - все, gpt-o1 генерирует ерунду. Ну не обучали модель на редких и сложных задачах. А движок целиком ей не скормишь. Даже класс один на 800 строк не скормишь.
Выражаю свои сомнения, что на BQ это будет быстрее\удобнее клика. Особенно для объединения\пересечения ключей.
Надо же, один в один. Если вы из стриминговых сервисов, у нас с вами могут быть похожие задачи. Согласна, что удобнее такие опереции делать в кликхаусе. В кликхаусе это делалось чуть ли не одной строчкой в запросе "объединить словари, отсортировать по значению определенного ключа, убрать дубли, получить разницу между определенными элементами соседних словарей, сложить эти разницы".
Но в BQ дешевле, и даже аналитик может понять, что происходит. А значит, где-то радуется один программист и идет кодить, а не быть дата-инженером на полставке :)
Только задумайтесь, зачем 5 аналитиков, если есть олап и можно оставить одного аналитика? П-рофит.
Офигенно будет. У меня прям похожая etl есть с расчетами по данным из больших структур внутри одного поля, которая реализована сначала была на кликхаусе, а потом на BQ. Это тоже колоночная субд, только индексация и ключи - все скрыто от пользователя. Пользователю даются разве что настройка партиций, и то лимитировано.
80tb(это довольно много...без сжатия же? Или это объем чтения в BQ? )
чтение в день. Сколько, чего и где лежит в BQ - неизвестно, облако ж.
Но 2.5mln - это запросы пользователей, а не аналитиков?
думаю, что 99% - это перекидывание данных в рамках etl, юзеры ну 50к день наверное. Кликхаус кстати подходит для показа данных большому числу пользователей, ЯМетрика на нем же была (или и есть).
Но главное - пара запросов по неиндексированным колонкам - может скушать весь бюджет BQ или нет? Мы за раз прочитаем 1TB и заплатим 6$?
индексации, доступной юзеру, нет. А без партиционирования и без ограничений - даже петабайт можно получить на 1 запросе, который не предусматривает группировку. Это прям главная боль таких решений. Будет очень быстро и потом очень дорого. Поэтому и dbt используется, которая строит агрегированные модели и проверяет данные на консистентность тестами, чтобы аналитики или юзеры брали данные уже из небольших таблиц.
А мотивация - простая, если запрос выполнялся 50 минут, а стал 2 минуты. Это очень мотивирует)
так у вас постгря была, еще бы =) Добро пожаловать в мир колоночных субд. group by - это больше не больно)
А хз, может и мало, небольшая компания же. Смотрю статистику, 80TB daily и 2.5mln requests daily. Для операторов связи или маркетплейсов - фигня. Сырые ивенты и вовсе в BT, чтоб не спамить в BQ.
Самое удобное - интеграция с любой сторонней тулзой, простая миграция данных со всех платформ. Низкий порог вхожения. Надо понимать про партишены для своих таблиц и как считается биллинг запросов. С внедрением dbt построением моделей могут заниматься сами дата аналитики под присмотром 1 дата инженера из числа опытных аналитиков, который больше думает о качестве данных, чем о том как эти данные уложить, чтоб ничего не сломалось и было консистентно.
C кликхаусом нужен был контроль девопса и хотя бы 1 data engineer (2, если он хочет в отпуск), который шарит в особенностях движков, знает, что в какой версии поменялось, и делает модели. Просто дать разрабу или аналитику задачу не получалось, слишком большой порог вхождения, а мотивации обучаться ноль, потому что знание кликхауса на американском рынке не продашь. В итоге, если сложить зарплаты инженеров и биллинг за сервера, получалось дороже, чем гугловые решения.
У гугла одна беда - биллинг и система квот такая, что без бутылки не разберешься.
Это рай только для тех разработчиков, которым в кайф в этом разбираться. У нас кликхаус заменили на BigQuery просто потому что никто не хотел вникать, как там у кликхауса все устроено. Если есть команда увлеченных дата инженеров, тогда проще.
Я далеко живу уже, к сожалению. А как средство называется, может, я его в Эмиратах смогу заказать?
Рюкзак нравится, я долго искала из настоящей кожи именно такой небольшой и аккуратный, чтоб можно было много лет носить. Удачи вам в этом нелегком бизнесе!
О, да у меня ж ваш рюкзачок живет несколько лет. Чего только на Хабре не увидишь.
Говорили, будет остаточное окрашивание полгода-год. Но она стабильно красит все мои вещи в коралловый цвет несколько лет подряд, не сдается. Средством для кожи обрабатывала, не помогает. Но рюкзачок красивый, кожаный, и внутрянка удобная, из мягкой замши.
Как говорится, ту хум хау. 4к$ в год на семью за доступ к Kings Hospital && American Hospital. По сравнению со Штатами совсем недорого. А насчет пенсий, ну кто ж в ОАЭ жить едет, едут деньги делать.
Там не указано, скопом считали или зарплаты ниже в той же категории. Если женщин-мидлов в выборке больше, чем лидов, и поэтому в среднем по больнице зп ниже, то это не то же самое, что у женщин-мидлов зп на 25% ниже чем у мужчин-мидлов.
Есть на это алгоритмы синхронизации. Для постгри из головы помню реализацию через WAL и через поле xmin. C одним xmin не узнать, удалены ли строки, это правда.
Если репликацию делали по логу постгри, то там можно в логе детектировать факт удаления и в варехаузе помечать их удаленными.
Не вижу в списке действий "как не допустить подобного" еще парочки:
настроить мониторинг работоспособности платформы. Алерт "пользователи жалуются и я пошел в мониторинг" - это фаил.
все подобные изменения структуры проверять с HypoPG
задуматься, не стоит ли при таких объемах данных не смешивать прод и аналитическое хранилице, и завести warehouse. Аналитики и дальше будут предлагать "улучшить" структуру данных, как удобно им. А архитектура должна быть удобной для массовой обработки запросов от прода, а не от аналитика.
Да даже если не понравился по причине "похож на бывшего", написать юридически-корректную причину не составит труда. Вот нафига мне идти в команду, где я лиду не нравлюсь по любой причине? Каждый день работать и видеть как он/она зубами скрипит? Они не единственные на белом свете и я тоже, найдем подходящие команды.
Смотря какой уровень нужен в итоге. У меня лет 8 назад ielts academic был на 7.5, я читаю современные книги без проблем, смотрю нетфликс без субтитров, живу в англоязычной стране и работаю в англоязычной компании. Что совершенно не мешает мне до сих пор безграмотно говорить. Потому что говорение - отдельный навык.
тем, кто контент производит, он нужен. Он заточен под производство контента, быстрое редактирование и публикацию на платформах. Для листания соцсеточек он необязателен совершенно.
так и рынок контрактов поменялся. Раньше можно было на Штаты работать из РФ, а теперь они "недружественная" страна и изнутри работать сложно. Многие разъехались и за хлеб с маслом работать уже не будут, жизнь в эмиграции недешевая.
не очень они сушат. Вся шерсть и прочее оседает на резиновой прокладке, а в сушильной машине под это есть специальный фильтр. У меня оба варианта были, отдельная сушилка все-таки получше в смысле качества сушки.
Да там опять "ученый изнасиловал журналиста", вот в статье, на которую ссылается cnbc:
Home Is Where the Financial Stability Is — or Isn’t Who consumers live with is key to determining their financial stability, according to PYMNTS’ latest study of 4,602 U.S. consumers, “New Reality Check: The Paycheck-to-Paycheck Report: Household Finances Deep Dive Edition,” a collaboration with LendingClub, which found that those in households with young children are 12% more likely to be living paycheck to paycheck.
100k$ на семью ну немного по меркам US. А на хабре это подается как "более половины американцев, зарабатывающих более $100 000 в год, живут от зарплаты до зарплаты", будто речь про одного.
Но спросите абсолютно любую девушку программиста, сталкивается ли она с предвзятостью и дискриминацией,
Вот реально единственный раз, когда я могу уверенно сказать, что меня дискриминировали по полу, это в универе препод-женщина уверяла меня, что я сама не могла написать лабу. Мне наверняка парень помог. Она же потом кому-то жаловалась, что ее не повышают, потому что она женщина. Ну не может же быть проблемой ее устаревший материал на лекциях и манера преподавания "если студент не понял, надо повторить то же самое, но громче", правда?
И все на этом. А мы примерно с вами ровесники. В остальном всем было ну максимум удивительно. Вот с эйджизмом я больше сталкивалась лет до 30, заказчики желали видеть на своем проекте более матерого спеца. Но и это прошло с возрастом :)
Если человек чувствует, что его дискриминируют, его чаще всего действительно дискриминируют.
Нет, это не так работает. "Не верь всему, что думаешь", как говорится. Каждая первая книжка по селф хелпу вам расскажет, что у нас в голове полно штампов и отголосков предыдущего опыта, которые надо постоянно верифицировать об реальность.
Потому что вы так и не назвали критериев "хорошего" для вас программиста. А в идеале бы еще с пояснением, почему список из этих критериев делает программиста в ваших глазах "хорошим". В каждой компании будет свой список хорошести. Мне надо, чтоб сеньор-разраб умел декомпозировать задачи, доводить задачи до конца, видел, где стоит срезать углы, писал расширяемый код там, где это нужно, и мог наговнить там, где нужно именно наложить кучку, но быстро. Лид дев умеет все это сам и может научить других. Ни от пола, ни от национальности, ни от возраста эти навыки не зависят. Но в других компаниях буду другие критерии. Отсюда вопрос, "хороший" - это таки какой?
Именно. Когда мне надо наколбасить ETL на гошке, даже claude 3.5 справляется. Офигенно ускоряет разработку. Когда надо простейший фронтенд сделать по-быстрому - тоже отлично.
Когда мне надо пояснить особенности Unreal Engine - все, gpt-o1 генерирует ерунду. Ну не обучали модель на редких и сложных задачах. А движок целиком ей не скормишь. Даже класс один на 800 строк не скормишь.
У меня был кликхаус 2 года, но так как в нем никто больше не хотел разбираться, а у меня других обязанностей хватало, ушли на BQ.
Надо же, один в один. Если вы из стриминговых сервисов, у нас с вами могут быть похожие задачи. Согласна, что удобнее такие опереции делать в кликхаусе. В кликхаусе это делалось чуть ли не одной строчкой в запросе "объединить словари, отсортировать по значению определенного ключа, убрать дубли, получить разницу между определенными элементами соседних словарей, сложить эти разницы".
Но в BQ дешевле, и даже аналитик может понять, что происходит. А значит, где-то радуется один программист и идет кодить, а не быть дата-инженером на полставке :)
а сколько дата-инженеров? ;)
Офигенно будет. У меня прям похожая etl есть с расчетами по данным из больших структур внутри одного поля, которая реализована сначала была на кликхаусе, а потом на BQ. Это тоже колоночная субд, только индексация и ключи - все скрыто от пользователя. Пользователю даются разве что настройка партиций, и то лимитировано.
чтение в день. Сколько, чего и где лежит в BQ - неизвестно, облако ж.
думаю, что 99% - это перекидывание данных в рамках etl, юзеры ну 50к день наверное. Кликхаус кстати подходит для показа данных большому числу пользователей, ЯМетрика на нем же была (или и есть).
индексации, доступной юзеру, нет. А без партиционирования и без ограничений - даже петабайт можно получить на 1 запросе, который не предусматривает группировку. Это прям главная боль таких решений. Будет очень быстро и потом очень дорого. Поэтому и dbt используется, которая строит агрегированные модели и проверяет данные на консистентность тестами, чтобы аналитики или юзеры брали данные уже из небольших таблиц.
так у вас постгря была, еще бы =) Добро пожаловать в мир колоночных субд. group by - это больше не больно)
А хз, может и мало, небольшая компания же. Смотрю статистику, 80TB daily и 2.5mln requests daily. Для операторов связи или маркетплейсов - фигня. Сырые ивенты и вовсе в BT, чтоб не спамить в BQ.
Самое удобное - интеграция с любой сторонней тулзой, простая миграция данных со всех платформ. Низкий порог вхожения. Надо понимать про партишены для своих таблиц и как считается биллинг запросов. С внедрением dbt построением моделей могут заниматься сами дата аналитики под присмотром 1 дата инженера из числа опытных аналитиков, который больше думает о качестве данных, чем о том как эти данные уложить, чтоб ничего не сломалось и было консистентно.
C кликхаусом нужен был контроль девопса и хотя бы 1 data engineer (2, если он хочет в отпуск), который шарит в особенностях движков, знает, что в какой версии поменялось, и делает модели. Просто дать разрабу или аналитику задачу не получалось, слишком большой порог вхождения, а мотивации обучаться ноль, потому что знание кликхауса на американском рынке не продашь. В итоге, если сложить зарплаты инженеров и биллинг за сервера, получалось дороже, чем гугловые решения.
У гугла одна беда - биллинг и система квот такая, что без бутылки не разберешься.
Это рай только для тех разработчиков, которым в кайф в этом разбираться. У нас кликхаус заменили на BigQuery просто потому что никто не хотел вникать, как там у кликхауса все устроено. Если есть команда увлеченных дата инженеров, тогда проще.
Я далеко живу уже, к сожалению. А как средство называется, может, я его в Эмиратах смогу заказать?
Рюкзак нравится, я долго искала из настоящей кожи именно такой небольшой и аккуратный, чтоб можно было много лет носить. Удачи вам в этом нелегком бизнесе!
О, да у меня ж ваш рюкзачок живет несколько лет. Чего только на Хабре не увидишь.
Говорили, будет остаточное окрашивание полгода-год. Но она стабильно красит все мои вещи в коралловый цвет несколько лет подряд, не сдается. Средством для кожи обрабатывала, не помогает. Но рюкзачок красивый, кожаный, и внутрянка удобная, из мягкой замши.
Как говорится, ту хум хау. 4к$ в год на семью за доступ к Kings Hospital && American Hospital. По сравнению со Штатами совсем недорого. А насчет пенсий, ну кто ж в ОАЭ жить едет, едут деньги делать.
Разве? Corporate tax весьма скромный, 0% на profit до ~$100k, 9% на то, что выше. А для некоторых фризон попроще.
Там не указано, скопом считали или зарплаты ниже в той же категории. Если женщин-мидлов в выборке больше, чем лидов, и поэтому в среднем по больнице зп ниже, то это не то же самое, что у женщин-мидлов зп на 25% ниже чем у мужчин-мидлов.
Есть на это алгоритмы синхронизации. Для постгри из головы помню реализацию через WAL и через поле xmin. C одним xmin не узнать, удалены ли строки, это правда.
Если репликацию делали по логу постгри, то там можно в логе детектировать факт удаления и в варехаузе помечать их удаленными.
Не вижу в списке действий "как не допустить подобного" еще парочки:
настроить мониторинг работоспособности платформы. Алерт "пользователи жалуются и я пошел в мониторинг" - это фаил.
все подобные изменения структуры проверять с HypoPG
задуматься, не стоит ли при таких объемах данных не смешивать прод и аналитическое хранилице, и завести warehouse. Аналитики и дальше будут предлагать "улучшить" структуру данных, как удобно им. А архитектура должна быть удобной для массовой обработки запросов от прода, а не от аналитика.
Да даже если не понравился по причине "похож на бывшего", написать юридически-корректную причину не составит труда. Вот нафига мне идти в команду, где я лиду не нравлюсь по любой причине? Каждый день работать и видеть как он/она зубами скрипит? Они не единственные на белом свете и я тоже, найдем подходящие команды.
Смотря какой уровень нужен в итоге. У меня лет 8 назад ielts academic был на 7.5, я читаю современные книги без проблем, смотрю нетфликс без субтитров, живу в англоязычной стране и работаю в англоязычной компании. Что совершенно не мешает мне до сих пор безграмотно говорить. Потому что говорение - отдельный навык.
тем, кто контент производит, он нужен. Он заточен под производство контента, быстрое редактирование и публикацию на платформах. Для листания соцсеточек он необязателен совершенно.
так и рынок контрактов поменялся. Раньше можно было на Штаты работать из РФ, а теперь они "недружественная" страна и изнутри работать сложно. Многие разъехались и за хлеб с маслом работать уже не будут, жизнь в эмиграции недешевая.
не очень они сушат. Вся шерсть и прочее оседает на резиновой прокладке, а в сушильной машине под это есть специальный фильтр. У меня оба варианта были, отдельная сушилка все-таки получше в смысле качества сушки.
Да там опять "ученый изнасиловал журналиста", вот в статье, на которую ссылается cnbc:
Home Is Where the Financial Stability Is — or Isn’t
Who consumers live with is key to determining their financial stability, according to PYMNTS’ latest study of 4,602 U.S. consumers, “New Reality Check: The Paycheck-to-Paycheck Report: Household Finances Deep Dive Edition,” a collaboration with LendingClub, which found that those in households with young children are 12% more likely to be living paycheck to paycheck.
100k$ на семью ну немного по меркам US. А на хабре это подается как "более половины американцев, зарабатывающих более $100 000 в год, живут от зарплаты до зарплаты", будто речь про одного.
Вот реально единственный раз, когда я могу уверенно сказать, что меня дискриминировали по полу, это в универе препод-женщина уверяла меня, что я сама не могла написать лабу. Мне наверняка парень помог. Она же потом кому-то жаловалась, что ее не повышают, потому что она женщина. Ну не может же быть проблемой ее устаревший материал на лекциях и манера преподавания "если студент не понял, надо повторить то же самое, но громче", правда?
И все на этом. А мы примерно с вами ровесники. В остальном всем было ну максимум удивительно. Вот с эйджизмом я больше сталкивалась лет до 30, заказчики желали видеть на своем проекте более матерого спеца. Но и это прошло с возрастом :)
Нет, это не так работает. "Не верь всему, что думаешь", как говорится. Каждая первая книжка по селф хелпу вам расскажет, что у нас в голове полно штампов и отголосков предыдущего опыта, которые надо постоянно верифицировать об реальность.
Потому что вы так и не назвали критериев "хорошего" для вас программиста. А в идеале бы еще с пояснением, почему список из этих критериев делает программиста в ваших глазах "хорошим".
В каждой компании будет свой список хорошести.
Мне надо, чтоб сеньор-разраб умел декомпозировать задачи, доводить задачи до конца, видел, где стоит срезать углы, писал расширяемый код там, где это нужно, и мог наговнить там, где нужно именно наложить кучку, но быстро. Лид дев умеет все это сам и может научить других.
Ни от пола, ни от национальности, ни от возраста эти навыки не зависят.
Но в других компаниях буду другие критерии. Отсюда вопрос, "хороший" - это таки какой?