Если обязать компании по производству ИИ-булщита за свой счёт вперёд строить электростанции, чтобы не отнимать электричество у жителей, задирая на него цены, и ещё обязать их разрабатывать охлаждение морской водой, а не пресной, чтоб опять же не тратить бесценный жизненно важный ресурс, который уже в дефиците - их капитализация упадёт примерно до уровня сбера (p/e = 4, вместо 300 у теслы), возможно ниже
Ты же понимаешь, что претрейн делается на ВСЕХ текстах, которые удалось качнуть с инэта? А большинство из них, особенно на английском языке, содержат антироссийскую позицию, по всем вопросам
А сейчас уже прикол в том, что все модели мира учатся на нейрослопе, в том числе и на текстах, которые сгенерировал гигачат, ну и на нашем с тобой споре)
Перейдём к "вашим долларам". Во-первых, с чего вы взяли, что они "ваши"? Вы вообще хоть чутка понимаете, как устроен сбер, на чём он зарабатывает, какое отношение имеет к государству? Думаете из бюджета кэш отгружают чтоб сбер видюхи купил?)
Если уж на то пошло - то это мои деньги, а не ваши. Потому что я акционер, хоть и миноритарный, а вы, судя по комментам, скорее всего нет. Сбер за счёт улучшенных относительно конкурентов технологий получает прибыль на высококонкурентном российском банковском рынке, половину из неё отправляет на дивиденды, как государству, так и мне, а на оставшуюся половину растёт и развивается. Если вам не нравится, что российские компании развиваются - то это уже ваши проблемы
Почему такие как вы продолжают гадать и писать, как всё плохо и как все врут и что ничего невозможно, не зная фактуры, ссылаясь на статьи, где "независимые эксперты" пишут, что посчитать видеокарты "очень сложно", когда вот в статье (https://habr.com/ru/companies/sberdevices/articles/968904/) чёрным по белому написано, что модель полностью обучена на своём датасете?
А вот сколько их и как они их привезли через все санкции - на этот вопрос конечно же никто не ответит, поэтому будете продолжать гадать и писать как всё плохо, вместо того чтоб просто юзать и обучать свои темки
Сберу спорить с такими как вы смысла особого и не имеет, что слону дробина. Я так-то триггернулся только на ваш расчёт который "займёт годы", то есть вы в теме не разобрались, откровенно врёте, но пишете коммент за комментом, что врут те, кто реально что-то сделал
2.8 миллиона часов - это всего 12 дней круглосуточной работы кластера из 10 тыщ карточек (10000*24*12)
У сбера помимо названных вами довольно старых суперкомпьютеров есть гораздо больше видюх в различных более новых облаках и кластерах. Собрать их вместе для обучения это большой гемор конечно, но решаемый для таких масштабных задач. 10к я думаю наберётся вполне, а то и побольше
Допустим А100 на порядок медленнее H100 в реальных задачах (в зависимости от задачи, думаю это +- так). Получаем 4 месяца, вполне реалистичный срок для обучения новых версий. В отличие от вашего предположения про "годы"
Expedition 33 на пятом анриале вышел с очень красивым графоном, и вроде не лагал. Значит можно сделать, если захотеть, просто все обленились и отупели)
Не знаю насчёт таймсериесов, но по установке дакдб полегче полного кликхауса. Скорость сравнить можно на сайте кликбенча, это бенчмарк самого кликхауса, и там как минимум в нескольких конфигурациях дакдб быстрее, в том числе при работе с паркетом
Всё равно duckdb быстрее, потому что он сейчас вообще самый быстрый, но там нет dataframe api только sql, иногда его явно недостаточно для обработки сложных данных
Во многих сферах бизнеса простые задачи уже давно решены, и чтоб заработать дополнительных денег, нужно решать задачи, для которых нет готовых алгоритмов, дающих нужное качество
Конечно, разработка стала гораздо более высокоуровневой, но и задачи тоже, и проще они от этого не стали
Раньше акцент был на создание хоть чего-нибудь полезного на основе данных. Типа возьми бигдату, посчитай затраты и эффект от рекламы, пойми, где эффективно, а где нет, урежь неэффективное и добавь бюджета эффективному. Это давало серьёзный процент снижения расходов, который окупал бигдату.
Сейчас этого уже недостаточно, сейчас на основе бигдаты принимаются решения, которые напрямую влияют на прибыль компании, на имидж и на само её существование. Поэтому требуется серьёзное улучшение в перечисленных аспектах
Если обязать компании по производству ИИ-булщита за свой счёт вперёд строить электростанции, чтобы не отнимать электричество у жителей, задирая на него цены, и ещё обязать их разрабатывать охлаждение морской водой, а не пресной, чтоб опять же не тратить бесценный жизненно важный ресурс, который уже в дефиците - их капитализация упадёт примерно до уровня сбера (p/e = 4, вместо 300 у теслы), возможно ниже
Ты сектант что ли? В чём смысл скидывать ссылки на какую-то херню?
Архитектор, ты хоть одну модельку-то сам обучил? С чего ты взял, что у меня в этом нет опыта?)
На акции такая фигня, которую ты пишешь, повлиять конечно не может, а вот на моё личное желание отвечать - может. Люблю поспорить
Ты же понимаешь, что претрейн делается на ВСЕХ текстах, которые удалось качнуть с инэта? А большинство из них, особенно на английском языке, содержат антироссийскую позицию, по всем вопросам
А сейчас уже прикол в том, что все модели мира учатся на нейрослопе, в том числе и на текстах, которые сгенерировал гигачат, ну и на нашем с тобой споре)
По ссылке уже однозначно враньё ближе к низу по видюхам и скорости обучения, такое же как ты тут распространяешь
Остальное - смесь субьективных комментов и бреда сумасшедшего
По видюхам слив засчитан
Перейдём к "вашим долларам". Во-первых, с чего вы взяли, что они "ваши"? Вы вообще хоть чутка понимаете, как устроен сбер, на чём он зарабатывает, какое отношение имеет к государству? Думаете из бюджета кэш отгружают чтоб сбер видюхи купил?)
Если уж на то пошло - то это мои деньги, а не ваши. Потому что я акционер, хоть и миноритарный, а вы, судя по комментам, скорее всего нет. Сбер за счёт улучшенных относительно конкурентов технологий получает прибыль на высококонкурентном российском банковском рынке, половину из неё отправляет на дивиденды, как государству, так и мне, а на оставшуюся половину растёт и развивается. Если вам не нравится, что российские компании развиваются - то это уже ваши проблемы
Почему такие как вы продолжают гадать и писать, как всё плохо и как все врут и что ничего невозможно, не зная фактуры, ссылаясь на статьи, где "независимые эксперты" пишут, что посчитать видеокарты "очень сложно", когда вот в статье (https://habr.com/ru/companies/sberdevices/articles/968904/) чёрным по белому написано, что модель полностью обучена на своём датасете?
"Почему А100, а не H100"? Вот пожалуйста, берите в их же клауде H100, по 8 штук в одной ноде, если деньги на аренду найдёте: https://cloud.ru/docs/virtual-machines/ug/topics/concepts__gpu
А вот сколько их и как они их привезли через все санкции - на этот вопрос конечно же никто не ответит, поэтому будете продолжать гадать и писать как всё плохо, вместо того чтоб просто юзать и обучать свои темки
Сберу спорить с такими как вы смысла особого и не имеет, что слону дробина. Я так-то триггернулся только на ваш расчёт который "займёт годы", то есть вы в теме не разобрались, откровенно врёте, но пишете коммент за комментом, что врут те, кто реально что-то сделал
2.8 миллиона часов - это всего 12 дней круглосуточной работы кластера из 10 тыщ карточек (10000*24*12)
У сбера помимо названных вами довольно старых суперкомпьютеров есть гораздо больше видюх в различных более новых облаках и кластерах. Собрать их вместе для обучения это большой гемор конечно, но решаемый для таких масштабных задач. 10к я думаю наберётся вполне, а то и побольше
Допустим А100 на порядок медленнее H100 в реальных задачах (в зависимости от задачи, думаю это +- так). Получаем 4 месяца, вполне реалистичный срок для обучения новых версий. В отличие от вашего предположения про "годы"
Expedition 33 на пятом анриале вышел с очень красивым графоном, и вроде не лагал. Значит можно сделать, если захотеть, просто все обленились и отупели)
Не знаю насчёт таймсериесов, но по установке дакдб полегче полного кликхауса. Скорость сравнить можно на сайте кликбенча, это бенчмарк самого кликхауса, и там как минимум в нескольких конфигурациях дакдб быстрее, в том числе при работе с паркетом
В polars нужно использовать LazyFrame. Тогда включаются оптимизирующий компилятор и остальные плюшки, аналогичные duckdb.
Если интересно, то можно начать откуда-то отсюда: https://docs.pola.rs/api/python/dev/reference/api/polars.scan_parquet.html#polars.scan_parquet
Всё равно duckdb быстрее, потому что он сейчас вообще самый быстрый, но там нет dataframe api только sql, иногда его явно недостаточно для обработки сложных данных
Ждёт своего часа)
Delta, HUDI, Iceberg: ну да, ну да, пошли мы нафиг)
Во многих сферах бизнеса простые задачи уже давно решены, и чтоб заработать дополнительных денег, нужно решать задачи, для которых нет готовых алгоритмов, дающих нужное качество
Конечно, разработка стала гораздо более высокоуровневой, но и задачи тоже, и проще они от этого не стали
2) А ещё можно изначально не ставить еженедельное совещание по разбору и оценке новых задач
А ставить разовые встречи, когда эти новые задачи действительно накопились и стоит их разгрести, или если прилетело что-то срочное, что стоит обсудить
Код часто с ошибками и несуществующими "библиотечными" методами
Если нужно что-то сложное написать - даже с подсказками не особо справляется, нужно дорабатывать напильником
Но в целом круто, конечно, может значительно ускорить работу по рутинному гуглежу, немножко объяснить матан, задачи оптимизации и всякое такое
Раньше акцент был на создание хоть чего-нибудь полезного на основе данных. Типа возьми бигдату, посчитай затраты и эффект от рекламы, пойми, где эффективно, а где нет, урежь неэффективное и добавь бюджета эффективному. Это давало серьёзный процент снижения расходов, который окупал бигдату.
Сейчас этого уже недостаточно, сейчас на основе бигдаты принимаются решения, которые напрямую влияют на прибыль компании, на имидж и на само её существование. Поэтому требуется серьёзное улучшение в перечисленных аспектах
Убийца с++ №100501
от создателей убийцы с++ №100500