Ну L5 в Фаанге это примерно сильный сеньор или техлид в хорошей российской компании с приличной инженерной культурой, так что да, не среднестатистический чел.
Так "китайские ответы" Sora появились даже раньше чем сама Sora в прод вышла - тот же Kling. Есть еще open weights Wan от Алибабы. Так что название странное, это уже N-тая сетка.
Особенно в бытовой технике это заметно - та же китайская Midea делает бюджетные и средне-сегментные микроволновые печи, посудомоечные машины, стиралки и т.д. для большинства брендов
Почему нет кадров для заводов и на заводы) - ответ прост . Не могут найти высокоспециализированных и низкооплачиваемых людей- что бы работал тыщ за 20 в месяц.
Да думаю таких кадров и за деньги очень сложно найти, их попросту почти нет в стране, т.к. негде набираться опыту.
Ну, это понятно. Достаточно вспомнить как западные СМИ и Канада трубили о том как Китай задержал двух "случайных", ни в чем неповинных канадцев в отместку за задержание дочки СЕО Хуавея. На том же реддите все были уверены в том, что там уже рандомных иностранцев с улиц в заложники берут.
The newspaper said that Mr Spavor claims he had not realised that Mr Kovrig, a former diplomat in Canada’s foreign service, was a spy and that information he passed to him on North Korea would end up in the hands of the Five Eyes intelligence network.
Упс. Один из Майклов был шпионом, другой информантом.
Ученый может и действительно шпион, но забавна разница в подаче информации.
Яндекс внедрял нейросетевые функции в свои сервисы задолго до появления Алисы, я об этом. Начиная с переводчика и заканчивая поиском по изображению.
В каком году переводчик Яндекса стал нейросетевым и насколько успешно это работало? До гугловского BERT'а нейронки как правило весьма так себе работали на перевод из-за накопления ошибок на длинном контексте у RNN'ок, ну и с точки зрения вычислений тоже были так себе из-за плохой параллелизуемости. Были отдельные приколы типа WaveNet, но у CNN все плохо с глобальным контекстом.
Дизель на ~8% в год дорожал, ну а Е-класс в любой год имеет околонулевое влияние на среднюю продуктовую корзин из-за низкого веса.
Если Е-класс это часть вашей регулярной продуктовой корзины, то очевидно что ваш уровень жизни сильно выше среднего в стране, поэтому усредненная статистика Росстата к вашей личной корзине не применима. У меня, например, личная инфляция тоже сильно выросла из-за того что у меня большая доля импортных товаров в тратах.
Вы сильно недооцениваете кол-во ресурсов необходимое для тренировки с нуля (т.е. включая претрейн) даже 32/70 млрд моделей. Более чем уверен, что все эти гпушки активно юзаются, плюс подозревают что у них там и h100 есть, ввезенные окольными путями.
Яндекс вообще обгонял мировых техногигантов в сфере машинного обучения и нейросетей
Очень спорное утверждение, особенно про нейросети. Ну максимум может в каких-то отдельных прикладных фичах типа Алисы. Если говорить в целом, то там даже не близко - у Яндекса нет каких-то сильно значимых работ в Deep Learning'е.
Вообще не понял что вы пытались сказать. Модель сама по себе (без тюна) понятия не имеет кто она - GPT4o, Claude 3.7 или тот же GigaChat. Она выдаст наиболее вероятную последовательность токенов на основе своего претрейна - а это, в большинстве случаев, будет что-то связанное с ChatGPT, поскольку он наиболее популярный и чаще всех встречается в наскрэйпленных с интернета данных.
Это обычные галлюцинации модели, частично лечатся тюном на подобных вопросах и системным промптом, но периодически может рандом проскользнуть. Не стоит их воспринимать всерьез. Недавно видел топик на реддите про то как Клод 3.7 утверждал что его создали OpenAI.
Вроде у GigaChat'а кастомная архитектура, т.е. они не дотюнивают open weight решения. Яндекс тоже этим раньше занимался (до YandexGPT 5), но у них совсем плохо получалось, в итоге сейчас используют Qwen 2.5 в качестве базы.
У Сбера карточки есть, не гигантские кластеры из десятков тысяч H100, конечно, но есть. Вроде после апгрейда у Кристофари где-то несколько тысяч A100.
Ну пусть будет инициализация весами Qwen 2.5 32b (в любом случае - трансфер), т.е. архитектура под ней это Qwen 2.5 32b?
Интересна абляция с использованием только их претрейна - да, в статье упомянуто что когда вы добавляли ваши претрейн данные, то росли результаты бенчмарков, но на финальном сравнении видно, что это справедливо только для русскоязычных бенчей и DROP'а. Отсюда и вопрос - чем такой подход лучше файнтюна? Меньше проседают метрики на других бенчах? А если обучаться только на вашем претрейн корпусе, то это тоже строго хуже? Было бы интересно послушать, если не под NDA.
Кстати, а Lite модель тогда на базе чего? Судя по кол-ву параметров - это LLaMA 3.1, но разве у них лицензия не обязывает всем моделям ставить приписку LLaMA?
Арена это далеко не показательный бенчмарк. Те же Гемини еще с версии 1.5 про уже там сидят в топе и "обходят" какой-нибудь Claude 3.5, но на деле Gemini 1.5 Pro даже рядом с Клодом не валялся.
Даже если бы в России все сразу рубанули, то ничего бы не было - побухтели, 1.5 человека бы постояло на улице и все. Народ покорный.
Ну, их нет, потому что Россия не умеет делать ускорители и элементная база ограничена 90 нм на Микроне. Все просто.
Ну L5 в Фаанге это примерно сильный сеньор или техлид в хорошей российской компании с приличной инженерной культурой, так что да, не среднестатистический чел.
Так "китайские ответы" Sora появились даже раньше чем сама Sora в прод вышла - тот же Kling. Есть еще open weights Wan от Алибабы. Так что название странное, это уже N-тая сетка.
Только если явно косячишь, то должно быть не "гони бабки", а "иди отсюда", иначе ценность этих дипломов стремится к нулю.
Особенно в бытовой технике это заметно - та же китайская Midea делает бюджетные и средне-сегментные микроволновые печи, посудомоечные машины, стиралки и т.д. для большинства брендов
Да думаю таких кадров и за деньги очень сложно найти, их попросту почти нет в стране, т.к. негде набираться опыту.
Ну многие это поддерживают, например, поэтому и не бастуют.
Ну, это понятно. Достаточно вспомнить как западные СМИ и Канада трубили о том как Китай задержал двух "случайных", ни в чем неповинных канадцев в отместку за задержание дочки СЕО Хуавея. На том же реддите все были уверены в том, что там уже рандомных иностранцев с улиц в заложники берут.
Потом, правда, выяснилось следующее:
Упс. Один из Майклов был шпионом, другой информантом.
Ученый может и действительно шпион, но забавна разница в подаче информации.
В каком году переводчик Яндекса стал нейросетевым и насколько успешно это работало? До гугловского BERT'а нейронки как правило весьма так себе работали на перевод из-за накопления ошибок на длинном контексте у RNN'ок, ну и с точки зрения вычислений тоже были так себе из-за плохой параллелизуемости. Были отдельные приколы типа WaveNet, но у CNN все плохо с глобальным контекстом.
На сайте новая версия, смысла спрашивать новая она или нет у самой модели ровно ноль. Она этого попросту не знает.
Дизель на ~8% в год дорожал, ну а Е-класс в любой год имеет околонулевое влияние на среднюю продуктовую корзин из-за низкого веса.
Если Е-класс это часть вашей регулярной продуктовой корзины, то очевидно что ваш уровень жизни сильно выше среднего в стране, поэтому усредненная статистика Росстата к вашей личной корзине не применима. У меня, например, личная инфляция тоже сильно выросла из-за того что у меня большая доля импортных товаров в тратах.
Вы сильно недооцениваете кол-во ресурсов необходимое для тренировки с нуля (т.е. включая претрейн) даже 32/70 млрд моделей. Более чем уверен, что все эти гпушки активно юзаются, плюс подозревают что у них там и h100 есть, ввезенные окольными путями.
Очень спорное утверждение, особенно про нейросети. Ну максимум может в каких-то отдельных прикладных фичах типа Алисы. Если говорить в целом, то там даже не близко - у Яндекса нет каких-то сильно значимых работ в Deep Learning'е.
Вообще не понял что вы пытались сказать. Модель сама по себе (без тюна) понятия не имеет кто она - GPT4o, Claude 3.7 или тот же GigaChat. Она выдаст наиболее вероятную последовательность токенов на основе своего претрейна - а это, в большинстве случаев, будет что-то связанное с ChatGPT, поскольку он наиболее популярный и чаще всех встречается в наскрэйпленных с интернета данных.
Это обычные галлюцинации модели, частично лечатся тюном на подобных вопросах и системным промптом, но периодически может рандом проскользнуть. Не стоит их воспринимать всерьез. Недавно видел топик на реддите про то как Клод 3.7 утверждал что его создали OpenAI.
Вроде у GigaChat'а кастомная архитектура, т.е. они не дотюнивают open weight решения. Яндекс тоже этим раньше занимался (до YandexGPT 5), но у них совсем плохо получалось, в итоге сейчас используют Qwen 2.5 в качестве базы.
У Сбера карточки есть, не гигантские кластеры из десятков тысяч H100, конечно, но есть. Вроде после апгрейда у Кристофари где-то несколько тысяч A100.
Ну пусть будет инициализация весами Qwen 2.5 32b (в любом случае - трансфер), т.е. архитектура под ней это Qwen 2.5 32b?
Интересна абляция с использованием только их претрейна - да, в статье упомянуто что когда вы добавляли ваши претрейн данные, то росли результаты бенчмарков, но на финальном сравнении видно, что это справедливо только для русскоязычных бенчей и DROP'а. Отсюда и вопрос - чем такой подход лучше файнтюна? Меньше проседают метрики на других бенчах? А если обучаться только на вашем претрейн корпусе, то это тоже строго хуже? Было бы интересно послушать, если не под NDA.
Кстати, а Lite модель тогда на базе чего? Судя по кол-ву параметров - это LLaMA 3.1, но разве у них лицензия не обязывает всем моделям ставить приписку LLaMA?
Не совсем понял - т.е. YandexGPT 5 Pro это глубокий файнтюн Qwen 2.5 32B?
Мелкая модель 8b выглядит весьма интересно по бенчмаркам, но без инстракта пока не сильно юзабельно.
Арена это далеко не показательный бенчмарк. Те же Гемини еще с версии 1.5 про уже там сидят в топе и "обходят" какой-нибудь Claude 3.5, но на деле Gemini 1.5 Pro даже рядом с Клодом не валялся.