Комментарии 16
Может признаем, что по-настоящему крупные и прорывные проекты возможны только при максимальной доступности технологий и специалистов. Делая проекты "национальной" специфики, мы осознанно себя ограничиваем и вводим услужения которых не было бы при других условиях. Логичнее сделать просто крутой проект, а уже потом пробовать его локализовывать.
К сожалению, не всегда желания совпадают с возможностями.
Со стороны выглядит так, что в развитии LLM суперкрутые специалисты не нужны. Постепенно выжимают из трансформера все больше и больше. Аналогично похоже будет и с альтернативной версией ИИ, сделают прорывную модель, потом будут долго подкручивать все кому не лень. А вот с железками беда - это реальный хайтек, дорогой и под санкциями.
В целом мотивация автора понятна - он хочет гордиться своей страной, которая смогла... А вот какая мотивация у разработчиков этого самого ИИ я не вижу этого в статье.
"Другой вопрос, не стоит требовать от нее сопоставимого с нейросетями за миллиарды долларов уровня" - Почему? Может как раз стоит сразу ставить уровень выше, чем у аналогов. Может хватит искать причины почему нельзя ($, просто численность населения, количество потребителей и т.п.) и начать двигаться вперед?
Если главная мотивация автора гордиться своей страной, то для него всё очень плохо, незавимо от того сможет та страна или нет, продукты делают не страны а люди, этого автор не понимает.
По моему опыту, в задачах по написанию связанного литературного текста на русском (какой-нибудь детский рассказ) локально на потребительской видюхе (5060 Ti 16Гб) отечественные модели (яндекс/сбер) показывают себя существенно лучше, чем прочие буржуйские, влезающие в память. Понятно, что не уровень человека, но хотя бы рода не путают. Так что в этом плане, я "за" развитие отечественных нейронок, а флагсанских или не очень не важно, лишь бы было какое-то преимущество перед конкурентам (скорость, размер, качество, уникальные фичи и т.п.).
Я что-то не понял а чем плохо, что Яндекс взял веса Квена и начал обучение с них, а не инициализировал их случайно?
Какие тут компетенции и опыт теряются?
Просто экономия компьюта за счет старта обучения из локального минимума из другого, но похожего пространства весов.
Самое сложное и требующее компетенций людей как раз остается и никуда не уходит
Возможно это так. Но теряется именно опыт работы с нестабильным pretrain с нуля. Да, это кажется маловажным, но это пока Qwen доступен.
И самое интересное, если бы инициализация из чужих весов была просто техническим трюком, Яндекс с его ресурсами мог бы позволить себе обойтись без Квен (избавившись от лейбла использования опенсорса). Но они не стали. Значит дело не только в деньгах, но и в качестве.
позволило нам сократить длительность экспериментов до 20 раз
если бы речь шла о незначащих навыках, думаю, Яндекс так бы не сказал.
Я не очень глубоко разбираюсь, но думаю веса можно вставить только в ту же самую архитектуру на которой они натренировались. Если захочется поменять архитектуру, то веса уже не сработают. А это ограничение.
Кратко: Нет своего железа - нет своей LLM
Можем сказать так, в мире llm распространяется за данные. Когда мы делимся ими с китайцами или американцами, то это более безопасная тема, нежели когда мы пишем тестовые запросы и через время оказываемся в местах отдаленных. Об этом же так все боятся говорить. Вот мы и получаем, что эти самые llm просто не хотят делать наши разрабы, так как их будут использовать против нас самих. Вы же знаете сколько людей потеряло свою работу, но при этом переобучение дорого и для некоторых невозможно. Нету у нас стратегии обеспечить людей работой и знаниями. Поэтому сама тенденция сделать что-то стоящее ограничивается самой ситуацией, которая сложилась. А точно у нас же большие компании никому платить не хотят за разработку, ведь они могут просто своровать и сказать, что это они молодцы.
Часто эффективные менеджеры недооценивают необходимость опыта в разработке и производстве чего-либо.
Опыт в llm? Этой сфере реально 3-4 года (с конца 2022, когда gpt3 взлетел). И 90% этого опыта размещено в открытом доступе, изучай и экспериментируй...
Проблема в том, что такое сокращение расходов имеет и негативный момент, который часто недооценивают. У инженеров не нарабатывается опыт, отсутствует накопленная культура экспериментов, цепочка ошибок и исправлений в разработке LLM с нуля. Как результат, мы молчаливо соглашаемся с тем, что наша LLM всегда будет на уровне около лучшего опенсорса.
Насколько нужна культура создания llm с нуля? (Большей частью состоящая из возможности попользоваться всем, что "плохо лежит " в интернете, на пиратских сайтах...), думаю культура оптимизации и развития того, что есть, намного ценнее...
Честно говоря, возможности предоставления общего доступа к нейросети уровня топов США я не вижу. У государства и корпораций просто нет стимула (и денег) финансировать такую благотворительность. Можете оценить уровень опенсорса, и примерно такое вы и сможете получить.
Тот факт, что есть конкуренция между Сбером и Яндексом, уже плюс. А уровень топов достигается за полгода-год (вспомните, что представляли собой топы год назад?)
Я предполагал и предполагаю, что обучение ллм с нуля это непрерывный процесс проб и ошибок. Если вы обратили внимание, представитель Яндекса сказал не о сокращении срока обучения, а продолжительности экспериментов.
Даже обучение маленькой сети на конкретную задачу - представляет собой сотни итераций проб и ошибок. Гиперпараметры, архитектура, настройки. В случае с ллм сложность растет как бы не экспоненциально.
Проблема решается обычно либо железом - процессы распараллеливаются, ускоряются, автоматизируются. Либо опытом, понимание что и как делать.
Если есть эксперименты - есть опыт. Нет экспериментов, нет опыта.
Я не знаю кухню Антропик или опенАи или Google. Впрочем, как, наверное, и вы. Но пока LLM обученные вне кластеров этих компаний отстают. Пусть для среднего пользователя они выглядят лишь чуть-чуть хуже топов. Но по факту, разрыв более чем ощутим.
И даже производственная мощь Китая пока не позволяет хотя бы сравняться.
Почему? Опыт и железо. Без проб не будет опыта, без железа не будет проб.
Использование опенсорса мера вынужденная и нужная. Но нужно здраво оценивать последствия.

Перспективы национальной LLM. Личное мнение