Comments 20
У яндекса как раз видно, что Шедеврум они не учили с нуля.
Скрытый текст

уже подзабыл чью модельку скачивал, с huggingface, вроде от тбанка - спросил ее: ты кто по жизни, чьих будешь?", она ответила: "alibaba, qwen"...
Чтобы создать такие крупные модели в России с нуля потребовалось бы огромные ресурсы и время. Так что, не удивительно
зачем с нуля создавать? ничего против fine-tuning не имею, мы же разумные люди, но даже на базовых курсах учат как переучить отвечать про имя модели, к примеру "я модел т-bank на основе qwen от alibaba". Типа, шильдик обновить а то непонятно что за модель - загрузил ее, забыл что тбанк, она мне отвечает не то.
Но зачем? Даже anthropic не учит свои модели отвечать точно про себя, sonnet 4 и 4.5 с уверенностью считают что они 3.5-3.7. Никому не нужная фича, если прям очень надо чтоб модель себя называла как-то, то это вставляют прям в системный промпт (как те же Perplexity) и не портят веса модели бесполезной информацией.
Да я не против, если антропик так делает, то конечно - это косметика. Ох уж эти неряшливые ученые.. Запускаешь "java —vesrion", она выдает 1.2 но мы то знаем что 8.0 - скачивали то 8 и байт код правильной версии вроде. Интел тоже иногда балуется - старые процы как новые архитектуры выдает. Но почему не включить в обучение сразу версию 4.5 в обучающих данных? И почему это бесполезно, а включение в промп как раз мусорной информации правильно (пропт не резиновый). Мне как пользователю, странно что версия не "прожигается". Файн тьюнить тоже не проблема.
Вы как пользователь не учитывайте тот факт, что в претрейне сейчас куча синтетики с интернета. Если раньше для условной gpt 4 можно было спокойно включить в данные претрейна тысячу семплов "I'm a gpt 4 - the latest AI model from openAI", и потом в файнтюне добавить семплов "What kind of model are you? -> I'm gpt 4..." и модель этому хорошо бы училась, то прямо сейчас в претрейне УЖЕ есть такие ответы со старыми названиями просто как результат парсинга сайтов. Т.е. модель во время претрейна видит десятки тысяч предложений где она себя как только не называет. Внезапно, после этого тюнить её становится сложнее, и в целом на этапе файнтюна не принято добавлять новые знания в модель, на то он и файнтюн. Если бы это можно было сделать безболезненно для модели - так бы и делали.
Да понимаю я это, шучу больше.
Понятно что до осмысленности и AGI еще как до Луны пешком, что мусора много в обучающих выборках, и тд.
Почитал летом курсы у Andre Ng, с пайторчем немного руку набил, как раз с мелкими модельками, сейчас вот смотрю Карпатый свой наночат проект выложил.. Но это не мой профиль, глянул для кругозора.
Для какой то осмысленности нужно прикручивать что то вроде knowledge graph. прямо в кишки моделей и делать их рекурсивными. Подождем, со временем поумнеют
Так карточку за рубль у вас в аренду стоит брать? Те остальной сервер вообще не во второй рубль обходится, конечно 😐
Скрытый текст

Планируете ли вы рассматривать Cerebras как альтернативу GPU-инфраструктуре?
Проводилась ли у вас оценка этих решений и были ли выявлены какие-то технические или организационные ограничения?
Вообще была бы интересна ваша эмоциональная оценка этого продукта.
Есть 3шт A2000 карточки. Существует ли что-то с AI чтобы сразу все задействовать в вычислениях, а не только одну (На локальную установку у себя)?
15 кВт на стойку, отдельная боль для площадок. Не каждый ДЦ вывезет
Information
- Website
- slc.tl
- Registered
- Founded
- Employees
- 1,001–5,000 employees
- Location
- Россия
- Representative
- Александр Шилов



Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты