Pull to refresh

Comments 20

У яндекса как раз видно, что Шедеврум они не учили с нуля.

Скрытый текст

Ну как бы и у Сбера "Кандинский" на базе иностранного продукта. В нем просишь нарисовать пружину (spring), а он создает картинку весны (spring)

Вам на слово поверить?

Вот такое еще есть, верите или не верите))
Вот такое еще есть, верите или не верите))

Nutt на английском и орех, и гайка

уже подзабыл чью модельку скачивал, с huggingface, вроде от тбанка - спросил ее: ты кто по жизни, чьих будешь?", она ответила: "alibaba, qwen"...

Чтобы создать такие крупные модели в России с нуля потребовалось бы огромные ресурсы и время. Так что, не удивительно

зачем с нуля создавать? ничего против fine-tuning не имею, мы же разумные люди, но даже на базовых курсах учат как переучить отвечать про имя модели, к примеру "я модел т-bank на основе qwen от alibaba". Типа, шильдик обновить а то непонятно что за модель - загрузил ее, забыл что тбанк, она мне отвечает не то.

Но зачем? Даже anthropic не учит свои модели отвечать точно про себя, sonnet 4 и 4.5 с уверенностью считают что они 3.5-3.7. Никому не нужная фича, если прям очень надо чтоб модель себя называла как-то, то это вставляют прям в системный промпт (как те же Perplexity) и не портят веса модели бесполезной информацией.

Да я не против, если антропик так делает, то конечно - это косметика. Ох уж эти неряшливые ученые.. Запускаешь "java —vesrion", она выдает 1.2 но мы то знаем что 8.0 - скачивали то 8 и байт код правильной версии вроде. Интел тоже иногда балуется - старые процы как новые архитектуры выдает. Но почему не включить в обучение сразу версию 4.5 в обучающих данных? И почему это бесполезно, а включение в промп как раз мусорной информации правильно (пропт не резиновый). Мне как пользователю, странно что версия не "прожигается". Файн тьюнить тоже не проблема.

Вы как пользователь не учитывайте тот факт, что в претрейне сейчас куча синтетики с интернета. Если раньше для условной gpt 4 можно было спокойно включить в данные претрейна тысячу семплов "I'm a gpt 4 - the latest AI model from openAI", и потом в файнтюне добавить семплов "What kind of model are you? -> I'm gpt 4..." и модель этому хорошо бы училась, то прямо сейчас в претрейне УЖЕ есть такие ответы со старыми названиями просто как результат парсинга сайтов. Т.е. модель во время претрейна видит десятки тысяч предложений где она себя как только не называет. Внезапно, после этого тюнить её становится сложнее, и в целом на этапе файнтюна не принято добавлять новые знания в модель, на то он и файнтюн. Если бы это можно было сделать безболезненно для модели - так бы и делали.

Да понимаю я это, шучу больше.

Понятно что до осмысленности и AGI еще как до Луны пешком, что мусора много в обучающих выборках, и тд.

Почитал летом курсы у Andre Ng, с пайторчем немного руку набил, как раз с мелкими модельками, сейчас вот смотрю Карпатый свой наночат проект выложил.. Но это не мой профиль, глянул для кругозора.

Для какой то осмысленности нужно прикручивать что то вроде knowledge graph. прямо в кишки моделей и делать их рекурсивными. Подождем, со временем поумнеют

Так карточку за рубль у вас в аренду стоит брать? Те остальной сервер вообще не во второй рубль обходится, конечно 😐

Скрытый текст
Баннер сюда приводит
Баннер сюда приводит

Да, безусловно стоит учесть цену всего сервера.
Но карточки за честный 1 рубль, это легко проверить в конфигураторе

Планируете ли вы рассматривать Cerebras как альтернативу GPU-инфраструктуре?

Проводилась ли у вас оценка этих решений и были ли выявлены какие-то технические или организационные ограничения?

Вообще была бы интересна ваша эмоциональная оценка этого продукта.

Подобные технологии нам известны, именно Cerebras не тестировали.
С интересом наблюдаем за решениями, которые пошатнут монополию Nvidia, но массово пока никто это сделать на смог, на мой взгляд. Я даже в статье про AMD MI упомянул.

Есть 3шт A2000 карточки. Существует ли что-то с AI чтобы сразу все задействовать в вычислениях, а не только одну (На локальную установку у себя)?

Почти все популярные движки инференса поддерживают multigpu. Для SGLang/vLLM придется поиграться с конфигом pipeline/tensor/data/expert parallelism ибо редко какие модели получится запустить с tp 3, для llama.cpp тупо слои по гпушкам раскидать и всё.

15 кВт на стойку, отдельная боль для площадок. Не каждый ДЦ вывезет

Sign up to leave a comment.

Information

Website
slc.tl
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия
Representative
Александр Шилов