Обновить
25
0
Ingref @Ingref

Пользователь

Отправить сообщение

Вы про Soft-label дистилляцию. Она более дорогая и требует доступа к весам основной модели.

А при парсинге через API используют Hard-label дистилляцию. Подробнее тут - https://habr.com/ru/companies/yandex/articles/878230/

Из того, что мне попадалось на глаза, абсолютно все французские юристы согласны с тем, что претензии прокуратуры - курам на смех. И тот факт, что они не передают дело в суд, говорит о том, что им просто нечего предъявить.

С другой стороны, во Франции действительно есть уникальный закон LOPMI, который подразумевает уголовную ответственность для владельцев цифровых платформ, распространяющих запрещённый контент. И если бы Telegram его распространял, то Дуров был бы виновен. И вот прокуратура хочет доказать, что раз мало боролись, значит, распространяли (что, естественно, полный бред).

С третьей стороны, Telegram и правда сильно упростил криминальным элементам жизнь. И в случае, например, с террористами, этот вопрос уже порешали ещё в прошлом десятилетии (Telegram сдаёт с потрохами террористов спецслужбам). А вот обычных преступников - ну не особо.

Ну и в итоге образуется такая несколько патовая ситуация, при которой проблема имеется (криминал юзает телегу), но законодательной базы, которая бы это в деталях регулировала, не существует. И при этом есть 1 (один) человек, с которым можно просто договориться и всё порешать (как это сделали в случае с террористами). Вот, собственно, это сейчас и пытаются сделать. И, судя по всему, довольно-таки успешно, потому что телега начала усиленно сотрудничать с правоохранительными органами по всему миру.

По-моему, это отличная идея (по внедрению открытых моделей в Шедеврум). Насколько я понимаю, вся соль Janus в том, что он при увеличении количества параметров в модели показывает гораздо большее улучшение в качестве, чем все другие существующие модели. В плане же конечного результата Janus действительно отстаёт.

Поэтому было бы здорово, если бы Яндекс добавил возможность использования Flux, а также топовых моделей для SD с Civitai.

И да, есть же ещё Hunyuan для видео-генерации - его тоже можно добавить. Даёшь передовой оупен-сорс в массы 📣

Судя по видосу на их сайте, выглядит абсолютно нереалистично. Недавний OmniHuman-1 куда более реалистично выглядит (и не нужно никакого 5-минутного видео).

ЦОДы - это беспроигрышный актив. Даже если завтра OpenAI обанкротится, а на ИИ будет поставлен крест, то вычислительные мощности всегда найдут спрос. В самом крайнем случае их можно просто-напросто сдавать в аренду, тем более, что в данном случае это можно делать виртуально клиентам по всему миру. Кроме того, для запитки ЦОДов планируют строить мини-АЭС, а это тоже абсолютный актив, который всегда найдёт своих потребителей - хоть с ИИ, хоть без.

Единственное серьёзное опасение высказал Маск - они могут тупо не собрать денег. Но Сэм Алтман всю жизнь только этим и занимался - убеждал других людей отдать ему свои деньги. Это его любимое дело.

Интересная подборка, спасибо! Мне ещё запомнилась статья про сверхвеса в LLM - https://habr.com/ru/articles/876620/

А ещё рассуждающий алгоритм DeepSeek-R1 можно воссоздать менее чем за $30 - https://github.com/Jiayi-Pan/TinyZero

На самом деле, это вам только кажется, что идея была ваша. А в реальности он просто знал, за какие ниточки дёргать, чтобы вы ему это предложили. И знал, что вы это выложите на Хабре. В общем, всё идёт по плану :)

Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:

... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.

В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.

Вот мультики и последний видос - прям очень реалистично.

Так это посыл от мировых СМИ такой. Они почему-то решили, что AGI достигнут, и больше никому не нужны дорогие GPU...

Ну так то просто эксперимент был, проверка самого концепта. До них никто и не думал, что синтетика вообще даст результат.

Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.

И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.

Кроме датасетов ;)

А потом нейросети чуть поумнели, и уже сейчас они могут сильно удешевить подобного рода конвертации. Как только качество станет приемлемым, будем смотреть "Семнадцать мгновений весны" в 4к и 3D с улучшенными басами и спецэффектами.

2048 ускорителей.

2664К часов на пред-обучение + 119К часов на расширение контекста + 5К часов на пост-обучение = 2 788К часов работы на 2048 GPU-ускорителях.

Проблема в том, что для создания AGI нужны ресурсы. Ну то есть, грубо говоря, светлые умы, которые будут выдумывать прорывные алгоритмы, должны что-то есть, где-то жить, покупать на что-то одежду, обувь и т. д. А чтобы проводить эксперименты со своими прорывными алгоритмами (да и чтобы выявить, какие из них прорывные), нужно дорогое оборудование, жрущее гигаватты электричества. И не так просто убедить каких-то денежных мешков, что в такое вот предприятие есть смысл вкладывать деньги.

Поэтому OpenAI пытается как-то заработать хотя бы на том, что уже есть. Но получается у них так себе. Всё-таки было бы интересно посмотреть, как будет выглядеть GPT-5. Может быть, тогда и все эти "свистелки-перделки" заиграют новыми красками.

А ещё интересно, что там Суцкевер напридумывает в своём Safe Super Intelligence Inc. (ему на это целый $1 млрд. выделили, вроде бы).

Речь о нерассуждающей модели DeepSeek-V3. Её дистиллировали на самих ответах, без рассуждений. А уже на её основе потом обучали рассуждающую DeepSeek-R1-Zero и конечную модель DeepSeek-R1.

Надо вот тут chrome://net-internals/#dns нажать "Clear host cache".

Гляньте Qwen2.5-VL-72B-Instruct на https://qwenlm.ai/ (надо его выбрать слева сверху). Судя по бенчмаркам, он уделывает конкурентов почти везде:

Информация

В рейтинге
4 598-й
Зарегистрирован
Активность