Комментарии / Профиль Ingref / Хабр

Ingref@Ingref

Пользователь

2,3

Рейтинг

Подписчики

ПрофильСтатьи1ПостыНовостиКомментарии892

Опять DeepSeek? Побудем в роли детектива

Ingref 4 фев 2025 в 15:36

Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:

... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.

В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.

ByteDance выпустили OmniHuman-1: генерация видео по одной картинке и аудиодорожке

Ingref 4 фев 2025 в 12:20

Вот мультики и последний видос - прям очень реалистично.

Опять DeepSeek? Побудем в роли детектива

Ingref 4 фев 2025 в 11:24

Так это посыл от мировых СМИ такой. Они почему-то решили, что AGI достигнут, и больше никому не нужны дорогие GPU...

Опять DeepSeek? Побудем в роли детектива

Ingref 4 фев 2025 в 11:16

Ну так то просто эксперимент был, проверка самого концепта. До них никто и не думал, что синтетика вообще даст результат.

Опять DeepSeek? Побудем в роли детектива

Ingref 4 фев 2025 в 11:14

Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.

Опять DeepSeek? Побудем в роли детектива

Ingref 4 фев 2025 в 11:10

И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.

Кроме датасетов ;)

Куда уехал цирк, или почему больше не снимают 3D кино

Ingref 4 фев 2025 в 10:48

А потом нейросети чуть поумнели, и уже сейчас они могут сильно удешевить подобного рода конвертации. Как только качество станет приемлемым, будем смотреть "Семнадцать мгновений весны" в 4к и 3D с улучшенными басами и спецэффектами.

+16

Восстание DeepSeek: что не попало в заголовки новостей

Ingref 4 фев 2025 в 00:06

2048 ускорителей.

2664К часов на пред-обучение + 119К часов на расширение контекста + 5К часов на пост-обучение = 2 788К часов работы на 2048 GPU-ускорителях.

Почему Deep Research от OpenAI — это еще один шаг на пути к AGI

Ingref 3 фев 2025 в 20:13

Проблема в том, что для создания AGI нужны ресурсы. Ну то есть, грубо говоря, светлые умы, которые будут выдумывать прорывные алгоритмы, должны что-то есть, где-то жить, покупать на что-то одежду, обувь и т. д. А чтобы проводить эксперименты со своими прорывными алгоритмами (да и чтобы выявить, какие из них прорывные), нужно дорогое оборудование, жрущее гигаватты электричества. И не так просто убедить каких-то денежных мешков, что в такое вот предприятие есть смысл вкладывать деньги.

Поэтому OpenAI пытается как-то заработать хотя бы на том, что уже есть. Но получается у них так себе. Всё-таки было бы интересно посмотреть, как будет выглядеть GPT-5. Может быть, тогда и все эти "свистелки-перделки" заиграют новыми красками.

А ещё интересно, что там Суцкевер напридумывает в своём Safe Super Intelligence Inc. (ему на это целый $1 млрд. выделили, вроде бы).

Глава OpenAI Сэм Альтман не намерен подавать иск против создателей китайского чат-бота DeepSeek

Ingref 3 фев 2025 в 15:22

Речь о нерассуждающей модели DeepSeek-V3. Её дистиллировали на самих ответах, без рассуждений. А уже на её основе потом обучали рассуждающую DeepSeek-R1-Zero и конечную модель DeepSeek-R1.

DeepSeek перестал загружать pdf и картинки

Ingref 3 фев 2025 в 10:36

Надо вот тут chrome://net-internals/#dns нажать "Clear host cache".

DeepSeek перестал загружать pdf и картинки

Ingref 2 фев 2025 в 22:01

Гляньте Qwen2.5-VL-72B-Instruct на https://qwenlm.ai/ (надо его выбрать слева сверху). Судя по бенчмаркам, он уделывает конкурентов почти везде:

OpenAI только что выпустил o3-mini для всех. Она чуть качественнее и заметно быстрее o1

Ingref 1 фев 2025 в 14:54

Как по мне, то гораздо более живыми являются персонажи на Character.ai

Но я уверен, что скоро эмоциональность в ИИ начнут прорабатывать более усердно. Например, Hume.ai очень многообещающий.

OpenAI только что выпустил o3-mini для всех. Она чуть качественнее и заметно быстрее o1

Ingref 31 янв 2025 в 21:17

Надо было-бы точить GPT 5, но они встали в стойло лавростояния.

Они хотели его ещё год назад выпустить (весной), но Маск на них в суд подал. В итоге то, что хотели выпустить тогда, урезали и отложили до лета. А потом до "после выборов". А потом там какие-то траблы с безопасностью всплыли. Но в целом я с вами согласен - вместо того чтобы усиленно прорабатывать матчасть, они распыляют ресурсы на всякие побочные продукты, где приходится конкурировать с теми, кто на этих побочных продуктах специализируется. И потом снова выходит Сэм Алтман и просит ещё больше денег. И ему их снова дают...

А китайцы молодцы. Ибо нефиг.

OpenAI только что выпустил o3-mini для всех. Она чуть качественнее и заметно быстрее o1

Ingref 31 янв 2025 в 19:56

В бесплатной подписке есть, если нажать кнопку Reason. Правда, нельзя выбрать режим (low, medium, high).

Microsoft и OpenAI расследуют, обучался ли DeepSeek на украденных данных американских компаний в сфере ИИ

Ingref 31 янв 2025 в 15:45

Так хайпуют СМИ. У них других новостей не было, пока Трамп не задал новостную повестку. Вот они и подхватили её, тут как раз им подвернулся DeepSeek, выход которого - абсолютно стандартное событие (базовую модель выпустили месяц назад - всем пофиг было).

США опередили Китай в разработке лучшего AI: новая модель из Сиэтла превосходит DeepSeek V3

Ingref 31 янв 2025 в 15:41

Обучали на выходных данных от YandexGPT. Ну и на ChatGPT, разумеется, тоже.

США опередили Китай в разработке лучшего AI: новая модель из Сиэтла превосходит DeepSeek V3

Ingref 31 янв 2025 в 14:57

А если я работаю швейцаром в лифте, то я всегда еду на тот же этаж, что и незнакомец. Ну или наоборот - если незнакомец работает швейцаром в лифте, то он всегда едет на тот же этаж, что и я. Либо всегда едет не на тот же этаж, что и я, потому что он вообще из лифта не выходит.

США опередили Китай в разработке лучшего AI: новая модель из Сиэтла превосходит DeepSeek V3

Ingref 31 янв 2025 в 14:51

Логично :)

А такую отгадаете: человек завёл будильник и умер - что произошло?

США опередили Китай в разработке лучшего AI: новая модель из Сиэтла превосходит DeepSeek V3

Ingref 31 янв 2025 в 12:19

Так ведь 1/9 - это вероятность выбора конкретного этажа одним человеком. А нам нужно, чтобы они одновременно выбрали один и тот же этаж, т. е. это совпадение независимых событий Р(А) и Р(В):

Р(АВ) = Р(А)∙Р(В) = 1/81

1 2 ...

31 32

34 35 ...

44 45