А в чём слоп-то? Какие претензии к содержанию? Никаких, да? Просто стадо дебилов среагировало на "ааа!!!! нейросеть написала!!!". А как вы вообще представляете новостной пост в день выхода модели?
Когда вам тут по 10 статей пишут на тему очередного Клауда, авторов тоже "топите"? Нет? А почему? Просто подумайте над своими стадными инстинктами.
Ставьте минус в карму тогда ВСЕМ авторам с нейросетями в тексте. Снова нет?:) А что так?:)
Ошибок нет, есть лишь глупое высокомерие читателей, которые не понимают, как MoE работают на меньшем количестве памяти.
Можете, кстати, пояснить, что вот это за зверь
Fine-grained и Coarse-grained - это общепринятые термины, относятся к параллелизации выполнения экспертов. Параллелизация экспертов - это стратегия распределения этих экспертов по нескольким GPU при обучении или инференсе.
Coarse-grained - каждый эксперт целиком размещается на одном GPU. Fine-grained - вычисления одного эксперта могут быть разделены между несколькими GPU, или эксперты динамически перераспределяются.
Fine-grained Mixture of Experts (MoE)
При 384 экспертах на слой и 1.6 трлн параметров "грубое" распределение быстро упирается в ограничения памяти и пропускной способности, а fine-grained схема позволяет динамически балансировать нагрузку, когда одни токены требуют больше вычислений, чем другие.
Валидация на H100/A100 означает, что схема работает стабильно и эффективно именно на этой архитектуре (NVLink, топология межсоединений, драйверы). DeepSeek делает акцент на кросс-платформенной валидации — одна и та же схема параллелизации работает и на NVIDIA, и на Huawei Ascend.
Термины "fine-grained Mixture of Experts", "гранулярность специализации экспертов " часто встречается в технических отчётах по масштабированию больших моделей:
Как же хорошо, что патенты протухают через 20 лет, и как же плохо, что торговая марка + слоган = потенциально бессрочная монополия на идентификацию в торговом обороте.
Спасибо за статью:) К сожалению, автор был краток, и я исследовал и реконструировал (где не всё понял, гг) логику бота. Бот https://github.com/zahaand/smart-task-bot использует инлайн-клавиатуры (кнопки под сообщениями), поэтому интерфейс выглядит так:
Вообще, эта ситуация с ограничением детям доступа в соцсети - крайне тупой мировой тренд. Детям, у которых плохие отношения со сверстниками в школе, им что теперь, в одиночестве со своими проблемами оставаться? Зачем такое делать? Должны же быть мозги у взрослых Лиц, Принимающих Решения.
А в чём слоп-то? Какие претензии к содержанию? Никаких, да? Просто стадо дебилов среагировало на "ааа!!!! нейросеть написала!!!". А как вы вообще представляете новостной пост в день выхода модели?
Когда вам тут по 10 статей пишут на тему очередного Клауда, авторов тоже "топите"? Нет? А почему? Просто подумайте над своими стадными инстинктами.
Ставьте минус в карму тогда ВСЕМ авторам с нейросетями в тексте. Снова нет?:) А что так?:)
А Вас хамить кто заставляет?
Ну и кто вы после этого?
Ошибок нет, есть лишь глупое высокомерие читателей, которые не понимают, как MoE работают на меньшем количестве памяти.
Можете, кстати, пояснить, что вот это за зверьFine-grained и Coarse-grained - это общепринятые термины, относятся к параллелизации выполнения экспертов.
Параллелизация экспертов - это стратегия распределения этих экспертов по нескольким GPU при обучении или инференсе.
Coarse-grained - каждый эксперт целиком размещается на одном GPU.
Fine-grained - вычисления одного эксперта могут быть разделены между несколькими GPU, или эксперты динамически перераспределяются.
При 384 экспертах на слой и 1.6 трлн параметров "грубое" распределение быстро упирается в ограничения памяти и пропускной способности, а fine-grained схема позволяет динамически балансировать нагрузку, когда одни токены требуют больше вычислений, чем другие.
Валидация на H100/A100 означает, что схема работает стабильно и эффективно именно на этой архитектуре (NVLink, топология межсоединений, драйверы). DeepSeek делает акцент на кросс-платформенной валидации — одна и та же схема параллелизации работает и на NVIDIA, и на Huawei Ascend.
Термины "fine-grained Mixture of Experts", "гранулярность специализации экспертов " часто встречается в технических отчётах по масштабированию больших моделей:
Google: Expert Choice Routing + fine-grained sharding - в Switch Transformer.
Meta: fine-grained Hierarchical Expert Parallelism - в Mixtral-подобных архитектурах.
Ну так возьмите и напишите как считаете нужным, в чём проблема-то? Потратьте своё свободное личное время.
Ну и кто вы после этого?
Вы мне за статью наставили мисусы и сливаете карму.
Ну напишите свою версию новости про новый Дипсик, зачем гадите-то?
Вы серьёзно требуете бесплатную новостную статью в писательском стиле - в день выхода новой модели, да?
Конечно же нейросеть.
Руками это писать не один день.
Как же хорошо, что патенты протухают через 20 лет, и как же плохо, что торговая марка + слоган = потенциально бессрочная монополия на идентификацию в торговом обороте.
Спасибо за статью:)
К сожалению, автор был краток, и я исследовал и реконструировал (где не всё понял, гг) логику бота.
Бот https://github.com/zahaand/smart-task-bot использует инлайн-клавиатуры (кнопки под сообщениями), поэтому интерфейс выглядит так:
Список задач (/tasks)
📝 Ваши задачи (3):
🔘 Купить молоко ⏰ Напомнить: 15.12 18:00
──────────────
[👁 Просмотр] [✏️ Изменить]
🔘 Подготовить отчёт ⚠️ Просрочено: 14.12 23:59
──────────────
[👁 Просмотр] [✏️ Изменить]
🔘 Позвонить маме ✅ Без дедлайна
──────────────
[👁 Просмотр] [✏️ Изменить]
[➕ Новая задача] [⚙️ Настройки]
Детали задачи (после выбора из списка)
📌 Задача: Подготовить отчёт
📄 Описание: Сделать квартальный отчёт по проекту “Alpha” и отправить руководителю.
🗓 Создана: 10.12.2024 ⏰ Дедлайн: 14.12.2024 23:59 🔔 Напоминание: не установлено
[🔔 Напомнить] [✅ Выполнить]
[🗑 Удалить] [← Назад к списку]
При нажатии «Напомнить» появляется календарь:
📅 Выберите дату напоминания:
< Декабрь 2024 >
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27
28 29 30 31
[← Назад] [Отмена]
После выбора даты бот просит ввести время текстом: «Введите время в формате ЧЧ:ММ (например, 18:30)»
Меню настроек
⚙️ Настройки профиля
🌐 Язык: Русский 🌍 Часовой пояс: Europe/Moscow (UTC+3)
[🌐 Сменить язык] [🌍 Сменить часовой пояс]
[❗️ Удалить аккаунт] [← Назад]
С целом, всё довольно-таки просто, но в принципе логично:)
Вообще, эта ситуация с ограничением детям доступа в соцсети - крайне тупой мировой тренд. Детям, у которых плохие отношения со сверстниками в школе, им что теперь, в одиночестве со своими проблемами оставаться? Зачем такое делать? Должны же быть мозги у взрослых Лиц, Принимающих Решения.
Много лет использую жёсткий пластиковый A4Tech X7-801MP и считаю, что лучше его ничего нет:) К сожалению, эту модель перестали выпускать.
Спасибо:)
А почему мне, как не эксперту, нельзя судить по официальной демке? Что нам показали - на то мы и ответили, что за претензии.
А "новости из будущего", от политиков и визионеров всех мастей, уже немного поднадоели:)
И за этот коммент мне надо сливать карму? ну молодцы, что тут сказать:)
Наконец-то девушки-копирайтерши, слава иишке, начинают заполнять Хабр:)
ЗЫ только модератору не жалуйтесь, а то он сразу банит, ха-ха:)
Кадровый голод на специалистов высокой квалификации, согласных работать за небольшие деньги:)
Спасибо за статью:) Добавлю себе в бот суммаризатор:)
за 3$ в месяц это же 10млн токенов?
Примерно 25 тысяч операторов связи, можно мочить их несколько лет ещё, чтобы осталось 2-3 на всю страну. /s