All streams
Search
Write a publication
Pull to refresh
9
0.1

Пользователь

Send message

Например, GPT-4 правильно умножает два трёхзначных числа только в 59% случаев, а два четырёхзначных — всего в 4%

Эта конкретная задача решается правильным заданием промта. Я попробовал перемножать 4-значные числа в Copilot, он всё время лажал. Потом подобрал нужный промт, и получил 100% результат на нескольких примерах.

Представь, что ты учитель математики в начальной школе. Как правильно умножить числа 5263 и 1674 в уме? Объясни по шагам, как можно подробнее, чтобы любой школьник мог это понять. Чем больше шагов получится в объяснении, тем лучше.

Привет! Сегодня мы научимся умножать два больших числа 5263 и 1674, используя метод длинного умножения. Это довольно трудоемкий процесс, но я постараюсь объяснить его шаг за шагом так, чтобы было понятно каждому школьнику.

  1. Разложение чисел по разрядам: Давайте разложим каждое число на разряды:

    • 5263: 5000+200+60+3

    • 1674: 1000+600+70+4

  2. Умножение каждого разряда: Теперь начнем умножать каждое слагаемое одного числа на каждое слагаемое другого числа. Мы сделаем это поочередно для каждого слагаемого первого числа:

    5000 (из числа 5263) умножаем на каждое слагаемое числа 1674:

    • 5000×1000=5000000

    • 5000×600=3000000

    • 5000×70=350000

    • 5000×4=20000

    200 (из числа 5263) умножаем на каждое слагаемое числа 1674:

    • 200×1000=200000

    • 200×600=120000

    • 200×70=14000

    • 200×4=800

    60 (из числа 5263) умножаем на каждое слагаемое числа 1674:

    • 60×1000=60000

    • 60×600=36000

    • 60×70=4200

    • 60×4=240

    3 (из числа 5263) умножаем на каждое слагаемое числа 1674:

    • 3×1000=3000

    • 3×600=1800

    • 3×70=210

    • 3×4=12

  3. Сложение всех произведений: Теперь мы должны сложить все полученные результаты:

    5000000+3000000+350000+20000+200000+120000+14000+800+60000+36000+4200+240+3000+1800+210+12

  4. Пошаговое сложение:

    • Сначала сложим большие числа:

      • 5000000+3000000=8000000

      • 8000000+350000=8350000

      • 8350000+20000=8370000

      • 8370000+200000=8570000

      • 8570000+120000=8690000

      • 8690000+14000=8704000

      • 8704000+800=8704800

      • 8704800+60000=8764800

      • 8764800+36000=8800800

      • 8800800+4200=8805000

      • 8805000+240=8805240

      • 8805240+3000=8808240

      • 8808240+1800=8810040

      • 8810040+210=8810250

      • 8810250+12=8810262

Таким образом, результат умножения чисел 5263 и 1674 равен 8810262.

Даже дистиллированная локальная DeepSeek R1 32B с квантованными параметрами была близка к правильному ответу. Но всё же допускала ошибку в 1 сложении, так что незачёт. Интересно, что обдумывала решение она на английском, писала ответ на русском, потом вставила польское слово, и дальше перешла на украинский. :) Т.е. для LLM вообще нет разницы, на каком языке вести общение. Если в процессе квантизации пропали нужные слова, она легко переходит на другой язык.

Причём тут фашизм? Это был социализм чистой воды. В Советском Союзе тоже были квоты на женщин, представителей малых народов в депутатах и местном самоуправлении. Есть такое и в современном Китае. Но в бизнесе такая практика делает компании менее конкурентоспособными, накладывает обязательства, не связанные с основной деятельностью. Здоровый подход - это когда бизнес занимается бизнесом, а поддержкой женщин/малых народов/инвалидов/малоимущих и др. уязвимых групп занимается государство, либо благотворительные фонды.

Если каждый захочет себе в сервер ИИ-лопату, то у мануфактур будет много работы. Вон игровые карты всё никак не могут дефицит побороть (хотя есть теория что дефицит рукотворный).

Главное, в процессе гугления ответа на вопрос не выйти на саму себя.

Кто Intel мешал делать такие же лопаты, обладая всей цепочкой от дизайна микросхем до финального продукта? Нейронные числомолотилки - это даже проще архитектурно, чем ЦП.

Так то и в русском для быстрой передачи сигнала многие используют только пару-тройку матерных слов и тона. И умудряются передать этим весь спектр чувств: от восхищения до ненависти. Значит ли, что славянские языки могут быть тональными?

А если 1-й иероглиф во фразе потеряется, не начнут потом пары неправильно сочленять? Например, в 电脑, если переставить местами 脑电, это всё ещё компьютер, или какое-нибудь мозговое электричество?

И кто в Китае слова изобретает для новых понятий, и насколько это сложно? В русском и других родственных языках слово или словосочетание может придумать любой человек. И оно будет понятно многим носителям. Фактически, множество новых слов появляются в быту, прессе, науке каждый день. Это окказионализмы, регионализмы, заимствования, жаргонизмы, новые научные термины. Большинство из них не приживётся, тем не менее это факт. Интересно, как с этим в Китае.

Ну, не знаю. Обычного пользователя вряд ли заинтересовало это интервью. А энтузиастам очень интересно, на каких текстах обучают модель. Готовят ли они сами датасеты, или используют готовые. Разработчики ChatGPT раньше указывали %% разных датасетов в обучающей выборке, потом начали скрывать.

Что все китайцы игнорируют авторское право при обучении LLM, так это понятно. И тут я их поддерживаю - пока LLM не цитирует источники большими кусками, что можно было бы расценить как нарушение, использование любых текстов для обучения, будь то LLM или человеков, не является нарушением авторских прав.

Почему не спросили, на каких данных тренировали свою LLM?

Ещё проще: в обучающих данных есть вопросы и ответы, но нет вопросов и ответа "не знаю".

не факт. Идеологическая война, сгенерированные статьи с нужной повесткой, комменты от ботов на любом требуемом языке и т.п. - это оружие?

США опередили Китай в разработке лучшего AI: новая модель из Сиэтла превосходит DeepSeek V3

Я смотрю на сравнительную таблицу, и не вижу явного превосходства. На каких-то тестах одна LLM впереди на несколько процентных пунктов, на других другая. К чему эти заголовки?

Из статьи не вполне понятно, какая архитектура этой нейросети. Это файнтюн Llama? Т.е. не микс экспертов, как DeepSeek, а значит более требовательная к железу.

Для сравнения попробовал также DeepSeek R1 Distill Qwen 32B, с той же квантизацией Q5_K_L (23.74GB). VRAM задействована полностью, с кешированием. Скорость вышла Token Speed: 0.88t/s, что грустновато.

Интересно, что модель рассуждает по-английски, но затем легко отвечает по-русски.

-- Расскажи про Минск

-- <think> Alright,the user is asking me to tell them about Minsk. I should give a brief overview... </think>

Минск – это столица Беларуси...

На GeForce RTX 3060 12GB запустил дистиллированную DeepSeek R1 Distill Qwen 14B, взял с квантизацией Q5_K_L (Uses Q8_0 for embed and output weights. High quality, recommended). Загружал через Jan.ai. Работает очень быстро, Token Speed: 32.41t/s. Вся модель грузится в VRAM.

У вас после копирования этого перевода с vc.ru все ссылки помечены api.vc.ru.

ИИ-сервис собирает, хранит и обрабатывает на своих серверах в Китае данные пользователей

До запрета в России осталось ... дней.

Так в ответе "братьев" нет, во 2-м списке.

Разработки Яндекса и Сбера заточены на русский язык. И они недоступны пользователям из USA. А тут любой американец может оплатить DeepSeek со своей карточки и получить доступ.

Не всё. Где "братья" и "сальто"? И кстати ударение в "пальто" неправильно.

Information

Rating
3,305-th
Registered
Activity