Pull to refresh
8
0
Игорь@Fulgur

Пользователь

Send message

Нет SMT у Эльбруса.

У меня получились такие результаты, сначала для 7B модели (commit-hash a0caa34b162449b5c13b8d604573053300ff54a1):

./main -m /srv/home/kpmy/dev/llama.cpp/models/7B/ggml-model-q4_0.bin -p "Building a website can be done in 10 simple steps:" -n 512 -s 1678486056
...
llama_print_timings:        load time = 12850.61 ms
llama_print_timings:      sample time =  2100.08 ms /   512 runs   (    4.10 ms per run)
llama_print_timings: prompt eval time = 55385.39 ms /   271 tokens (  204.37 ms per token)
llama_print_timings:        eval time = 1018667.75 ms /   510 runs   ( 1997.39 ms per run)
llama_print_timings:       total time = 1085869.75 ms

А теперь для 65B модели:

./main -m /srv/home/kpmy/dev/llama.cpp/models/65B/ggml-model-q4_0.bin -p "Building a website can be done in 10 simple steps:" -n 512 -s 1678486056
...
llama_print_timings:        load time = 26450.83 ms
llama_print_timings:      sample time =  2600.10 ms /   512 runs   (    5.08 ms per run)
llama_print_timings: prompt eval time = 414718.80 ms /   271 tokens ( 1530.33 ms per token)
llama_print_timings:        eval time = 3368699.11 ms /   510 runs   ( 6605.29 ms per run)
llama_print_timings:       total time = 3797947.29 ms

В system-info видно это:

system_info: n_threads = 32 / 32 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | VSX = 0 |
sampling: temp = 0.800000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.100000
generate: n_ctx = 512, n_batch = 8, n_predict = 512, n_keep = 0

А вот 16С умеет до 4 Тб на процессор 

Михаил, на официальном сайте МЦСТ (http://www.mcst.ru/elbrus-16s), для Эльбрус-16С заявлена поддержка максимум 1 Тб на процессор. Не могли бы пруфы подвести?

Если очень хочется, то с расширениями уже можно работать с функциями-переменными (в данном случае достаточно уметь считать адрес функции с помощью LOC, что было доступно на P400 в 64V mode).
Мануал, по которому писалось: https://sysovl.info/pages/blobs/prime/devel/MAN1674_FortranIV_Jul76.pdf

Кодец
      external get_func
      double precision res
      common /MEM/ X(1)
      integer*2 X
      integer func, get_func, locx
      locx = loc(x)
      func = get_func(0)
      call eval(x((func-locx+1)/2), 3D0, 6D0, res)
      write(*,*) res
      func = get_func(1)
      call eval(x((func-locx+1)/2), 3D0, 6D0, res)
      write(*,*) res
      end

      function get_func(f)
        external add, mul
        integer f, get_func
        if(f.eq.1) then
          get_func = loc(add)
        else
          get_func = loc(mul)
        end if
      end

      subroutine eval(func, x, y, res)
        double precision func
        external func
        double precision x, y, res
        res = func(x, y)
      end

      function add(x, y)
        double precision x, y, add
        add = x + y
      end

      function mul(x, y)
        double precision x, y, mul
        mul = x * y
      end
А почему пинг смущает? На суперкомпьютер задачу поставил в очередь и сиди жди, пока запустится… Недельку покрутится и смотрим, что посчиталось. Есть вопросы со скоростью доставки информации туда и обратно, но, думаю, это не самая большая проблема)
Во-первых, выход из строя различных элементов. Каждый суперкомпьютер состоит из множества нод и статистически, из-за их большого количества, какая-нибудь из них выйдет из строя довольно быстро. И в какой-то момент необходимость перезапуска компьютера будет возникать так часто, что целиком суперкомпьютер не получится использовать из-за постоянных выпадений нод. Во-вторых, необходимость достаточно быстрого соединения между нодами, чтобы они могли эффективно обмениваться данными. Соответственно, чем больше нод используется для одной задачи, тем более качественный интерконнект должен быть. Поэтому не получится всю планету застроить одним суперкомпьютером для решения единственной задачи (кроме отопления планеты) из-за появления больших задержек на передачу данных.

Всем хороша линейка. И частоты радуют, и количество ядер. А вот максимальное значение оперативной памяти не очень… Хочется для этой линейки хотя бы 768 Гб или 1Тб.


Приходится присматриваться на e5-1650v4(6/12;3.6/4ГГц;620$), e5-1680v4(8/16;3.4/4ГГц;1723$), e5-2637v4(4/8;3.5/3.8ГГц;996$)..

Information

Rating
Does not participate
Registered
Activity

Specialization

Системный инженер, Ученый по данным