Comments / Profile of Fulgur / Habr

Игорь@Fulgur

Пользователь

ProfileArticles1PostsNewsComments7

ЛЛаМы на Эльбрусе

Fulgur Apr 12 2023 at 13:13

Нет SMT у Эльбруса.

ЛЛаМы на Эльбрусе

Fulgur Apr 11 2023 at 15:39

У меня получились такие результаты, сначала для 7B модели (commit-hash a0caa34b162449b5c13b8d604573053300ff54a1):

./main -m /srv/home/kpmy/dev/llama.cpp/models/7B/ggml-model-q4_0.bin -p "Building a website can be done in 10 simple steps:" -n 512 -s 1678486056
...
llama_print_timings:        load time = 12850.61 ms
llama_print_timings:      sample time =  2100.08 ms /   512 runs   (    4.10 ms per run)
llama_print_timings: prompt eval time = 55385.39 ms /   271 tokens (  204.37 ms per token)
llama_print_timings:        eval time = 1018667.75 ms /   510 runs   ( 1997.39 ms per run)
llama_print_timings:       total time = 1085869.75 ms

А теперь для 65B модели:

./main -m /srv/home/kpmy/dev/llama.cpp/models/65B/ggml-model-q4_0.bin -p "Building a website can be done in 10 simple steps:" -n 512 -s 1678486056
...
llama_print_timings:        load time = 26450.83 ms
llama_print_timings:      sample time =  2600.10 ms /   512 runs   (    5.08 ms per run)
llama_print_timings: prompt eval time = 414718.80 ms /   271 tokens ( 1530.33 ms per token)
llama_print_timings:        eval time = 3368699.11 ms /   510 runs   ( 6605.29 ms per run)
llama_print_timings:       total time = 3797947.29 ms

В system-info видно это:

system_info: n_threads = 32 / 32 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | VSX = 0 |
sampling: temp = 0.800000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.100000
generate: n_ctx = 512, n_batch = 8, n_predict = 512, n_keep = 0

ЛЛаМы на Эльбрусе

Fulgur Apr 11 2023 at 08:06

А вот 16С умеет до 4 Тб на процессор

Михаил, на официальном сайте МЦСТ (http://www.mcst.ru/elbrus-16s), для Эльбрус-16С заявлена поддержка максимум 1 Тб на процессор. Не могли бы пруфы подвести?

Как войти в IT?

Fulgur Jan 4 2022 at 12:36

Если очень хочется, то с расширениями уже можно работать с функциями-переменными (в данном случае достаточно уметь считать адрес функции с помощью LOC, что было доступно на P400 в 64V mode).
Мануал, по которому писалось: https://sysovl.info/pages/blobs/prime/devel/MAN1674_FortranIV_Jul76.pdf

Кодец

      external get_func
      double precision res
      common /MEM/ X(1)
      integer*2 X
      integer func, get_func, locx
      locx = loc(x)
      func = get_func(0)
      call eval(x((func-locx+1)/2), 3D0, 6D0, res)
      write(*,*) res
      func = get_func(1)
      call eval(x((func-locx+1)/2), 3D0, 6D0, res)
      write(*,*) res
      end

      function get_func(f)
        external add, mul
        integer f, get_func
        if(f.eq.1) then
          get_func = loc(add)
        else
          get_func = loc(mul)
        end if
      end

      subroutine eval(func, x, y, res)
        double precision func
        external func
        double precision x, y, res
        res = func(x, y)
      end

      function add(x, y)
        double precision x, y, add
        add = x + y
      end

      function mul(x, y)
        double precision x, y, mul
        mul = x * y
      end

Самый быстрый суперкомпьютер в мире побил рекорд ИИ

Fulgur Feb 21 2019 at 07:08

А почему пинг смущает? На суперкомпьютер задачу поставил в очередь и сиди жди, пока запустится… Недельку покрутится и смотрим, что посчиталось. Есть вопросы со скоростью доставки информации туда и обратно, но, думаю, это не самая большая проблема)

Самый быстрый суперкомпьютер в мире побил рекорд ИИ

Fulgur Feb 19 2019 at 08:43

Во-первых, выход из строя различных элементов. Каждый суперкомпьютер состоит из множества нод и статистически, из-за их большого количества, какая-нибудь из них выйдет из строя довольно быстро. И в какой-то момент необходимость перезапуска компьютера будет возникать так часто, что целиком суперкомпьютер не получится использовать из-за постоянных выпадений нод. Во-вторых, необходимость достаточно быстрого соединения между нодами, чтобы они могли эффективно обмениваться данными. Соответственно, чем больше нод используется для одной задачи, тем более качественный интерконнект должен быть. Поэтому не получится всю планету застроить одним суперкомпьютером для решения единственной задачи (кроме отопления планеты) из-за появления больших задержек на передачу данных.

Intel Xeon W-3175X: 28 ядер для дома

Fulgur Oct 19 2018 at 09:51

Всем хороша линейка. И частоты радуют, и количество ядер. А вот максимальное значение оперативной памяти не очень… Хочется для этой линейки хотя бы 768 Гб или 1Тб.

Приходится присматриваться на e5-1650v4(6/12;3.6/4ГГц;620$), e5-1680v4(8/16;3.4/4ГГц;1723$), e5-2637v4(4/8;3.5/3.8ГГц;996$)..

Information

Specialization