Comments / Profile of netcitizen / Habr

Андрей Кузнецов@netcitizen

Инженер

Rating

Subscribers

Как измерить LLM для задач кибербеза: обзор открытых бенчмарков

Спасибо за содержательный комментарий!

1) Все так. Но дать срез времени все равно полезно, особенно в узком домене и собственно статья про это.

2) MMLU и MMLU-Pro это база, про них много написано, конечно их и некоторые кодинг бенчи нужно добавлять для оценки кибербезных LLM. HLE я к таким, кстати, не отношу, слишком специфичный там набор задач.

3) Да, CyberGym выглядит неплохо, отличное дополнение. Кстати не только Антропик, китайцы тоже не отстают https://z.ai/blog/glm-5.1

4) Все так! Есть даже отдельный бенчмарк про это https://metr.org/ . Именно поэтому сейчас многое упирается в harness engineering.

Ждем :)

Параллельные вычисления в Apache Spark

netcitizen Aug 24 2022 at 08:38

На одну таску дефолтно аллоцируется 1 cpu, поэтому число ядер на экзекьюторе в вашем кейсе может влиять только на то сколько тасок параллельно он исполняет внутри одной джобы.

Параллельные вычисления в Apache Spark

netcitizen Aug 24 2022 at 07:29

И вот этот простой сводится к минимуму при параллельном запуске методов - почти в любой момент времени найдётся куда утилизировать временно освобождающиеся ядра.

Согласен, все так

Приложение запросило и получило 100 ядер, Yarn скорее всего не отдаст эти ядра ни при последовательном, ни при параллельном выполнении.

Легко отдаст если они будут простаивать. Другое дело, что возвращать их для жирного стейджа внутри таски - дополнительные накладные расходы, избежав которых в схеме с параллельным исполнением можно и получить тот самый профит.

Параллельные вычисления в Apache Spark

netcitizen Aug 24 2022 at 07:23

Для тестов можно просто поставить нужное число initialExecutors и он не будет добирать

Параллельные вычисления в Apache Spark

netcitizen Aug 23 2022 at 19:33

Стоит отметить, что проведение экспериментов в высококонкурентной среде, коим является Hadoop-кластер, - это то ещё удовольствие. Каждый тестовый запуск не похож на предыдущий, т.к. постоянно кто-то ещё что-то считает. И мой i-ый тестовый запуск может получить ресурсов меньше/больше, чем i-1. Также скорость получения ресурсов неодинаковая: можно со старта получить 100 ядер, а можно эти 100 ядер добирать на протяжении долгого времени.

Для таких целей можно зафиксировать ресурсы за вашим приложением c помощью spark.executor.instances

Параллельные вычисления в Apache Spark

netcitizen Aug 23 2022 at 19:04

Во-вторых, кажется, что для одной задачи прирост производительности от увеличения количества ядер не является линейным, а постепенно замедляется. Таким образом, большей эффективности получается добиться от параллельного запуска нескольких методов.

По умолчанию обычно одна таска = 1 ядро. Параллелизм на уровне экзекьютора зависит от параметров, которые вы указали в sparkConf.

Параллельные вычисления в Apache Spark

netcitizen Aug 23 2022 at 19:01

В итоге подход с параллельным выполнением методов всегда превосходил последовательный. В самом худшем раскладе параллельное выполнение на 40% быстрее. В самом лучшем - когда сошлись все звёзды - получалось 3х-кратное превосходство. Если взять средние показатели для целевого времени расчёта признаков (раннее утро), то параллельный подход выигрывает примерно в 2 раза.

В статье Cloudera немножко не про то говорят: там основная мысль в том, что бОльшее число партиций даст возможность разбросать таски по бОльшему числу экзекьюторов. В вашем случае прирост скорее всего в том, что в жирных подтасках утилизация экзекьюторов неравномерная и RM скорее всего успевал их забирать под нужды других задач. То есть тут прирост скорее всего только в том, что вы забрали ресурсы кластера под свои задачи и остальные стали работать чуть медленнее :)

Что лучше: Spark Structured Streaming или полное прекращение работы прода?

netcitizen Mar 25 2022 at 07:21

Отличная статья, спасибо!

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

netcitizen Aug 10 2021 at 08:26

Очень круто! Спасибо!

Как открыть комментарии и не потонуть в спаме

netcitizen Mar 5 2020 at 08:39

А какие у вас примерные нагрузки на сервис сообщений? BERT совсем недешевая штука в плане ресурсов.

Беспроводная эволюция, или Почему Wi-Fi 5 скоро отправится в музей технологий

netcitizen Jul 22 2019 at 21:05

Вы уровнем OSI промахнулись. OFDM это физический уровень и в WiFi он, конечно, есть. А CSMA-CA просто обеспечивает проверку чистоты эфира, чтобы не словить помеху по всей полосе при передаче и это уровень канальный.

Что слушают разработчики: от классики до игровых саундтреков — обсуждаем все самое интересное

netcitizen Jul 16 2018 at 08:21

Да, владелец даже пост об этом написал внушительный.

Что слушают разработчики: от классики до игровых саундтреков — обсуждаем все самое интересное

netcitizen Jul 16 2018 at 08:17

Можно тогда еще вот это попробовать.

Анализируй это — Lenta.ru

netcitizen Dec 4 2017 at 13:28

Займусь, как будет время непременно.
Не совсем по теме, но близко была хорошая статья feriat с аналитикой по Медузе.

Анализируй это — Lenta.ru

netcitizen Dec 4 2017 at 13:14

А я всё мечтаю добраться и сделать какой-то семантический анализ заголовков и содержания новостей Ленты, чтобы подтвердить или опровергнуть своё личное ощущение по поводу сильно упавшего качества её контента за последние годы.
Возможно стоило чуть по-другому оформить разбивку по рубрикам, т.к. субъективно она выглядит плохо читаемой.

Спасибо за статью и датасет.

Визуализация данных в браузере с помощью D3.js

netcitizen Jan 31 2017 at 13:34

Прекрасную инфографику от РИА в статье отрейскелили так, что смотреть без слез нельзя.

Отчёт со Sberbank Data Science Day: решения, победители, интервью

netcitizen Dec 28 2016 at 21:05

Спасибо за системный и детализированный отчет о мероприятии. Особенно интересно читать о том, как комбинации известных методов анализа фомируют конечные бизнес-решения.

Панель инструментов редакторов МойОфис

netcitizen Dec 23 2016 at 14:19

Смотрел цены для организаций и сравнивал их с лицензиями персональными Microsoft. Пардон.
Есть ли у персональные лицензии?

Панель инструментов редакторов МойОфис

netcitizen Dec 23 2016 at 14:07

Цены на ваши продукты вряд ли можно считать конкурентоспособными на рынке. Оставив за скобками госучреждения, не вижу вашей ЦА.

ICQ: 20 лет — не предел

netcitizen Nov 15 2016 at 12:18

Обе имеют клиенты как для ПК, так и для других платформ.

2 3 4 5 6

Information

Specialization