Как стать автором
Обновить

Комментарии 17

Технический вопрос: что это был за NVMe на терабайт, и как его показатели во время нагрузки (хотя бы количество iops, хотя latency тоже неплохо было бы) согласуются с его же спецификацией?

Да практически любой современный SSD по скорости проседает, что на запись, что на чтение. На запись просто более явно.
Даже топовые, вроде Samsung 980.
image
image

В 2022 SSD без просадок по скорости нужно искать специально. Либо брать что-то старое или вообще б\у серверное.
Я год назад собрал под кеши нулевой рейд из SATA SSD Samsung не первой свежести, потому что точно знал, что они не проседают.
У большинства современных дисков сейчас грошевые SLC\MLC-кеши, перегрев и прочие счастливые моменты ради достижения красивых маркетинговых «6000 MB\s* на PCI-E 5!» на дай бог 10 минут.
Далее цитата:
Конструкция без DRAM обеспечивает исключительнуое быстродействие, включая головокружительную скорость последовательного чтения / записи до 3500/3000 МБ / с *, что в 6,2 раза превышает скорость твердотельных накопителей с интерфейсом SATA.


согласуются с его же спецификацией?
О, очень легко согласуются. Вот из спецификации:
Sequential and random write performance was measured with Intelligent TurboWrite technology being activated. Intelligent TurboWrite operates only within a specific data transfer size. Performance may vary depending on SSD’s firmware, system hardware & configuration and other factors.
А дальше хоть в спортлото. Причем в datasheet даже не потрудились воткнуть «up to», я удивлен, если честно. Значит доверия им меньше, чем маркетинговым картинкам на странице продукта.

Samsung 980 не является топовым диском, он же DRAM-less.

Ну как минимум ценовой сегмент у него вполне себе. А на деле…

Kingston NV1 [SNVS/1000G]. На swap выделен отдельный раздел.

Максимальная скорость последовательной чтения / записи: 2100 / 1700 Мбайт/сек. В тестах такую скорость показывает, при копировании больших файлов тоже.

Но вот при генерации текста iostat и близко такие значения не показывает. Завтра поисследую и чуть больше чисел про это напишу.

Если окажется, что дело в диске, могу взять что-то поменьше и побыстрее. Но пока есть сомнения, что это кардинально повлияет на скорость генерации.

Максимальная скорость последовательной чтения / записи: 2100 / 1700 Мбайт/сек. В тестах такую скорость показывает, при копировании больших файлов тоже.
Вы на 15 минут тест запустите.
image

И на десерт
image


Если окажется, что дело в диске, могу взять что-то поменьше и побыстрее.
Дело в диске. Перед покупкой гуглите у диска скорость после исчерпания кеша. В идеале этого кеша быть не должно. Ну или хотя бы так (после половины диска скорость все равно больше 1000). Если по деньгам 20,000 за 1ТБ дорого, берите два SATA SSD на 1ТБ (не проседающих по скорости, опять же) и собирайте в RAID0. Те же деньги, 2ТБ, скорость стабильная.
Хотя для вашего сценария я бы осторожно на SATA смотрел, не уверен, что там по IOPS.

А иначе рискуете купить что-то, у чего после исчерпания кеша скорость меньше, чем у HDD.

Спасибо, обязательно посмотрю и попробую исправить ситуацию.

Сейчас уже задним числом — возможно стоило бы купить под это дело у китайцев джентельменский серверный набор на каком-нибудь 2680v2 и воспользоваться тем фактом, что DDR3 нынче продается практически на развес (у меня в закладках модели на 32ГБ ECC лежат по 3 тысячи за штуку) и собираться там. Вот сходу на 128ГБ RAM и 10 ядер набор — 23 тысячи рублей. По отдельности можно и дешевле.
Это если расширение объема оперативки бы помогло. NVME можно в PCI-E слот добавить.

Думал об этом, но побоялся собирать, т.к. в случае неудачи это стало бы мёртвым грузом, неизвестно когда пригодившимся. Теперь хотя бы понятно, что смысл в этом есть.

Всегда можно прицепить пару HDD и закинуть под кровать, будет самосборный NAS.
Я смотрю у вас там и так 96 гигов, 128 сильно бы изменили ситуацию?

NAS вариант, да

По объёму памяти — надо всё что в swap лежит отправить в озу, чтобы к диску обращений не было. В идеале нужно 256 гб памяти. Ну или диск сделать таким же быстрым, как озу.

Да, 256 на DDR3 это уже серверное железо, со всеми вытекающими.
А на DDR4 дорого.
Тогда посмотрите б\у серверные SSD SATA на каком-нибудь Avito, если нужны IOPS, а не просто скорости чтения\записи. Только как следует покурите гугл предварительно, какие вам подходят, а какие нет.
А так лично я достаточно дешево себе 1ТБ урвал с 80% ресурса.

Ох, диск этот значительно превосходит свою спецификацию по случайному вводу-выводу, так как в спецификации про этот самый случайный ввод-вывод решительно ничего нет.

Я тоже не думаю, что даже Optane (светлая ему, хм, память) прямо на порядки всё ускорит, но если у Вас есть возможность как-нибудь бесплатно на время заиметь SSD, который хотя бы что-нибудь обещает для случайного чтения/записи QD1, то ради науки можно сравнить. Типичные бытовые диски типа популярного Samsung 970 EVO Plus будут обещать 15-20 тысяч iops, серверные SATA за двукратную цену - до 80 тысяч iops, а дальше идут серверные PCIe диски с сотнями тысяч iops, и, хоть и можно купить 1.5 Тбайт всего за 50-60 тысяч рублей, оно того наверняка не стоит.

С NV1 же не может быть вообще никакого спроса для Вашей задачи, это диск для просмотра фотографий котиков в интернете с ноутбука и эпизодического сохранения понравившихся в папочку.

Справедливо. У меня постоянно крутилось в голове, что не могли же просто так выгрузку на диск сделать, если так всё плохо. И где-то оно должно быстро работать. Теперь приходит полное осознание что к чему.

Не совсем понятно, как это приладить к реальной торговле, хотя лет двадцать тому...
...новостные ленты успешно парсились куда более простыми методами, и отрабатывалась задержка реакции мяса, но это было возможно благодаря обучению в ходе которого эта реакция выявлялась... Здесь-же модель обученная писать годные сочинения на тему, и критерии годности у неё иные чуть более чем совсем. Да и параметры то вы сами задаёте, тогда зачем? Получается какая то причинно следственная шляпа. Post hoc, non est propter hoc.

Генерация будет более релевантной, если контекст будет структурно похож на данные, на которых модель обучалась. Если нет возможности посмотреть на исходные данные для обучения, можно погадать. Например - попробовать использовать конкретный формат подачи новостей:
"Москва. 9 апреля. INTERFAX.RU - ..."
Или формат РБК: рубрика, дата, время, число просмотров, заголовок материала, краткая выдержка, и только потом основной текст. Ну и в конце спровоцировать на то, что вам нужно - "Акции компании на утренней торговой сессии", "Консенсус-прогноз экспертов" и т.п.

Да, всё так. В примерах контекст это случайные фразы на разные темы из интернета. В том числе и абсурдные, которые предложили в комментариях к посту про yalm, как если бы спрашивал тестировщик :)

При хорошем контексте результат вполне себе приемлемый + я совсем не смотрел в сторону изменения параметров в конфиге. Думаю там тоже есть над чем поэксперементировать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории