m1rko9 ноя 2020 в 12:16

Одна строка, которая ускорила клонирование в 100 раз

2 мин

17K

Git * Высоконагруженные системы * Управление продуктом * Управление разработкой *

Перевод

+37

Комментарии 29

youROCK 9 ноя 2020 в 12:28

Что же будет, когда они узнают про опцию --reference...

petropavel 9 ноя 2020 в 14:01

у них же Jenkins и Groovy. А git они знают плохо. Потому что они думают, что их конфиг соответствует тем командам git cli, и они думают, что
git clone <repo URL>
это shallow copy.

mayorovp 9 ноя 2020 в 17:32

С другой стороны, в инструментах CI нужный refspec мог бы и по умолчанию добавляться. Особенно когда в других местах указано имя ветки и флаг shallow.

Xambey 9 ноя 2020 в 14:35

Я так как то раз ускорил клонирование классов-сервисов в ts в 500 раз, заменив lodash'ский deepClone на самописное творение без кеша. Хз что это было, но с каждым копированием, из-за наличия ссылок на самих себя, копирование замедлялось дико...

FeelGood 10 ноя 2020 в 08:29

Любопытно, покажете ваше творение? :)

Andrey_Rogovsky 9 ноя 2020 в 14:39

А я когда-то ускорял игры перепрограммируя таймер.

mSnus 9 ноя 2020 в 17:29

А я велел ускорял игры, нажимая кнопку Turbo на системнике… но у git почему-то нет такой кнопки ((

aamonster 9 ноя 2020 в 14:45

Не понял. Для CI нужно же git archive, нет?
Ну или (лучше) один раз сделан git clone при развёртывании CI, а дальше git pull (+ git update / git archive).

petropavel 9 ноя 2020 в 14:50

нет, это если CI происходит в worker-ах, которые можно менять, если у них есть состояние.

У нас, например, всё или в докер-образах или в VM-ах, которые строго read-only. Туда git pull не сделаешь. Правда мы обычно и git clone не делаем, но если было б надо — делали бы shallow copy, вытаскивая строго один нужный коммит.

VioletGiraffe 9 ноя 2020 в 15:00

У меня при depth=1 были какие-то проблемы, не помню, с чем именно (возможно, с submodules), но суть в том, что клонирование только последнего коммита работало коряво и приходилось брать больше (что тоже не было надёжным решением, просто мне хватало такой глубины, но надёжно — только всю историю).

youROCK 9 ноя 2020 в 15:02

По сути git clone --reference ... и решает все проблемы, которые присущи shallow clone, хоть и вносит новые (лучше всего в reference-репозитории хранить только master ветку, и никакую больше, чтобы был невозможен сценарий, когда после git gc или git prune пропали какие-то объекты из репозитория).

petropavel 9 ноя 2020 в 15:17

у нас никаких не было, и даже представить не могу, что там может быть. submodules надо клонировать отдельно, конечно, там depth=1 как-то странно работало

youROCK 9 ноя 2020 в 15:24

Команды вроде git log, git blame и других будут давать неправильные результаты :). Также мерж веток может быть невозможен, если общий предок был раньше, чем момент, где история заканчивается.

petropavel 9 ноя 2020 в 16:04

у нас CI собирает и тестирует, мержить им никто не позволяет :)

для blame/merge нужна, конечно, вся история.

xXxVano 10 ноя 2020 в 11:48

Jenkins делает git log, что бы показать список коммитов, которые попали в текущий билд, но не попали в предыдущие.

aamonster 9 ноя 2020 в 15:26

Не уверен, что правильно понимаю. У вас r/о образы создаются сразу с нужным комплектом исходников?
Т.е. есть некая машина-фабрика, на которой вы держите репу, и никакого git clone на каждый чих не происходит, а просто извлекаете исходники посредством git update или git archive (в зависимости от того, куда их надо положить) + сборка образа?

petropavel 9 ноя 2020 в 16:12

по разному, у нас есть разные CI. Вот тут, например, есть один образ, который r/w и делает pull. Он собирает source tarball (да, git archive), остальные образы строго read-only собирают из этого тарбола. Образ собирается один раз, с компилятором и библиотеками. Тарбол заливается в образ по scp.

read-only решает сразу кучу проблем. Все тесты происходят в одном и том же окружении, никаких хвостов не остаётся. Если что повисло — можно прибить VM как угодно. Сборка проверяет, что всё хорошо собирается так же, как собирают пользователи — из того source tarball, что мы релизим. Можно одну и ту же VM запустить параллельно десяток раз.

aamonster 9 ноя 2020 в 16:23

Угу. Но в любом случае git clone выполняется крайне редко (примерно 1 раз – при настройке CI – в вашем случае создание r/w-образа). Так что непонятна эта битва за его оптимизацию в статье – shallow, refspec...

petropavel 9 ноя 2020 в 16:28

Ну мы-то и не оптимизируем. А они явно клонируют каждый раз. Поэтому им надо читать доки и делать shallow. Они почитали, сделали, и написали статью.

aamonster 9 ноя 2020 в 16:45

Вот я и не могу понять: зачем они клонируют? Какой в этом смысл? Почему им нужен репозиторий, а не исходники (снэпшот)?

mayorovp 9 ноя 2020 в 17:47

Репозиторий нужен потому что без него снэпшот вы и не сделаете, это очевидно. А почему clone делается каждый раз — тут у меня две идеи.

Во-первых, некоторые инструменты CI не заморачиваются использованием имеющейся рабочей копии и делают clone каждый раз, если им в настройках указали флаг shallow. Возможно, Jenkins ведёт себя так же, точно не знаю.

Во-вторых, есть такая практика как очистка рабочей директории перед каждой сборкой (это когда вы не доверяете инкрементным билдам, либо точно знаете что они сломаны) — иногда эта фича включается просто галочкой, иногда нужно отдельный шаг писать. В любом случае папка .git тоже очищается.

aamonster 9 ноя 2020 в 21:22

Взглюкнуло что-то (возможно, при нажатии "предпросмотр" ответ отсоединился от треда), ответ ниже – https://habr.com/ru/post/527116/#comment_22283168

aamonster 9 ноя 2020 в 21:19

Репозиторий нужен потому что без него снэпшот вы и не сделаете, это очевидно.

Второй экземпляр репозитория не нужен.
git archive master | tar -x -C /somewhere/else
(ну или git archive --remote ..., если надо втянуть из внешнего репозитория)

А почему clone делается каждый раз — тут у меня две идеи.

Неубедительно :-).

На билд-машине, понятное дело, спокойней делать билд с нуля, но убирать для этого папку .git ни к чему – это раз. Находиться она может вне доступа билд-скрипта (git worktree add) – это два. И я довольно-таки уверен, что мало-мальски продвинутые средства для CI умеют в git archive (а в самописные можно добавить) – это три. Google "jenkins git archive" или "jenkins pipeline git archive".

petropavel 9 ноя 2020 в 23:05

средства-то умеют. Но те, кто читают документацию и правильно настраивают CI и VCS — они не пишут на medium каждый раз, когда осознают, как лопухнулись, делая checkout-ы всех веток вместо той одной, которую надо собирать.

А те кто пишут — для них каждый взгляд в документацию — открытие. В итоге имеем то, что имеем.

gecube 9 ноя 2020 в 21:44

Всё это монорепозитории с большим наборов сервисов, специфичных для языка.

Дочитал до сюда, мой мозг сломался. Народ требует адекватных переводов иностранных текстов. Пришлось читать в оригинале

slonopotamus 9 ноя 2020 в 22:07

20GB? Да что вы знаете о больших гит-репозиториях. В геймдеве репозитории меряют сотнями гигабайт. Рекордсмен, с которым я работал — 1.5ТБ. И это НЕ монорепозиторий, это ОДИН проект.

НЛО прилетело и опубликовало эту надпись здесь

xXxVano 10 ноя 2020 в 11:57

Я честно и в 20GB текста не очень верю. Скорее всего неожиданно всякие картинки, dll/pdb/exe зависимостей, может docx/xlsx затесались. Но т.к. их мало, для них LFS никто не настраивал (вероятно).

neomoto 9 ноя 2020 в 22:30

Вот только они забыли в своей статье упомянуть, что нужно еще отключить дефолтный чекаут и включить опцию Honor refspec on initial clone, иначе ничего у вас не ускорится. Плюс 50 последних коммитов? Зачем? Для билда достаточно последнего

Зарегистрируйтесь на Хабре, чтобы оставить комментарий