Мы постоянно бенчмаркаем всякое разное в open-source и иногда пишем не с нуля, а хакаем под свои нужды. Например, тот же flash attention 3 мы переписывали для Alice AI (про это можно почитать в техрепорте). Также из-за того, что на разных моделях/длиннах контекстов/железе может быть лучше та или иная реализация, то в любом случаи приходится иметь множество кернелов, которые делают одно и тоже, но по-разному -)
Мы постоянно бенчмаркаем всякое разное в open-source и иногда пишем не с нуля, а хакаем под свои нужды. Например, тот же flash attention 3 мы переписывали для Alice AI (про это можно почитать в техрепорте). Также из-за того, что на разных моделях/длиннах контекстов/железе может быть лучше та или иная реализация, то в любом случаи приходится иметь множество кернелов, которые делают одно и тоже, но по-разному -)