А я предположу, что гораздо жестче. Фактически индустрия сейчас построена на том, чтобы купить побольше H200, собрать побольше данных и обучить модель помощнее. И все из-за механизма внимания в трансформерных нейросетях.
Но что, если не будет внимания? Допустим, изобретут какую-нибудь новую по-настоящему эффективную архитектуру, которая превратит эти инвестиции в пыль?
Да уж для обучения лучше взять TPU v5e-8 в kaggle. И быстрей будет, и бесплатно, и памяти 128гб
А я предположу, что гораздо жестче. Фактически индустрия сейчас построена на том, чтобы купить побольше H200, собрать побольше данных и обучить модель помощнее. И все из-за механизма внимания в трансформерных нейросетях.
Но что, если не будет внимания? Допустим, изобретут какую-нибудь новую по-настоящему эффективную архитектуру, которая превратит эти инвестиции в пыль?