Pull to refresh
1
0
Send message

Да уж для обучения лучше взять TPU v5e-8 в kaggle. И быстрей будет, и бесплатно, и памяти 128гб

А я предположу, что гораздо жестче. Фактически индустрия сейчас построена на том, чтобы купить побольше H200, собрать побольше данных и обучить модель помощнее. И все из-за механизма внимания в трансформерных нейросетях.

Но что, если не будет внимания? Допустим, изобретут какую-нибудь новую по-настоящему эффективную архитектуру, которая превратит эти инвестиции в пыль?

UFO landed and left these words here

Information

Rating
5,253-rd
Registered
Activity