ИИ развивается стремительными темпами, но чем сложнее становятся технологии, тем больше усилий требуется для создания подходящей инфраструктуры. По данным TrendForce, объём поставок ИИ-серверов во втором квартале 2024 года увеличился почти на 20% по сравнению с предыдущим кварталом. Аналитики ожидают, что по сравнению с 2023 годом годовой рост может составить 41,5%. Облачные провайдеры перенаправляют бюджеты на закупку ИИ-серверов. Для сравнения, рост поставок обычных серверов составит всего 1,9%.
Один из главных способов получить доступ к передовым чипам — облако. Виртуальные GPU-серверы — эффективное решение для работы с нейронными сетями, большими данными и параллельными вычислениями. Однако необходимость сокращения издержек разработки систем ИИ становится всё более очевидной, а преимущества в решении данной задачи — фактором конкуренции в этой области.
Посмотрим, что происходит в сфере аппаратного и программного обеспечения.
Аппаратная эволюция
Поскольку запуск ML-моделей требует больших вычислительных ресурсов, наращивание технических мощностей играет важную роль в развитии как отдельных компаний, так и целых стран.
Крупномасштабные ИИ модели оперируют триллионом параметров, поэтому растет спрос на расширение вычислительных мощностей. Компании-производители полупроводников и разработчики графических процессоров уже столкнулись с повышенным спросом на свои продукты. Согласно отчету MarketWatch, крупные технологические компании ежегодно выделяют до 200 млрд долларов на закупки процессоров и строительство дата-центров.
Современный искусственный интеллект был бы просто невозможен без узкоспециализированных чипов. И компании инвестируют миллиарды долларов в вычислительную инфраструктуру и развитие производств. Так, TSMC начала строительство современных полупроводниковых заводов, где хочет производить 4-нанометровые и 3-нанометровые чипы. Китай к 2025 году планирует нарастить вычислительную мощность серверных систем в стране до 300 эксафлопс, по сравнению с текущими 197 эксафлопсами.
Но банального наращивания мощностей и уменьшения техпроцессов может быть недостаточно, чтобы справиться с возрастающей нагрузкой, которую несут системы ИИ. В попытке предотвратить назревающую проблему вычислительного голода инженеры по всему миру работают над новыми чипами, архитектурами и походами к организации аппаратного обеспечения, заточенными под работу с системами ИИ.
Например, группа исследователей в проекте MIT.nano прорабатывают концепцию так называемого аналогового глубокого обучения на базе аналоговых процессоров. Их основу составляют программируемые резисторы, проводимость которых контролируется движением протонов. Электролит блокирует электроны, но не протоны, поэтому резистор может работать миллионы циклов, не выходя из строя. В то же время использование аналоговых процессоров обеспечивает более быстрые вычисления с меньшим потреблением энергии. Больше подробностей можно прочитать в исследовании «Nanosecond protonic programmable resistors for analog deep learning».
Такие инициативы — серьезный шаг в сфере систем ИИ. Хотя эксперты все еще считают, что подобных технологических разработок может быть недостаточно. Одна из основных проблем — нехватка дата-центров.
Сегодня в мире насчитывается более 8 000 ЦОД, но и спрос на дата-центры велик как никогда. Имеющихся ресурсов не хватит, чтобы покрыть нужды 2030 года, и строительство новых вычислительных площадок не решит проблему.
Эволюция вычислений
Помимо увеличения вычислительных мощностей, на точность и качество систем ИИ влияет развитие алгоритмов и подходов к машинному обучению. Инженеры разработали концепцию MaxDiff RL. Это — алгоритм обучения с максимальным диффузионным подкреплением для роботов (подробности изложены в научной работе «Maximum diffusion reinforcement learning»).
Алгоритм побуждает ботов исследовать окружающую среду случайным образом с целью получить разнообразный опыт. Обучаясь в процессе перемещения, роботы приобретают навыки для выполнения полезных задач. Как ожидается, «спроектированная случайность» повысит качество получаемых данных и поспособствует эффективному обучению.
По своей сути MaxDiff RL приказывает роботам двигаться более хаотично. Обучаясь с помощью самостоятельного случайного опыта, роботы приобретают необходимые навыки для выполнения полезных задач. Новый метод может значительно улучшить практичность и безопасность ИИ-систем в беспилотных автомобилях, роботах-доставщиках, домашних помощниках.
Однако есть мнение, что для повышения качества обучения систем ИИ, недостаточно предоставить им больше данных. На этой почве разрастаются дебаты о том, за какими ML-моделями будущее: крупными или компактными.
Например, Chinchilla от Google DeepMind содержат всего 70 млрд параметров, но в некоторых языковых тестах они превзошли Gopher и Jurassic-1, где число параметров превышает 170 млрд. Chinchilla AI имеет среднюю точность 67,5 % в тесте MMLU, что, например, на 7 % выше, чем у Gopher.
LLaMA, включающая 65 млрд параметров, показывает, что модели меньшего размера могут достичь большей производительности.
Другой пример — phi-1,5 от Microsoft, которая состоит всего лишь из 1,3 млрд параметров, но имеет такую же архитектуру, как и крупная модель ChatGPT 3.5. В сравнительных тестах она показала лучшие результаты, чем конкуренты аналогичного размера. Модель Phi-1.5 также продемонстрировала способности, сравнимые со способностями более крупных (в 5-10 раз) ИИ.
Да, производительность компактных моделей по-прежнему нельзя сравнить с крупными на абсолютно всех задачах, однако их легче обучать и интегрировать в конечные системы. Результаты их работы также могут быть более интерпретируемы, что позволяет выявить потенциальные искажения данных.
С другой стороны, исследователи в научной работе «Do Generative Large Language Models need billions of parameters?» показали, что масштабные языковые модели можно сократить даже на 60%, не жертвуя при этом производительностью во всех областях.
Универсального решения нет и, по словам руководителя отдела ИИ в компании KPMG, архитектура должна отталкиваться от проблем, которые необходимо решить, и доступных вычислительных ресурсов.
Чем помогает облако
Облачные вычисления ускоряют развитие моделей машинного обучения и помогают эффективно обрабатывать большие своды данных. Часть облачных серверов работают с GPU, созданными только для задач машинного обучения, также облако дает возможность выбирать разные ресурсы в зависимости от задач проекта, то есть их можно масштабировать, исходя из объема данных и сложности модели.
У разработчиков систем ИИ нет потребности иметь собственные дата-центры, что снижает расходы на содержание и масштабирование инфраструктуры. Таким образом, они могут полностью сосредоточиться на улучшении интеллектуальных возможностей приложения.
Также есть мнение, что объединение облачных вычислений с системами ИИ приведет к появлению облачных платформ нового поколения, процессами в которых, по большей части, будут управлять интеллектуальные алгоритмы.
Например, специалисты суперкомпьютерного центра MIT Lincoln Laboratory (LLSC) разрабатывают способы, которые помогут ЦОДам сократить потребление энергии. Их методы состоят из простых, но эффективных рекомендаций.
В одном из экспериментов ученые, обучая популярную языковую модель BERT, ограничение мощности графического процессора до 150 Вт, что привело к увеличению времени обучения на два часа (с 80 до 82 часов). Зато удалось на 15% сэкономить энергию. GPU подходят для тяжелых в вычислениях элементов системы, а CPU применимы в менее сложных областях работы.