fischer 14 фев 2013 в 18:56

Оптимизация 2d-приложений для мобильных устройств в Unity3d

13 мин

106K

Разработка игр*Unity*

Туториал

+49

Комментарии 87

Biga 14 фев 2013 в 19:43

Не понял, почему Scale разбивает batch, но об этом, наверное, надо спрашивать у разработчиков Unity.

Насколько оправдано использование Unity для разработки 2d игр (небольших и «среднего размера»)? Или лучше поискать другой движок?

dipyalov 14 фев 2013 в 20:26

Это описано где-то в доках Unity — такое вот странное поведение.

По второму пункту — Unity кроссплатформенный, С# — очень комфортный язык. Плюс, в Unity есть редактор.

Без базовых знаний 3D графики не обойтись в любом случае. Если сомневаетесь, какой движок выбрать, выберите любой и что-нибудь на нем сделайте — после этого будет проще движки выбирать :)

Tar 14 фев 2013 в 20:32

Насколько мне известно, только non-uniform scale разбивает dynamic batching.

Насчёт 2D игр — тут можно посмотреть игры с комментариями разработчиков, там есть 2D игры.

Leopotam 15 фев 2013 в 00:37

Разбивает любой скейл, причем GO с одинаковым скейлом начинают батчится между собой снова. Еще есть одно ограничение — в меше должно быть не более 300 вертексов (не более 900 вертексных атрибутов, если быть более точным). Если меши подпадают под это ограничени — батчинг сработает, иначе будет дополнительный дк.
В своих спрайтах просто сделал галочки — «Bake scale on start» — при старте скейл запекается в меше и сбрасывается в единицу. Все работает прекрасно за исключением скейла иерархии — вся цепочка от корня должна иметь единичный скейл. Так же иногда нужен динамический скейл (например, при нажатии на кнопку она должна ужаться и вернуть свои размеры через определенное время) — на такими неприятные штуки пришлось закрыть глаза. Использую единый подход для спрайтов + гуи. В случае сложного гуи с необходимостью скролинга разных списков и т.п. расширенных контролов — хорошо помогает NGUI (а вот с анимацией у него не очень хорошо, как и с внутренней логикой, работающей практически везде через GetComponent()).

PapaBubaDiop 15 фев 2013 в 00:11

Родные frameworks от Apple сделаны идеально для разработки 2D игр.

Не нужны никакие движки, разве только у Вас сложная физика и столкновения.

-5

mokus 14 фев 2013 в 20:29

Нормально для них — 30-40 Draw Calls.

Всегда стараюсь всю сцену впихнуть в 1-2 вызова. С системами частиц, любыми трансформациями, рисованием примитивов, кривых итд. Но, конечно, работаю не с Юнити.

-2

ZimM 15 фев 2013 в 01:44

Что-то мне сдается, что запекание всего перечисленного добра в 1-2 вызова обходится дороже, чем соббсна 30-40 вызовов…

Leopotam 15 фев 2013 в 03:09

Для мобилок — неверное утверждение.

mokus 15 фев 2013 в 03:36

для любой системы неверное утверждение :)

Leopotam 15 фев 2013 в 10:33

Это не так — обновление данных в буфере вершин в односторонннем порядке (WriteOnly) для мобилок, где число draw calls необходимо держать в пределах 10-20 — просто спасение, ибо тут упирается все именно в gpu, а не в cpu.

Leopotam 15 фев 2013 в 10:40

Извиняюсь, не так прочитал :) Просто для десктопных цифромолотилок сейчас и по 500 дк — это нормально, а вот для мобилок уже 20 дк будет не подъемно, если ориентироваться на бюджетки.

ZimM 15 фев 2013 в 16:23

Что значит неподъемно? Оверхед на каждый вызов никоим образом не относится к видеокарте, это прежде всего временные затраты на обмен данными между cpu и gpu. И как правило, этот оверхед очень мал по сравнению с тем, что видеокарте приходится рендерить. Вот у меня сейчас в игре, скажем, 30 draw calls, и при этом рендеринг упирается тупо в филлрейт, с которым на бюджетных девайсах куда больше проблем, чем с количеством вызовов. Т.е. я могу хоть в сотню вызовов все отрисовывать — быстрее не станет.
Минимизация количества вызовов — не панацея. В документации Unity вообще приведены такие ориентировочные числа: не больше 200 вызовов для мобильных девайсов, не больше 2000 для ПК

Leopotam 15 фев 2013 в 16:42

Простой тест — отрисуйте 200 мешей, из 4 вертексов и 2 трисов с шареным материалом с текстурой каждый:
1. с отключенным динамическим батчингом.
2. с включеннм динамическим батчингом.

Запускайте тесты на реальной железке.

>> В документации Unity вообще приведены такие ориентировочные числа: не больше 200 вызовов для мобильных девайсов, не больше 2000 для ПК
Надо меньше слушать и больше проверять. Возможно, для последнего ябблопада это и так, но попробуйте повторить то же самое на гигагерцовом куалкоме с adreno200.

ZimM 15 фев 2013 в 18:27

Я и не спорю, что 200 — это в общем случае перебор. Просто 20 — это же совсем мелочь.

Простой тест — отрисуйте 200 мешей, из 4 вертексов и 2 трисов с шареным материалом с текстурой каждый:

Проверил.

С батчингом (1 вызов на все меши + 1 на индикатор фпс):

400 мешей — 60 фпс
200 мешей — 60 фпс

Без батчинга (по вызову на каждый меш)

400 мешей — 42 фпс
200 мешей — 60 фпс

Девайс — Motorola Defy, с цпу OMAP3630 (1GHz) и гпу PowerVR SGX530 (который примерно раза в 1.5 медленнее, чем стоящий в древнем iPhone 3GS SGX535). Достаточно лоу-энд для вас?
Так что документация Unity вроде как даже не врет.

Leopotam 15 фев 2013 в 18:35

>> С батчингом
>> 400 мешей — 60 фпс
>> Без батчинга
>> 400 мешей — 42 фпс

Что и требовалось доказать — даже на такой простой геометрии есть разница и это без всей остальной логики, только рендер.

>> Достаточно лоу-энд для вас?
Разговора про ябблофоны не было в принципе — там графический чип гораздо мощнее того зоопарка, который ставится в ондроеды. До сих под можно найти найти смарты на ARMv7 и с adreno200/205, а PowerVR-ы ставятся в относительно производительные решения.

Leopotam 15 фев 2013 в 18:39

>> Что и требовалось доказать — даже на такой простой геометрии есть разница и это без всей остальной логики, только рендер.
Добавлю — все это сильно зависит от gpu, можно почитать труд MadFinger-ов о сравнении производительности и фишках PowerVR и что им пришлось сделать, чтобы оно относительно вменяемо заработало на тегре2.

ZimM 15 фев 2013 в 18:49

Согласен. Как я писал в комменте ниже, например, на PowerVR SGX530 вывод одного полупрозрачного квада во весь экран может легко съесть 15 фпс.
А Motorola Defy — уже очень старый аппарат (2010 год), и уже тогда SGX530 уже тогда считался видеочипом не ахти. Тот же Adreno 205 гораздо быстрее. Вот уже SGX540 — совсем другого класса производительности.

Leopotam 15 фев 2013 в 18:53

Ну мой эталон для тестов на данный момент — это acer liquid с adreno 200 (800x480) и на нем 60фпс бывает практически только при пустой сцене и очистке камеры сплошным цветом. Если на нем пойдет с приличной производительностью, то пойдет и на всем остальном. Если не пойдет — надо крутить, пока не пойдет :) Потом для проформы делается проверка на более мощных смартах и планшетах с разными чипами.

ZimM 15 фев 2013 в 18:58

Если на нем пойдет с приличной производительностью, то пойдет и на всем остальном.

Согласен :) Хотя меня из-за этого постоянно терзают сомнения рода «Хм, а может добавить вот этот крутой эффект и забить на потерю fps на очень слабых девайсах?..»

Leopotam 15 фев 2013 в 19:03

В связи с переходом на 4-ку пришлось забить на ARMv6, а это минимум четверть рынка текущего железа потребителей (из-за китайцев, которые продавались за копейки и устраивают потребителей в серфинге по сети, например). Так же из-за того, что ARMv7 скорее всего нет без gles2, придется отказаться еще и от gles1.1 и все перевести на короткие шейдеры :(
Но тенденция радует — все меньше остается старого железа под 2.х и еще меньше под ондроед 3.х, а 4.х-ветка неуклонно растет, что уже означает неплохое железо у потенциальных потребителей.

ZimM 15 фев 2013 в 19:09

А что такого нового в Unity 4 вы используете, что были вынуждены перейти? Просто интересно. Большая часть нововведений там или не особо критична, или же к мобильным играм относится слабо…
По поводу GLES 2 точно так же не пойму — если работает на GLES 1.1, то зачем переводить? Да и переводить шейдеры, в общем-то, необязательно — Unity переводит всё сама с вполне адекватным качеством. Вот буквально вчера решил «оптимизировать» и перевел самые тяжелые шейдеры с ShaderLab на CG. Прироста — от силы 1-2 фпс.

Leopotam 15 фев 2013 в 19:12

>> А что такого нового в Unity 4 вы используете, что были вынуждены перейти?
Была скидка при апгрейде с 3.х :) Ну и полноценные динамические шрифты на всех платформах. Правда пока до этого не дошло, т.к. NGUI.

>> По поводу GLES 2 точно так же не пойму — если работает на GLES 1.1, то зачем переводить?
С fixed-а неизвестно что генерит юнити — проще самому указать что именно хочу в vert и frag.

ZimM 15 фев 2013 в 19:23

Дык если в качестве целевого API выбрать GLES 1.1, то fixed function и будет использоваться. Если вам не нужны возможности GLES 2.0, то, ИМХО, лучше на 1.1 и остаться — например, у меня GLES 2.0 всегда работает примерно на 15-20% медленнее.
Хотя возможно, на современных видеочипах ситуация будет другая.

Leopotam 15 фев 2013 в 19:31

Вот именно. рубить концы так все :)

ZimM 15 фев 2013 в 18:39

Требовалось доказать то, что разница между 1-2 вызовами и эдак 50 практически нулевая и абсолютно не соответствует вашей фразе

а вот для мобилок уже 20 дк будет не подъемно

Так что в пределах эдак 50 draw call оверхед на вызовы практически никак на производительность влиять не будет. Оптимизировать нужно в первую очередь сам рендеринг.

Leopotam 15 фев 2013 в 18:43

Дополнил про разные gpu и что тестирование на одном устройстве мало что дает. Возможно, для одной платформы, где других ускорителей нет, это и сойдет, но не для ондроеда и прочих nook-ов.

YoungSkipper 16 фев 2013 в 00:00

У меня вопрос. А расскажите что внутри у себя Unity3D подразумевает под 20 — Draw Call — это просто 20 вызовов glDrawArrays за апдейт? Тогда какие-то подозрительно маленькие цифры — вот у нас 2д игра, там за апдейт over 1к таких вызовов (800 текстур, 5к нодов). Даже после того как собрали весь GUI в 3-4 атласа — ну сотни (отдельные окна внутри батчаться только пока). Ну потом еще добавим логические слои может будет десятки — но блин, это же мелочь. Оно то и на over 1к то если логику убрать на втором айпаде занимало не больше 15-20ms, переход на атласы ну дал пару-тройку допольнительный ms, ну еще потом выйграем. Но это мелочь.

Или DrawCall это нечто большее?

fischer 16 фев 2013 в 00:15

Уточните, пожалуйста, на чем разработка, как смотрите Draw Calls и на каком целевом устройстве?

YoungSkipper 16 фев 2013 в 00:20

С++, iPad2-3-4 (ну и андроид планшетки), смотрим сколько раз за update вызвался glBindTexture/glDrawArrays.

Leopotam 16 фев 2013 в 00:29

По идее оно и есть. Вы под андроидом на реальном железе тестили? Потому что запуск под профайлером в редакторе позволяет только выявить узкие места, но не показывает реальную производительность.
З.Ы, Ужасающие цифры, если честно. Вы гугломапсы со всеми слоями что ли рисуете? :)

YoungSkipper 16 фев 2013 в 01:05

Да, тестили на реальном. Правда последний раз под андроидом я смотрел давно давно — релиз под апады на носу (android только через месяц), у нас тогда была поменьше нодов — но там все было ок. Будет плохо — есть куда еще оптимизировать.

Причем тут редактор не очень понял :)

Да нет, причем тут гугл мапсы. Там все достаточно просто. Возьмем пока наш старый случай когда весь гуи был в отдельны картинках, а не в атласах (так активно гуи менять проще) и батчинга никакого небыло (за исключением шрифтов конечно)

Берем просто GUI, просто окно магазина… Вернее так, у нас в базе есть GUIFrame и есть GUITileset — GUITileset это nine patch tile — тайлсет из 9 частей (углы, стороны, цетр) — который можно добавлять в GUIFrame и в простейшем случае он его заполняет. Т.е. отрисовка одного тайл сета это 9 вызовов (количество мешей от 2-х для угла в лучшем случае, до сотни — например центр это кусок 32x32 текстура с noise, а им нужно залить окно 800x500). Т.е. 9 вызовов. Ну и таилсет может быть 3 patch — если ему по высоте/ширине менятся не нужно — например кнопка.

Дальше что такое магазин. Это окно, плюс панель для заголовка (в нем фильты — пяток кнопок), плюс два вертикальный фрейма, в одном категории (штук 20) — вертикальный скрол, в другом предметы в каждой категории (горизонтальный скролл). И так левый фрейм — там 10 видны за раз (20 внутри), кажда кнопка это таилсет (два по факту — нажатый или нет, но одновременно один отрисовывает) + иконка внутри + текст (считаем что текст за один вызво отрисовывается). Т.е. на кнопку это 110*(9+1+1) — вызово.

Далее, справа блоки с предметами — каждый блок таил сет, внутри иконка (внутри иконки циферки), блок с характеристиками (рамка вокруг таилсет), текст описания, три картник монеток. Ну штук 25 вызовов. А блоков 6 на 3 :)

Дальше продолжать? Есть более сложные окна.

Да тупо — вот иконка предмета в рюкзаке — плашка внизу, иконка, поверх рамка (подсвечивать не по уровню предметы), поверх по низу плашка (там цифры еще доп.), в уголке цифра количество. Т.е. хоть убей меньше чем за 1+1+1+1+1+1 вызово не нарисовать (см. выше про без атласов и батчинга). А иконок в рюкзаке — на закладке 8x10 минимум.

Leopotam 16 фев 2013 в 01:21

Глупый вопрос — чем не устроил в таком случае стандартный гуи в юнити? Он делает ровно столько же и с тем же количеством draw calls. Собственно, поэтому его разработчики под мобилки и тихо ненавидят, ибо при том количестве дк, что и у вас, любая железка должна вставать торчком, если это не десктоп хотя бы 6 годичной давности.

YoungSkipper 16 фев 2013 в 01:28

У нас не Unity, у нас сильно переписанный cocos2d-x. Юнити нам не очень подходит — у нас там много не стандартных нюансов, типа загрузки картинок в паралельно потоке (в том числе и по сети), загрузки анимации из бинарных данных которые уже в томформате в котором должы быть в памяти, мешанина форматов (jpeg/png/pvr565,pvr8888,pvr444,pvrtc4, png+прозрачнотьс в jpeg), отрисовка swf-вок свои рендерером и прочая магия, которая не очень совмстима с Unity :)

А что касается железки — мы бы и на первой айпаде бы жили (правда с 20-23 fps) если бы не память. И это нам еще есть куда оптимизировать.

ZimM 16 фев 2013 в 00:31

В общем случае — это количество переключений состояния, но в целом да, это вызовы операций немедленной отрисовки (glDrawArrays/glDrawElements).
А вот у вас что-то подозрительно огромные цифры. Возможно, второй айпад менее чувствителен к количеству вызовов, но, как я тестировал в комментариях выше

С батчингом
400 мешей — 60 фпс
Без батчинга
400 мешей — 42 фпс

Насчет GUI — ну например, все сторонние GUI-системы для Unity стараются минимизировать количество вызовов буквально до 1.

YoungSkipper 16 фев 2013 в 01:15

Я совсем low end не смотрел давно, у нас немного другой фокус в текущем проекте. Но блин 400 мешей это как жить то? Весь GUI целиковыми картинками рисовать или на каждый чих запекать — так отзывчиваости не будет или памяти не хватит.

Вот я тупо пример с рюкзаком пресонажа в ММОRPG приводил — каждая иконка предмета это 64 на 64 пускай, иконки все разные берутся с сервера, количество 2к+, набор в рюкзаке произвольный. Т.е. хоть убей каждую иконку отдельный draw call. Пускай рюкзак в рюкзаке на одной странице 8x10 предметов. Это тупо на иконки 80 отрисовок по 2 треугольника для каждого своя текстура. Т.е. 160 мешей на одну страницу в рюкзаке. А там еще пресонаж с вещами рядом одетыми + боевка внизу + задник боевки + чат.

Хотя конечно о лоу-енде типа Motorola Defy мы даже и не думаем :)

Leopotam 16 фев 2013 в 01:29

Весь контент не должен ехать сервера по запросу, а должен быть уже на клиенте, либо должен приезжать в виде клиентских апдейтов при логине. Не суть. Давайте посчитаем. Допустим, вы не берете дохлое железо, значит потяните текстуры 2к х 2к, а это уже 32х32 = 1к иконок. 2 такие текстуры и вы получаете всего 2 дк для отрисовки любого количества из этих 2к иконок. Т.к. вы все-равно держите все картинки в оперативке, то еще и тут будет прирост по скорости загрузки и по размеру (если использовать сжатие).

YoungSkipper 16 фев 2013 в 01:41

Ооо… тут много чего.

Ну на счет клиенских апдейтов — за билд больше 50 мегабайт отдел маркетинга вам такое спасибо скажет, весь день будите отбиватся. Это раз.

Во вторых — даже если и не так, это чего — когда геймдизу захочется новый предмет ввести это ему не 15 минут в админке, а апдейт выкатывать? Или художника позыв иконку улучшить? Нафиг, нафиг.

Далее. Вот изменил художник иконку — что теперь игроку атлас посылать целиком в 2 (6 в ретине) мега (вместо 16 кб) — вот нам спасибо игроки скажут (а текстуры мы и 4кx4к потянем если нужно).

Ну и еще — не держим мы иконки в памяти, только те которые по факту у конкретного игрока — да еще и только на текущей и вокруг страницах (остальные стримингом будут подгружаться в процессе скролла — с диска или сети если конент не выкачен) — иначе памяти не напасещься… Да и нету у игрока еще всех иконок — если он выбрал не выкачать контент, а докачивает его по мери потребности.

Ну фиг с ними с иконками — возьмем доспехи на персонаже — для примера доспех 12 предметов, 60 типов доспеха, x2 мужской/женский — каждый предмет атлас 20-30 кадров (в различных фазах анимации). Масс бой — ты видишь до 6 персонажей, каждый может быть в произвольном наборе пердметов. Персонажы постоянно меняют, прибегают к тебе, убигают, бои 500x500 — можно увидить практически любой набор. Что будем делать? :)

Leopotam 16 фев 2013 в 01:49

>> Ну на счет клиенских апдейтов — за билд больше 50 мегабайт отдел маркетинга вам такое спасибо скажет, весь день будите отбиватся. Это раз.
>> Во вторых — даже если и не так, это чего — когда геймдизу захочется новый предмет ввести это ему не 15 минут в админке, а апдейт выкатывать? Или художника позыв иконку улучшить
и далее по тексту — надо просто всех, любящих делать частые неконтролируемые апдейты, отправлять сразу к маркетологам :)
Все апдейты должны быть оттестированы и выкатываться запланированно большими бандлами — юзверы скажут спасибо за сэкономленный трафик и скорость работы + саппорт ваших серверов выкатит ящик коньяка. Всю статику (а весь контент это именно статика) можно выкатывать в облако и забыть про него до следующего апдейта.

>> Персонажы постоянно меняют, прибегают к тебе, убигают, бои 500x500 — можно увидить практически любой набор. Что будем делать? :)
Все точно так же — контент статичен, бегают только идентификаторы — все лежит в атласах и рисуется максимально быстро и без подзагрузки. Если будут проблемы с постоянно увеличивающимся количеством объектов — это уже проблемы геймдиза, генерирующего тонны бесполезного лута.
Вообще, по-хорошему это надо все разделять по «экранам» и грузить только то, что нужно, остальное выгружать.

YoungSkipper 16 фев 2013 в 02:02

Так, ну про апдейты это разговор не предметный — наш опыт показывает, что апдейты должны быть как можно чаще и в идеале не требовать изменения клиента. И плюс чем меньше качать тем лучше.

Ну а статика и так будет в облаке благодаря амазоновскому CDN.

Эээ… Все доспехи в атлас? У нас даже браузерка себе такого позволить не может, хотя 600 метров на ура выжирает. А нам бы в 80 уложится. Все доспехи загрузить это мегов так 256 за раз минимум, это если похитрить.

И что значит по экранам — вот бой, PVP бой, против тебя оппонент, на заднем фоне пара — вот они меняются, к тебе прибегает и убегает.

Leopotam 16 фев 2013 в 02:08

>> И что значит по экранам
иконки доспехов и всего прочено не нужны на экране боя, как и начинка инвентаря.
По поводу «все доспехи в атлас» — неужели все 2к предметов визуально уникальны? Я понимаю там диабла или вов, да и то там комбинации, визуально разных вряд ли будет даже 2к. Т.е. можно комбинировать иконки из запчастей + оптимизировать малоотличающиеся, разобрав их по запчастям. Понятно, что дизайнерам придется нарисовать инструментарий для сборки предметов из запчастей, но профит очевиден.

YoungSkipper 16 фев 2013 в 02:24

2к я говорил про иконки предметов вообще, не про доспехи. Вообще уникальных картинок в контенте у нас 5к+.

Доспехов я зовучил сколько. А про вов не нужно — там только базовых тиеров 12 штук + еще штук 50 остальных сетов доспехов. Если брать комбинации вещей там не удивлюсь если будет больше 1кк комбнаций потенциальных.

У нас вот только что глянул 456 уникальный мужских частей доспехов — и да они большей часть сильно разные. Рисовать по частям — возвращяемся выше к количество call draw :)

Leopotam 16 фев 2013 в 02:28

Рисовать по частям — возвращяемся выше к количество call draw :)

Так как раз нет — каждая запчасть будет меньше целой картинки и в один атлас их влезет больше. А дальше — батчить по атласам. Но раз вам хватает производительности, то и так хорошо. :)

mokus 15 фев 2013 в 03:21

уточните, что имеете ввиду под «запеканием всего перечисленного добра»

ZimM 15 фев 2013 в 04:14

Объединение всех объектов и сущностей в один массив для вывода через glDrawArrays/glDrawElements как бы не мгновенное и подразумевает процессорный оверхед (как и обновление сего массива). Поправьте, если я не прав.

ZimM 15 фев 2013 в 04:21

Уточню — для динамических объектов. Статику можно объединить вполне очевидно (если она рисуется одинаково)

Leopotam 15 фев 2013 в 10:44

1. Буфер можно держать в VRAM (где она есть в виде отдельной памяти — будет хороший буст).
2. Обновлять буфер не для всего, а только для изменяющихся объектов.
3. Для того, чтобы получать пенальти по скорости, нужно ворочать по несколько тысяч вершин в каждом кадре.

mokus 15 фев 2013 в 12:42

Посмотрите в сторону XNA или Sony PSM SDK. Как они работают с 2д. Объединение всего что возможно и минимизация вызовов к видеокарте — это лучшая практика.

Количество вершин у вас ведь все равно одинаковое, что разбивать вызовы что не разбивать. Наполнить 30 массивов по 40 вершин или 1 в 1200 — какая разница?
При том количестве вершин что в 2д (врядли вы вылезете за 2000) и при том как 2д обрабатывается (вы же в 2д объекты двигаете, а не камеру) вообще нет смысла выделять «статику» — быстрее будет банально сформировать 1 буфер и 1 раз его весь обновить.

ZimM 15 фев 2013 в 16:32

В Unity точно так же можно при желании рендерить всю сцену в 1-2 вызова. Вот только, по-моему, оверхед на каждый вызов не настолько велик, чтобы был вообще смысл говорить о разнице в производительности для 2д между, скажем, 1 и 30 вызовами.
А про статику — имелось в виду, что её можно загрузить в VBO и в дальнейшем забыть о ее обновлении вообще.

mokus 15 фев 2013 в 16:46

а вы проверьте. у меня на живом проекте после запихивания всего в 2 вызова фпс поднялся с 45 до 60. До этого отдельно рендерил кривые и на каждую кривую был отдельный вызов (всего до 20).
Не могу сказать, что это заслуга только уменьшения количества вызовов, так как переписывание сильно затронуло разные части рендера.

ZimM 15 фев 2013 в 18:28

habrahabr.ru/post/169451/#comment_5878417

dipyalov 14 фев 2013 в 20:36

Пункт про предварительную оптимизацию очень неочевидный и больше зависит от опыта и квалификации.

Например, мы когда делали Shadow Snake, затачивали его строго под iPad и натянули игру на другие разрешения перед релизом за 2 дня. Вин!

Когда делали анимации — заводили под каждый анимированый спрайт отдельную текстуру (один или несколько стрипов анимации) — так было проще. В результате получили ощутимое количество нерационально использованного места в текстурах. По Draw Calls мы вписались в 20-30, но вот по размеру дистрибутива вышли в районе 70 Мб. Сейчас возникли проблемы с публикованием в Google Play, т.к. там свыше 50 Мб приходится гемороиться. Чудом вписались в 48 Мб путем сжатия всего чего только можно было сжать и ухудшения качества некоторых текстур, т.к. переделопачивать всю графику — слишком много работы. Теперь уже знаю, что это оптимизировать надо с самого начала. Фэйл!

sinnus 14 фев 2013 в 20:37

Слабые устройства — это какие?

fischer 15 фев 2013 в 09:07

Имелись ввиду iPhone3gs, iPhone/iPod 4 и iPad1. То, что ниже, я вообще не рассматриваю, учитывая статистику их использования и то, что в новом xCode под armv6 уже не скомпилишь (но если захотеть, то можно). Можно глянуть сюда для сравнения производительноси.
Некоторые крутые (обычно 3d) игры забивают на них и в описании пишут: Поддержка iPhone4s и выше.

Tar 14 фев 2013 в 20:43

Спасибо, хорошая статья.

Сейчас кажется уже пофиксили, но был в Unity (версии ~3.4) забавный баг. Если в коде встречалось Input.acceleration, то при сборке проекта подключалась библиотека акселерометра и молча вставала в общий update. Отъедая ~5-7 ms, что для намеченных 30fps было критично.
Причём этот Input.acceleration мог быть в никем не используемом классе и даже не попадать в сборку.

zoo 14 фев 2013 в 20:52

спасибо за советы, тоже столкнулся с проблемой производительности, на айпаде все летает, на айфоне вобще не запускалось, в итоге было пагубное влияние размеров текстур

agasper 14 фев 2013 в 22:19

Про влияние скалинга на batch не знал, спасибо.

Tar 14 фев 2013 в 22:57

Ещё один совет по оптимизации — помогает указание очерёдности отрисовки объектов. К примеру, землю лучше всего рисовать последней, т.к. она часто закрыта объектами. Если на земле сложный шейдер, то выгода может быть существенной.

Порядок отрисовки можно менять в шейдере или в материале.

wildmandnd 14 фев 2013 в 23:46

Уже было написал гневный коммент, но полез в родную доку — оказывается там-то и написано «Don't use scale». Правда, следующие же предложения все раскрывают — не батчатся группы между собой, а не вообще, объекты (1,1,1), (x,x,x) и (x,y,z). Таким образом, если вся сцена в объектах произвольного масштаба (что как бы в реальном проекте ожидаемо), то на батчинг никакого влияния масштаба не должно быть. Дока правда молчит насчет влияния на скорость рендера ненормализованных по масштабу мешей. В частности, NGUI в принципе построен на масштабировании всех элементов для pixel perfect, и прекрасно в 1 вызов рендерит все.

Leopotam 15 фев 2013 в 00:42

NGUI работает по совершенно иному принципу — он генерирует и динамически обновляет по одному мешу на каждую панель, т.е. все виджеты не имеют своего меша, а их трансформы учитываются при апдейте общего меша.

fischer 15 фев 2013 в 09:12

По поводу группировки объектов со Scale (1, 1, 1), (2, 2, 1) и (2, 2, 2). Вот вам реальная статисткика: с ними — 60-70 Draw Calls, после приведения все к 1 — 20-25 Draw Calls. У меня сложилось впечатления, что не все объекты со скейлом (2, 2, 1) группируются друг с другом, даже если это абсолютно одинаковые объекты, хотя судя по документу Unity должны. Вероятно сыграло роль еще и то, что объекты перекрывали друг друга.

wildmandnd 15 фев 2013 в 09:14

А на чем смотрели, 4.0 или 3.х как в статье? Я про 4.0

fischer 15 фев 2013 в 09:19

Ясно, у нас пока 3.x. Видно в 4.0 группировку усовершенствовали. Спасибо за комментарий.

ZimM 15 фев 2013 в 01:41

Использую большую часть описанных в статье советов. Однако добавлю, что лучше использовать как можно меньше полупрозрачных объектов, занимающих большую площадь экрана — на мобильных девайсах с этим очень плохо. Так, на Motorola Defy вывод банального полупрозрачного текстурированного квада во ведь экран опустил FPS с 55~60 до 40.

Fushigi 15 фев 2013 в 08:01

Да да, помнится читал у девлоге у одних ребят что оказалось выгоднее делать больше полигонов, чтоб меш был приблизительно по форме объекта и оставалось меньше лишних прозрачных пикселей

nanodesu 15 фев 2013 в 08:54

Расскажите, использовали ли Sprite Manager (2), и как генерировали атласы. Тот что SM2, например, может делать это автоматически.

fischer 15 фев 2013 в 09:16

Нет. Спрайты у нас делаются на своей системе. А атласы делались художником вручную с самого начала. Неудобно, конечно, и ошибки бывают. Но сейчас как раз работаю над их автогенерацией с возможностью настройки.

Leopotam 15 фев 2013 в 10:36

Обычно всегда используется вот это — docs.unity3d.com/Documentation/ScriptReference/Texture2D.PackTextures.html
В редакторе или рантайме. А дальше уже кто-как сохраняет полученные Rect-ы для дальнейшей выборки из атласа.

fischer 15 фев 2013 в 11:10

Да, видел. Спасибо!
Я уже занимался лет 5 назад упаковкой текстур. Сейчас появились новые идеи типа использования прозрачных частей спрайтов как дополнительное пространство. Обычно это круглые объекты, соответственно, их прозрачные части — углы. Вот такие углы разных спрайтов на текстуре можно совмещать друг с другом для более экономичного использования пространства текстуры. Поэкспериментирую, насколько это эффективно, и напишу результаты;)

Leopotam 15 фев 2013 в 11:16

Не получится — это не пустое пространство, а блоки, которые не должны ничего содержать при отрисовке на экране. Можно отрезать прозрачные области по краю, но это работа художника + контент может быть выровнен так, чтобы правильно анимироваться.

fischer 15 фев 2013 в 11:19

Возможно, Вы не поняли. Они и не будут ничего содержать, так как они прозрачные) Но вот такие прозрачные области двух спрайтов можно совместить, в результате целостность спрайта не потеряется, т.к. в это области все равно останется прозрачно, и будет получено дополнительное место в размере этой области.

fischer 15 фев 2013 в 11:25

Другое дело, будет ли это существенно добавлять дополнительного пространства на текстуре? Вот это я и хочу выяснить)

Leopotam 15 фев 2013 в 11:27

Попробовать можно, но куча потраченного времени вряд ли окупит результат — проще пересортировать спрайты по атласам. Например, у меня все автоматизировано для сборки по папкам-атласам. Внутри папки каждый файл имеет имя вида ИмяОбъекта_Фпс_ТипАнимации_ИмяАнимации[-N] (где N от [1 до +max] и служит для верной сортировки кадров в анимированном спрайте). Это все подхватывается из папки и собирается в редакторе юнити в оптимизированные бинарные дескрипторы применительно к каждому атласу. Полученный атлас так же складывается рядом с дескриптором + у него настраиваются свойства импорта. В скрипте, посредством которого выполняется генерация атласа, стоит проверка на переход размеров за лимит 1к х 1к — таким образом можно отслеживать слишком большие и потенциально нерабочие атласы на старых устройствах. По полученному атласу проводится визуальный анализ и невлазящие куски переносятся в другую папку-атлас.

fischer 15 фев 2013 в 11:31

Интересно) Да, я тоже думаю над вопросом траты времени. Но если удастся сделать, я обязательно отпишусь о результатах. Чтобы либо предостеречь, либо наоборот порекомендовать)

fischer 15 фев 2013 в 11:21

А про выравнивание контента для анимирования — это не должно влиять на текстуру. В текстуре должен быть спрайт, максимально урезанный без прозрачных «полос» по краям. А нулевая точка для анимации должна задаваться отдельно. Будь это задание в скрипте спрайта в случае анимированных спрайтов, или смещение относительно базового объекта, в случае организации объектов. В любом случае, не стоит это делать через добавление прозрачности на текстуре для визуального смещения объекта;)

Leopotam 15 фев 2013 в 11:29

Зависит от сложности анимации. Иногда проще что-то получить в виде готовой последовательности кадров, чем пытаться анимировать это руками через простые трансформации.

fischer 15 фев 2013 в 11:35

Тоже верно. Тут тогда получается вопрос выбора. И ситуация может получиться, как в комментарии выше — в одном случае получилось сразу и практически без оптимизации, в другом, из-за того, что сразу не задумались — фейл и большие трудозатраты по переделыванию. Тяжело сразу понять, как выйдет;)

Leopotam 15 фев 2013 в 11:41

Тех, кто делает сразу и без оптимизации, следует пересадить на дохлые железки 600МГц / 256Мб ОЗУ, gles1.1 и лимитом памяти на процесс в 32Мб, вот тогда они научатся ценить ресурсы и сразу же будут делать прямые и быстрые решения, потому что другие попросту не запустятся :) Всегда следует ориентироваться под самое дохлое железо — более быстрое будет работать гарантированно + весьма и весьма шустро, с хорошим запасом производительности.

YoungSkipper 16 фев 2013 в 01:23

Ой. А зачем ориентироват на дохлое железо, если оно дает 1-2% прибыли? :)

Да и уже 1000Мгц/256 ОЗУ и gles 1.1 — это вполне себе второй айпад (а лимит на процесс говорит что вы вероятно на java пишете) — а он по прожнему зверь дай бог, и под категорию дохлое желехо не попадает.

Leopotam 16 фев 2013 в 01:25

Нет, на ява я не пишу слава богу, на юнити мы строгаем. :) Ресурсы развращают — надо держать себя в руках :)

Igor_Sib 15 фев 2013 в 23:25

Мои 5 копеек:

Наверно нет смысла писать самому свою 2D систему, если только для своих проектов (если на продажу — то там разговор особый). За 65 баксов есть 2D Toolkit — там есть и упаковка в атласы, и спрайт порежет и выкинет прозрачные места, и вывод спрайтов, и анимации, и масштабирование без увеличения DrawCall (только что проверил, не увеличивается). В общем, рекомендую.

Если же просто интерес к написанию, или есть затея продавать его в дальнейшем — то да, свой имеет смысл. Если же цель быстро написать игру — то проще, быстрее и дешевле использовать готовый инструмент, тем более не дорогой.

Leopotam 16 фев 2013 в 00:34

А лучше подловить акцию и купить NGUI за 50% :) В принципе, так и поступаю — для множества анимированных спрайтов (включая инстанцирование) использую свою либу, для продвинутого гуи — стороннюю либу (NGUI). Будущий встроенный гуи будет сильно на него похож, но не во всем лучше, так что вопрос о покупать или нет пока не стоит — покупать стоит, потому что оно тестится на куче версий и платформ и в коде ставятся затычки в виде условной компиляции workaround-ов. Самостоятельно такое писать — очень затратно по времени.

arabesc 15 фев 2013 в 15:26

Отключение исключений поможет сохранить до 30% производительности.

Можно узнать, откуда такие данные?

fischer 15 фев 2013 в 15:34

На личном опыте проверено. Unity не зря сделали такую возможность: Fast but no Exceptions.
Также можно отключить их в xCode (если включены) и сравнить производительность.

fischer 15 фев 2013 в 15:41

Если вы имели ввиду цифру 30 — точнее будет так: 20-30% производительности. Это из личного опыта и профайла.

arabesc 15 фев 2013 в 21:26

Просто хочется понять, откуда берется рост производительности, что во включенной поддержке исключений так тормозит? Насколько понял, речь про настройку для скрипта Unity, а не про родные исключения Obj-C/C++? Может дело в кривой трансляции C# в нативный код или что там у них проихсодит, вроде проверки какого-нибудь флага исключений после каждой операции.
Еще вот вижу, что вместе с исключениями отваливатеся рефлекшн.

fischer 15 фев 2013 в 22:02

Ну, исключения (и связанные с ними операторы — try/catch/throw), всегда добавляли некоторую нагрузку на программу. Что .NET/Mono, что в C++/Objective-C. Только все зависит от конкретной реализации. В Unity их отключение дает существенный прирост.
В xCode, если включить Objective-C Exceptions — в зависимости от сложности проекта они тоже будут влиять на производительность.

Wozik 1 июн 2013 в 13:53

Код проверки валидности вызовов занимает процессорное время

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Оптимизация 2d-приложений для мобильных устройств в Unity3d

Комментарии 87

Публикации

Истории