Разборка движка визуальных новелл Qlie / Хабр

Любительский перевод визуальных новелл, если сравнивать с переводами других игр, имеет ряд особенностей и подразумевает работу с большим количеством текста. Пожалуй, подавляющее большинство всех визуальных новелл было выпущено на японском языке, лишь немногие были переведены на английский(официально или любителями) и еще меньше было переведено на другие языки.

Поэтому, при работе с переводом приходится сталкиваться с японскими движками, многие из которых оказываются не слишком дружелюбными к локализаторам. Из-за этого, довольно быстро приходит осознание, что наличие переводческих навыков, знания языка, большого энтузиазма и свободного времени, вовсе не означает, что переведенная версия игры скоро увидит свет.

Очень приближенно, процесс перевода любой игры(не только визуальных новелл), подразумевает:

Распаковку игровых ресурсов(если они не находятся в открытом доступе)
Перевод необходимых частей
Обратная запаковка перевода

Однако в случае с японскими визуальными новеллами это обычно выглядит так:

Распаковка игровых ресурсов
Перевод текстовой части игры(игрового сценария)
Перевод графической части игры
Обратная запаковка перевода
Переделка движка, чтобы заставить его работать с переведенным контентом

Надеюсь, наш опыт окажется для кого-то полезным.

В далеком 2013 году(а возможно и раньше) я задумал перевести с японского визуальную новеллу Bishoujo Mangekyou -Norowareshi Densetsu no Shoujo- (美少女万華鏡 -呪われし伝説の少女-). Опыт перевода игр у меня уже был, но раньше приходилось переводить только новеллы на относительно простых и известных движках вроде Kirikiri.

Здесь же нашей команде переводчиков предстояло вскрыть движок этой новеллы, еще до того, как добраться до собственно самого текста.

Начнем с описания .exe файла, где упомянуты слова QLIE и IMOSURUME. В самом файле встречается строка FastMM Borland Edition 2004, 2005 Pierre le Riche, значит движок, скорее всего, написан на Delphi.

При беглом гуглении удается узнать, что Qlie — это название движка для визуальных новелл, выпущенном компанией Warmth Entertainment. По видимому, IMOSURUME – внутреннее имя скриптового движка, а Qlie – коммерческое название. Есть сайт qlie.net, где перечислены игры, выпущенные на этом движке и официальный сайт компании Warmth Entertainment.

Но нигде в свободном доступе нет ни официальных инструментов для работы с движком, ни документации к нему, что ожидаемо.

Поэтому разбираться с игрой приходится самостоятельно, опираясь на неофициальные утилиты. Для начала стоит найти все части игры, которые нужно будет переводить.

Игровые архивы находятся в файлах data0.pack, data1.pack и data7.pack в подпапке \GameData. Заставки лежат в папке \GameData\Movie, но их пока можно не трогать.

В hex-редакторе видно, что никаких узнаваемых заголовков у игровых архивов .pack нет, зато в конце файла есть кусок, похожий на оглавление и метка FilePackVer3.0

К счастью, для данного формата уже есть распаковщик и даже не один. Мы использовали консольный exfp3_v3 от asmodean.

Распаковка не так проста, как может показаться. Поскольку движок поддерживает несколько архивных форматов(FilePackVer1.0, FilePackVer1.0, FilePackVer3.0), и в данном случае используется FilePackVer3.0, для правильной распаковки потребуется еще и специальный файл-ключ key.fkey, которым зашифрован архив. Он находится в подпапке \Dll

Кроме того, exfp3_v3 должен уточнить, архив из какой именно игры он распаковывает.
Поэтому требуется еще и указать номер игры из предложенного распаковщиком списка(игры серии Bishoujo Mangekyou там под номером 15), либо указать исполняемый файл игры в качестве третьего параметра для распаковщика.

Уже после распаковки игровых файлов, появилась логичная мысль: а как в будущем запаковать обратно игру с готовым переводом? Ведь распаковщик не поддерживает обратную операцию.
По нашей просьбе w8m (большое ему за это спасибо) добавил в свою программу arc_conv.exe возможность запаковывать игровые архивы. Достаточно запаковать все измененные файлы в новый архив(например, data8.pack), поместить в папку GameData, и они автоматически подтянуться в игру.

Вернемся к распакованным ресурсам. Файлы игрового сценария из архива data0.pack можно найти в подпапке \scenario\ks_01\

Все файлы сценария с расширением .s закодированы в далеко не самой удобной кодировке Shift Jis, и никакие юникодные кодировки движок не поддерживает. Cтроки для перевода выглядят приблизительно как эти:

【キリエ】
％1_kiri1478％
「へえ……分かっているじゃない」

私が献上したロシアンティーを見て、キリエは嬉しそうに目を細める。

^cface,,赤目微笑01

【キリエ】
％1_kiri1479％
「日本人は、ジャムを紅茶に入れて飲むのが、ロシアンティーだと勘違いしている人が多いのだけれど……」

Можно заметить, что каждая фраза на японском предваряется именем героя в японских скобках. (【】), который эту фразу произносит(в игре она выводится в верхней части окна с текстом). Или же, если это слова автора, то имя не добавляется.

Но остаются еще служебные команды.

Команды движка в сценарии чем-то напоминают язык разметки TeX, но намного более не интуитивны и неудобны, по сравнению с командами Kirikiri или RenPy.

Вот некоторые из них:

@@@ — тройная собака. Часто файлы скрипта начинаются именно с этой команды. По видимому, загрузка определений из сторонних файлов.

Например:

@@@Library\Avg\header.s

@@ — двойная собака. Метка в файле скрипта. На нее позже можно будет выполнить переход.

％1_kiri1478％ — проигрывание файла озвучки. Эти команды вставляются между именем героя и текстом, который выводится на экран. «1_kiri1478» — в данном случае, имя файла из папки \voice\ файла data1.pack Интересно, что в команде используется японский процент(％), а не обычный.

^savedate, ^saveroute, ^savescene, — три команды, которые скорее всего используются в системе сохранений игры и должны заносить в сэйв информацию о месте и времени сохранения игрока.

Например:

^savedate,"現在"
^saveroute,"美少女万華鏡－１－"
^savescene,"呪われし伝説の少女　オープニング"

То есть, дата: настоящий момент, ветка: Bishoujo Mangekyou -1-, сцена: Norowareshi Densetsu no Shoujo Opening. Эти данные должны были отображаться в слоте сохранения, но, видимо разработчики решили от этого отказаться. В итоге ^saveroute во всех частях сценария одинаковый, ^savedate сменяется с «настоящего момента» на «мечтания», а в ^savescene меняются внутриигровые дни(вернее, ночи).

^facewindow, – состояние текстбокса с выводимым на экран текстом. (Показан — 1 или нет — 0)

^sload, — проигрывание внутриигровых звуков из папки \sound\ на соответствующем канале.

sload,Env1,◆セミ01アブラゼミ

Проигрывание звука цикад на канале Env1

У команды есть два необязательных параметра, первый отвечает за закольцовывание звука, а второй пока остается загадкой, но он используется в игре редко.

^sload,SE1,■クチュ音01,1

Проигрывание закольцованного звука на канале SE1.

^eeffect – вывод на экран спецэффекта на определенное количество секунд. Судя по всему, поддерживает последовательный вывод нескольких эффектов.

^eeffect,WhiteFlash

Эффект белой вспышки.

^ffade – эффект перехода при смене экрана.
Имеет целую кучу дополнительных параметров, но реально полезны только несколько: название эффекта перехода, дополнительная картинка, если она требуется и время выполнения перехода.

^ffade,Overlap,,1000

Растворение одной картинки в другой, за 1 секунду.

^iload – загрузка фоновой картинки на экран. Изображению можно присвоить id для обращения к нему в будущем.

^iload,BG1,0_black.png

Вывод файла 0_black.png в качестве фона с id BG1

^we и ^wd — включение и выключение изображения в окне.

^facewindow,1 и ^facewindow,0 Включение и выключение изображения героя в окне диалога.

^mload — проигрывание музыки на определенном канале.

^mload,BGM1,nbgm13

Проигрывание трека nbgm13 на канале BGM1

Одни из самых важных команд:
\jmp — переход к метке с указанным именем.

^select — вывод на экран окошка выбора, где игрок должен выбрать один из вариантов.

Например:

^select, Да, Нет
 \jmp,"@@route01a"+ResultBtnInt[0]
@@route01a0

Здесь переход будет выполнен после ответа на вопрос, а номер ответа(0 или 1) возвращается из ResultBtnInt[0]. В итоге, \jmp переместит повествование на метку @@route01a + номер ответа. То есть, @@route01a0 или @@route01a1

Неприятная особенность в том, что обычная запятая в этих командах служит разделителем и не может быть использована в самих вариантах ответа. У японцев такой проблемы нет, они используют японскую запятую(、). Мы в данном случае можем заменить запятую на ‚ (U+201A SINGLE LOW-9 QUOTATION MARK).

Например:

^select, Пожалуй‚ я соглашусь, Нет‚ спасибо

Остальные команды не так важны в первом приближении.

Конечно, перед переводом сценарий стоит перекодировать во что-то более удобное, например в UTF-8, чтобы сочетать кириллические и японские символы.

После смены движка(об этом следующей части), игра воспринимает и русский текст, и японский. Но пока для совместимости требуется закодировать японские символы в Shift Jis, а кириллические – в кодировке cp1251.

Мы быстренько набросали программку на Питоне для перекодировки с учетом кириллицы:

UTF8 to cp1251 and ShiftJIS

# -*- coding: utf-8 -*-

# UTF8 to cp1251 and ShiftJIS recoder
# by Chtobi and Nazon, 2016

import codecs
import argparse
from os import path

JAPANESE_CODEPAGE = 'shift_jis'

UTF_CODEPAGE = 'utf-8'
RUS_CODEPAGE = 'cp1251'


def nonrus_handler(e):

    if e.object[e.start:e.end] == '～':  # UTF-8: 0xEFBD9E　->　SHIFT-JIS: 0x8160
        japstr_byte = b'\x81\x60'

    elif e.object[e.start:e.end] == '－':  # UTF-8: 0xEFBC8D　->　SHIFT-JIS: 0x817C
        japstr_byte = b'\x81\x7c'

    else:
        japstr_byte = (e.object[e.start:e.end]).encode(JAPANESE_CODEPAGE)

    return japstr_byte, e.end


if __name__ == '__main__':

    arg_parser = argparse.ArgumentParser(prog="Recode to cp1251 and ShiftJIS",
                                         description="Program to encode UTF8 text file to "
                                         "cp1251 for all cyrillic symbols and ShiftJIS for others. "
                                         "Output file will be inputfilename.s",
                                         usage="recode_to_cp1251_shiftjis.py file_name")
    arg_parser.add_argument('file_name', nargs=1, type=argparse.FileType(mode='r', bufsize=-1),
                            help="Input text file name. Only files coded in UTF8 are allowed.\n")

    codecs.register_error('nonrus_handler', nonrus_handler)

    input_name = arg_parser.parse_args().file_name[0].name

    output_name = path.splitext(input_name)[0] + ".s"

    with open(input_name, 'rt', encoding=UTF_CODEPAGE) as input_file:
        with open(output_name, 'wb') as output_file:

            for line in input_file:
                for char1 in line:
                    bytes_out = bytes(line, UTF_CODEPAGE)

                    output_file.write(char1.encode(RUS_CODEPAGE, "nonrus_handler"))

        print("Done.")

Однако и тут не обошлось без проблем. Программа, при попытке перекодировать символ «тильды» ～(U+FF5E FULLWIDTH TILDE) выдавала ошибку «UnicodeEncodeError: 'Shift Jis' codec can't encode character '\uff5e' in position 0: illegal multibyte sequence»

Сначала я грешил на Питон, но в итоге выяснился довольно необычный нюанс. Существует неопределенность между методами соотношения юникодных и не юникодных японских кодировок в зависимости от конкретной реализации.

В итоге, Windows соотносит символ Shift Jis с кодом 0x8160 с юникодным ～ (U+FF5E FULLWIDTH TILDE), а другие перекодировщики(например, утилита iconv) соотносят тот же символ с 〜(U+301C WAVE DASH), согласно официальной таблицы соотношений юникода — ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFT JIS.TXT

Для определения соответствий между символами Microsoft, видимо, решили использовать схемы из своей кодировки cp932, которая является расширенной версией Shift Jis.

Та же ситуация с символом с кодом 0x817C, который перекодируется в UTF8 как －(U+FF0D FULLWIDTH HYPHEN-MINUS) в Windows, или как − (U+2212 MINUS SIGN) в iconv.

Поскольку все файлы сценария были сначала переконвертированы из Shift Jis в UTF8 с помощью Notepad++(а он использует таблицу соответствия, принятую в Windows), то при обратной конвертации из UTF8 в Shift Jis через нашу питоновскую программу, появлялась пресловутая ошибка перекодировки.

Поэтому пришлось учитывать случаи появления ～ и －отдельными условиями.

Были и другие мелкие недочеты — например, многоточие … (U+2026 HORIZONTAL ELLIPSIS) заменялось кириллическим многоточием из cp1251, а не японским из Shift Jis.

После перевода текста можно переходить к работе с игровой графикой.

Графические файлы игры находятся в тех же pack архивах, но после распаковки над ними еще предстоит потрудиться. Например, почти все png картинки распаковываются в виде файлов типа sample+DPNG000+x32y0.png Иными словами, png изображения порезаны на горизонтальные полоски, толщиной 88 пикселей и каждая полоска записана в отдельный файл. В имени файла указан порядковый номер полоски(DPNG000...009) и координаты x,y.

Я до сих пор теряюсь в догадках, зачем это было нужно. Если для затруднения рипанья ресурсов из игры, то это явно не самый лучший метод.

Чтобы склеить разрезанные png файлы, в свое время был создан маленький скрипт merge_dpng на Перле от asmodeus, который использует ImageMagick. К сожалению, и с ним возникли проблемы. Во-первых, нужен был Перл, которым я не пользовался и даже после его установки, выяснилось, что скрипт неправильно работает.

По этому поводу мы написали аналогичную программу на питоне:

Qlie engine dpng files merger

# -*- coding: utf-8 -*-

# Qlie engine dpng files merger
# by Chtobi and Nazon, 2016
# Requires ImageMagick magick.exe on the path.

import os
import glob
import re
import argparse
import subprocess

IMGMAGIC = os.path.dirname(os.path.abspath(__file__)) + '\\' + 'magick.exe'

IMGMAGIC_PARAMS1 = ['-background', 'rgba(0,0,0,0)']
IMGMAGIC_PARAMS2 = ['-mosaic']

INPUT_FILES_MASK = '*+DPNG[0-9][0-9][0-9]+*.png'

SPLIT_MASK = '+DPNG'

x_y_ajusts_re = re.compile('(.+)\+DPNG[0-9][0-9][0-9]\+x(\d+)y(\d+)\.')


if __name__ == '__main__':

    arg_parser = argparse.ArgumentParser(prog="DPNG Merger\n"
                                         "Program to merge sliced png files from QLIE engine. "
                                         "All files with mask *+DPNG[0-9][0-9][0-9]+*.png"
                                         "into the input directory will be merged and copied to the"
                                         "output directory.\n",
                                         usage="connect_png.py input_dir [output_dir]\n")
    arg_parser.add_argument("input_dir_param", nargs=1, help="Full path to the input directory.\n")
    arg_parser.add_argument("output_dir_param", nargs='?', default=os.path.dirname(os.path.abspath(__file__)),
                            help="Full path to the output directory. "
                                 "It would be a script parent directory if not specified.\n")

    input_dir = arg_parser.parse_args().input_dir_param[0]
    output_dir = arg_parser.parse_args().output_dir_param[0]

    os.chdir(input_dir)

    all_append_files = glob.glob(INPUT_FILES_MASK)  # Select only files with DPNG

    prep_bunches = []

    for file_in_dir in all_append_files:
        # Check all files and put all splices that should be connected in separate list
        for num, bunch in enumerate(prep_bunches):
            name_first_part = bunch[0].partition(SPLIT_MASK)[0]  # Part of the filename before +DPNG should be unique

            if name_first_part == file_in_dir.partition(SPLIT_MASK)[0]:
                prep_bunches[num].append(file_in_dir)
                break
        else:
            prep_bunches.append([file_in_dir])

    os.chdir(os.path.dirname(os.path.abspath(__file__)))  # Go to the script parent dir

    for prepared_bunch in prep_bunches:

        sorted_bunch = sorted(prepared_bunch)

        # Prepare -page params for imgmagic
        png_pages_params = [["(", "-page", "+{0}+{1}".format(*[(x_y_ajusts_re.match(part_file).group(2)),
                            x_y_ajusts_re.match(part_file).group(3)]), input_dir+part_file, ")"]
                            for part_file in sorted_bunch]

        connect_png_list = \
            [imgmagick_page for imgmagick_pages in png_pages_params for imgmagick_page in imgmagick_pages]

        output_file = output_dir + sorted_bunch[0].partition(SPLIT_MASK)[0] + ".png"

        subprocess.check_output([IMGMAGIC] + IMGMAGIC_PARAMS1 + connect_png_list + IMGMAGIC_PARAMS2 + [output_file])

Казалось бы, теперь мы получили весь набор картинок, который появляется в игре? Отнюдь — если просмотреть все соединенные картинки из всех архивов, то все равно окажется, что каких-то не хватает, хотя в игре они есть. Дело в том, что в движке имеется еще один тип файлов — с расширением .b. Это что-то вроде анимации с записанными внутри изображениями и звуками.

Хранящиеся внутри ресурсы достать довольно легко, но, увы, ни один из готовых распаковщиков .b файлов в нашем случае не отработал как надо. Либо некоторые файлы оставались нераспакованными, либо случались ошибки из-за японских имен, а загружаться с японской локалью не хотелось.

Тут пригодился еще один наш скрипт. Поскольку тогда мы не были знакомы с чем-то вроде Kaitai Struct, пришлось действовать почти с нуля.

Формат .b файлов оказался простым и, к тому же, от нашего распаковщика требовалась возможность распаковывать ресурсы только из этой игры. В других играх на движке Qlie появлялись дополнительные виды ресурсов внутри .b файлов, но мы на них подробно останавливаться не будем.

Итак, открываем любой .b файл в шестнадцатиричном редакторе и смотрим в начало. Перед оценкой следует учесть, что порядок байтов всех числовых значений будет Little-endian.

Заголовок файла abmp12
Десять байт 0x00
Заголовок первой секции abdata12 со служебной информацией.
Восемь байт 0x00
Размер секции abdata12, четырехбайтовое целое. Можно смело ее пропустить.
Заголовок секции abimage10
Семь байт 0x00
Количество файлов в секции, однобайтовое целое. В данном случае – в секции один файл.
Заголовок секции abgimgdat13
Шесть байт 0x00
Длина имени файла внутри секции, двухбайтовое целое. В данном случае длина – 4 байта.
Имя файла в кодировке Shift Jis
Длина записи контрольной суммы файла, двухбайтовое целое.
Сама контрольная сумма файла.
Неизвестный байт, судя по всему, всегда равен 0x03 или 0x02
Двенадцать неизвестных байтов, возможно, связаны с анимацией
Размер png файла внутри секции, четырехбайтовое целое.

И наконец, сам png файл.

Секция absound аналогична по строению abimage.

AnimatedBMP extractor

# -*- coding: utf-8 -*-

# Extract b
# AnimatedBMP extractor for Bishoujo Mangekyou game files
# by Chtobi and Nazon, 2016

import glob
import os
import struct
import argparse
from collections import namedtuple

b_hdr = b'abmp12'+bytes(10)

signa_len = 16

b_abdata = (b'abdata10'+bytes(8), b'abdata11'+bytes(8), b'abdata12'+bytes(8), b'abdata13'+bytes(8))

b_imgdat = (b'abimgdat10'+bytes(6), b'abimgdat11'+bytes(6), b'abimgdat14'+bytes(6))

b_img = (b'abimage10'+bytes(7), b'abimage11'+bytes(7), b'abimage12'+bytes(7), b'abimage13'+bytes(7),
         b'abimage14'+bytes(7))

b_sound = (b'absound10'+bytes(7), b'absound11'+bytes(7), b'absound12'+bytes(7))
# not sure about structure of sound11 and sound12

b_snd = (b'absnddat11'+bytes(7), b'absnddat10'+bytes(7), b'absnddat12'+bytes(7))


Abimgdat13_pattern = namedtuple('Abimgdat13', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'unknown2_len', 'data_size_len'])
Abimgdat13 = Abimgdat13_pattern(signa=b'abimgdat13'+bytes(6), name_size_len=2, hash_size_len=2, unknown1_len=1,
                                unknown2_len=12, data_size_len=4)

Abimgdat14_pattern = namedtuple('Abimgdat14', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'data_size_len'])
Abimgdat14 = Abimgdat14_pattern(signa=b'abimgdat14'+bytes(6), name_size_len=2, hash_size_len=2, unknown1_len=77,
                                data_size_len=4)

Abimgdat_pattern = namedtuple('Abimgdat', ['name_size_len', 'hash_size_len', 'unknown1_len', 'data_size_len'])
# probably, abimgdat10,abimgdat11 and others
Other_imgdat = Abimgdat_pattern(name_size_len=2, hash_size_len=2, unknown1_len=1, data_size_len=4)

Absnddat11_pattern = namedtuple('Absnddat11', ['signa', 'name_size_len', 'hash_size_len', 'unknown1_len',
                                               'data_size_len'])
Absnddat11 = Absnddat11_pattern(signa=b'absnddat11'+bytes(7), name_size_len=2, hash_size_len=2, unknown1_len=1,
                                data_size_len=4)


def create_parser():
    arg_parser = argparse.ArgumentParser(prog='AnimatedBMP extractor\n',
                                         usage='extract_b input_file_name output_dir\n',
                                         description='AnimatedBMP extractor for QLIE engine *.b files.\n')
    arg_parser.add_argument('input_file_name', nargs='+', help="Input file with full path(wildcards are supported).\n")
    arg_parser.add_argument('output_dir', nargs=1,
                            help="Output directory.\n")

    return arg_parser


def check_type(file_buf):
    if file_buf.startswith(b'\x89' + b'PNG'):
        return '.png'
    elif file_buf.startswith(b'BM'):
        return '.bmp'
    elif file_buf.startswith(b'JFIF', 6):
        return '.jpg'
    elif file_buf.startswith(b'IMOAVI'):
        return '.imoavi'
    elif file_buf.startswith(b'OggS'):
        return '.ogg'
    elif file_buf.startswith(b'RIFF'):
        return '.wav'
    else:
        return ''


def bytes_shiftjis_to_utf8(shiftjis_bytes):
    shiftjis_str = shiftjis_bytes.decode('shift_jis', 'strict')
    utf_str = shiftjis_str.encode('utf-8', 'strict').decode('utf-8', 'strict')

    return utf_str


def check_signa(f_buffer):

    if f_buffer.endswith(b_abdata):
        return 'abdata'
    elif f_buffer.endswith(b_img):
        return 'abimgdat'
    elif f_buffer.endswith(b_sound):
        return 'absound'


def prepare_filename(out_file_name, out_dir, postfix=''):
    ready_name = out_dir + os.path.basename(out_file_name) + postfix

    return ready_name


def create_file(file_name_hndl, out_buffer):
    if len(out_buffer) != 0:
        with open(file_name_hndl, 'wb') as ext_file:
            ext_file.write(out_buffer)
    else:
        print("Zero file. Skipped.")


def check_file_header(file_handle, bytes_num):
    file_handle.seek(0)

    readed_bytes = file_handle.read(bytes_num)

    if readed_bytes == b_hdr:
        print("File is valid abmp")
        return True
    else:
        print("Can't read header. Probably, wrong file...")
        return False


if __name__ == '__main__':

    parser = create_parser()
    arguments = parser.parse_args()

    all_b_files = glob.glob(arguments.input_file_name[0])

    output_dir = arguments.output_dir[0]

    for b_file in all_b_files:

        file_buffer = bytearray(b'')

        with open(b_file, 'rb') as bfile_h:

            check_file_header(bfile_h, len(b_hdr))

            read_byte = bfile_h.read(1)

            file_buffer.extend(read_byte)

            while read_byte:

                read_byte = bfile_h.read(1)

                file_buffer.extend(read_byte)

                # Finding content sections signature
                check_result = check_signa(file_buffer)

                if check_result:
                    if check_result == 'abdata':
                        file_buffer = bytearray(b'')

                        read_length = bfile_h.read(4)

                        size = struct.unpack('<L', read_length)[0]

                        file_buffer.extend(bfile_h.read(size))

                        # Adding _abdata to separate from other parts
                        outfile_name = prepare_filename(b_file, output_dir, '_abdata')

                        create_file(outfile_name, file_buffer)

                    elif check_result == 'abimgdat':

                        images_number = struct.unpack('B', bfile_h.read(1))[0]  # Number of pictures in section

                        for i1 in range(images_number):
                            file_buffer = bytearray(b'')
                            file_name = ''

                            imgsec_hdr = bfile_h.read(signa_len)

                            if imgsec_hdr == Abimgdat13.signa:

                                file_name_size = struct.unpack('<H', bfile_h.read(Abimgdat13.name_size_len))[0]

                                # Decode filename to utf8
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                # CRC size
                                hash_size = struct.unpack('<H', bfile_h.read(Abimgdat13.hash_size_len))[0]
                                # Picture CRC (don't need it)
                                pic_hash = bfile_h.read(hash_size)
                                unknown1 = bfile_h.read(Abimgdat13.unknown1_len)
                                unknown2 = bfile_h.read(Abimgdat13.unknown2_len)

                                pic_size = struct.unpack('<L', bfile_h.read(Abimgdat13.data_size_len))[0]
                                print("pic_size:", pic_size)

                                file_buffer.extend(bfile_h.read(pic_size))
                            elif imgsec_hdr == Abimgdat14.signa:

                                file_name_size = struct.unpack('<H', bfile_h.read(Abimgdat14.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Abimgdat14.hash_size_len))[0]
                                pic_hash = bfile_h.read(hash_size)

                                bfile_h.seek(Abimgdat14.unknown1_len, os.SEEK_CUR)

                                pic_size = struct.unpack('<L', bfile_h.read(Abimgdat14.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(pic_size))

                            else:  # probably abimgdat10, abimgdat11...

                                file_name_size = struct.unpack('<H', bfile_h.read(Other_imgdat.name_size_len))[0]

                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Other_imgdat.hash_size_len))[0]
                                pic_hash = bfile_h.read(hash_size)

                                bfile_h.seek(Other_imgdat.unknown1_len, os.SEEK_CUR)

                                pic_size = struct.unpack('<L', bfile_h.read(Other_imgdat.data_size_len))[0]
                                file_buffer.extend(bfile_h.read(pic_size))

                            for i, letter in enumerate(file_name):  # Replace any unusable symbols from filename with _
                                if letter == '<' or letter == '>' or letter == '*' or letter == '/':
                                    file_name = file_name.replace(letter, "_")

                            # Checking file signature and adding proper extension
                            outfile_name = prepare_filename(b_file, output_dir, '_' + file_name +
                                                            check_type(file_buffer))

                            create_file(outfile_name, file_buffer)
                            file_buffer = bytearray(b'')

                    elif check_result == 'absound':

                        sound_files_number = struct.unpack('B', bfile_h.read(1))[0]

                        for i2 in range(sound_files_number):
                            file_buffer = bytearray(b'')
                            file_name = ''

                            sndsec_hdr = bfile_h.read(signa_len)

                            if sndsec_hdr == Absnddat11.signa:
                                file_name_size = struct.unpack('<H', bfile_h.read(Absnddat11.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Absnddat11.hash_size_len))[0]
                                snd_hash = bfile_h.read(hash_size)

                                unknown1 = bfile_h.read(Absnddat11.unknown1_len)
                                snd_size = struct.unpack('<L', bfile_h.read(Absnddat11.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(snd_size))
                            else:
                                file_name_size = struct.unpack('<H', bfile_h.read(Absnddat11.name_size_len))[0]
                                file_name = bytes_shiftjis_to_utf8(bfile_h.read(file_name_size))

                                hash_size = struct.unpack('<H', bfile_h.read(Absnddat11.hash_size_len))[0]
                                snd_hash = bfile_h.read(hash_size)

                                unknown1 = bfile_h.read(Absnddat11.unknown1_len)
                                snd_size = struct.unpack('<L', bfile_h.read(Absnddat11.data_size_len))[0]

                                file_buffer.extend(bfile_h.read(snd_size))

                            for i, letter in enumerate(file_name):
                                if letter == '<' or letter == '>' or letter == '*' or letter == '/':
                                    file_name[i] = '_'

                            outfile_name = prepare_filename(b_file, output_dir, '_' + file_name +
                                                            check_type(file_buffer))

                            print("create absound")
                            create_file(outfile_name, file_buffer)
                            file_buffer = bytearray(b'')

Скрипт должен автоматически распаковывать найденные файлы png, jpg, bmp, ogg и wav. Но помимо этого, внутри попадаются еще и неизвестные файлы imoavi.

Суть в том, что в игре все анимации сделаны либо как полноценное видео в ogv формате, либо как анимированные движком изображения, которые записаны в .b файлы, либо как анимированные последовательности jpg файлов в формате imoavi.

В данном случае, нас интересовали и jpg изображения, поэтому пришлось разбираться с ними также.

В imoavi существуют две секции: SOUND и MOVIE. В секции MOVIE через 47 байтов после заголовка, находятся четыре байта размера jpg файла. Файлы записаны друг за другом в исходном виде, разделенные последовательностью в 19 байт, где записан размер следующего файла.

Озвученные imoavi в игре не попадались, поэтому секция SOUND всегда пустая.

Ну и раз уж мы начали заниматься вытаскиванием всех ресурсов игры, заодно был написан и маленький скрипт для вытаскивания jpg из imoavi.

Imoavi extractor

# -*- coding: utf-8 -*-

# Extract imoavi
# Imoavi extractor for Bishoujo Mangekyou game files
# by Chtobi and Nazon, 2016


import glob
import os
import struct
import argparse

imoavi_hdr = b'IMOAVI'

hdr_len = len(imoavi_hdr)


def create_file(file_name, out_buffer, wr_mode='wb'):
    if len(out_buffer) != 0:

        with open(file_name, wr_mode) as ext_file:
            ext_file.write(out_buffer)
    else:
        print("Zero file. Skipped.")


def prepare_filename(file_name, out_dir, postfix=''):
    ready_name = out_dir + os.path.basename(file_name) + postfix

    return ready_name


def create_parser():
    arg_parser = argparse.ArgumentParser(prog='Imoavi extractor\n',
                                         usage='extract_imoavi input_file_name output_dir\n',
                                         description='Imoavi extractor for QLIE engine *.imoavi files.\n')
    arg_parser.add_argument('input_file_name', nargs='+', help="Input file with full path(wildcards are supported).\n")
    arg_parser.add_argument('output_dir', nargs='+', help="Output directory.\n")

    return arg_parser


if __name__ == '__main__':

    parser = create_parser()
    arguments = parser.parse_args()

    all_imoavi = glob.glob(arguments.input_file_name[0])

    output_dir = arguments.output_dir[0]

    for imoavi_f in all_imoavi:
        file_buffer = bytearray(b'')

        with open(imoavi_f, 'rb') as imoavi_h:

            # Read imoavi file header
            imoavi_h.read(hdr_len)
            imoavi_h.seek(2, os.SEEK_CUR)  # 0x00

            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00

            imoavi_h.seek(5, os.SEEK_CUR)  # SOUND
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(11, os.SEEK_CUR)
            imoavi_h.seek(5, os.SEEK_CUR)  # Movie
            imoavi_h.seek(3, os.SEEK_CUR)  # 00 ??
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x64
            imoavi_h.seek(3, os.SEEK_CUR)  # 0x00 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # ??
            imoavi_h.seek(1, os.SEEK_CUR)  # Number of jpg files in section
            imoavi_h.seek(4, os.SEEK_CUR)  # 0x00
            imoavi_h.seek(1, os.SEEK_CUR)  # 0x05 ???
            imoavi_h.seek(2, os.SEEK_CUR)  # 0x00 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # 720 ??
            imoavi_h.seek(4, os.SEEK_CUR)  # Full size without header?

            to_next_size = struct.unpack('<L', imoavi_h.read(4))[0]  # Bytes till next header

            imoavi_h.seek(16, os.SEEK_CUR)  # 0x00

            jpg_size = struct.unpack('<L', imoavi_h.read(4))[0]

            imoavi_h.seek(4, os.SEEK_CUR)  # 0x00

            file_num = 0

            file_buffer.extend(imoavi_h.read(jpg_size))

            outfile_name = prepare_filename(imoavi_f, output_dir, '_' + (str(file_num)).zfill(3) + '.jpg')

            create_file(outfile_name, file_buffer)

            while to_next_size != 0:
                file_buffer = bytearray(b'')

                to_next_size = struct.unpack('<L', imoavi_h.read(4))[0]

                if to_next_size == 24:  # 0x1C header for index part

                    file_buffer.extend(imoavi_h.read(to_next_size))

                    outfile_name = prepare_filename(imoavi_f, output_dir, '_' + '.index')
                    create_file(outfile_name, file_buffer, 'ab')  # concatenate with index file
                else:

                    imoavi_h.seek(2, os.SEEK_CUR)  # unknown
                    imoavi_h.seek(2, os.SEEK_CUR)  # Unknown, almost always FF FF or FF FE

                    file_num = struct.unpack('B', imoavi_h.read(1))[0]  # File number

                    imoavi_h.seek(11, os.SEEK_CUR)  # 0x00

                    jpg_size = struct.unpack('<L', imoavi_h.read(4))[0]

                    imoavi_h.seek(4, os.SEEK_CUR)  # 0x00

                    file_buffer.extend(imoavi_h.read(jpg_size))

                    outfile_name = prepare_filename(imoavi_f, output_dir, '_' + (str(file_num)).zfill(3) + '.jpg')

                    create_file(outfile_name, file_buffer)

После распаковки, можно убедиться, что анимация из заставки в меню хранится как раз в файле 1_タイトル画面ムービー.b в формате imoavi.

На этом с игровыми ресурсами все.

К сожалению, в процессе перевода выяснилось еще несколько неприятных нюансов, которые преодолеть так и не удалось. Игра, как я уже писал, не поддерживает юникодных кодировок. Поэтому, весь переведенный текст выводится с неправильным межбуквенным интервалом. Было еще несколько проблем с обратной запаковкой файлов и с запуском игры без смены системной кодировки на японскую.

В какой-то момент мы(вернее, тот, кто отвечал за техническую часть перевода в нашей команде) задумались: а может, не стоит таскаться со старым движком, а портировать новеллу на движок Renpy, заодно получив и кроссплатформерность?
Возможно, мы поторопились, но в какой-то момент, бросать начатое стало жалко и ничего не оставалось, кроме как закончить перевод.

С чем же нам пришлось столкнуться во время портирования?
Об этом во второй части.

Ссылки:

Наши скрипты на bitbucket

О движке Qlie на японском

Таблица кодировки Shift Jis

Подробнее о проблеме перекодировки из Shift Jis в UTF-8

Утилита exfp3_v3 от asmodean