Я продемонстрирую как с помощью JavaScript прямо в браузере можно извлечь и проанализировать данные из QR кодов содержащихся в документах сформированных порталами электронного правительства Республики Казахстан (к примеру https://egov.kz).
В электронных документах присутствует следующая формулировка:
*штрих-код содержит данные, полученные из информационной системы ГБД РН и подписанные электронно-цифровой подписью Филиала НАО «Государственная корпорация «Правительство для граждан».
На сколько мне известно, готовых инструментов для извлечения и анализа данных в QR кодах не существует.
Конечную цель ставлю следующую: извлечь подписанные данные и подпись, проверить целостность подписанных данных. О проверке цифровой подписи в этой заметке речи идти не будет, только о проверке хеша. Детали проверки цифровых подписей могут быть описаны в будущем, в том случае, если публика проявит интерес к этой тематике.
Важно: эта заметка не описывает методик взлома и не помогает получать несанкционированного доступа к данным, речь будет идти о конвертации данных из одних представлений в другие.
Я покажу как обрабатывать оригинальные PDF файлы которые формируют и предоставляют для скачивания порталы электронного правительства РК. Эти PDF файлы содержат QR коды как отдельные внедренные изображения.
Экспериментировать я буду на справке об отсутствии судимости.
Я воспользуюсь следующими библиотеками:
- PDF.js для извлечения изображений из PDF документа;
- jsQR для декодирования QR кодов;
- JSZip для распаковки ZIP файлов;
- XMLDSIGjs для обработки XML;
- WebCrypto GOST (gostCrypto) для вычисления хешей и кодирования/декодирования данных.
0. Считывание PDF файла в ArrayBuffer
Получить доступ к PDF файлу возможно стандартными средствами HTML с помощью тега <input type="file"> и его атрибута files.
В современных браузерах получить содержимое файла в виде ArrayBuffer можно следующим образом:
const fileContents = await fileInput.files[0].arrayBuffer();
1. Извлечение изображений из PDF документа
Библиотеку PDF.js необходимо инициализировать перед началом работы, примеры приведены в документации https://mozilla.github.io/pdf.js/examples/index.html#interactive-examples
const pdfjsLib = window['pdfjs-dist/build/pdf']; pdfjsLib.GlobalWorkerOptions.workerSrc = 'pdf.worker.js';
В PDF.js объекты описываются с точки зрения выполняемых над ними операций. Так как меня интересуют изображения, то нужно искать следующие операции:
const ops = [ pdfjsLib.OPS.paintJpegXObject, pdfjsLib.OPS.paintImageXObject, ];
Реализация извлечения изображений со всех страниц PDF документа:
const loadingTask = pdfjsLib.getDocument(fileContents); const pdf = await loadingTask.promise; const objIDs = []; const images = []; await (async function () { for (let pageIndex = 1; pageIndex <= pdf.numPages; pageIndex += 1) { const page = await pdf.getPage(pageIndex); // Страница содержит набор операторов, нужно найти интересующие. const operators = await page.getOperatorList(); for (let i = 0; i < operators.fnArray.length; i++) { const fn = operators.fnArray[i]; if (ops.indexOf(fn) !== -1) { // По индексу оператора можно получить его параметры, первый параметр - идентификатор объекта. const objID = operators.argsArray[i][0]; // Над одним и тем же объектом могут выполняться несколько операций, дубликаты не нужны. if (objIDs.indexOf(objID) === -1) { objIDs.push(objID); // Объект изображения можно получить по его идентификатору. try { const imageInfo = page.objs.get(objID); images.push(imageInfo); } catch (err) { console.log(err); } } } } } })()
2. Декодирование QR кодов
Библиотека jsQR поддерживает изображения только в RGBA в то время как в PDF файлы они могут быть внедрены и как RGB, потребуется функция приводящая RGB к RGBA:
function extractRGBAData(image) { if (image.kind === 3) { // ImageKind.RGBA_32BPP из https://github.com/mozilla/pdf.js/blob/master/src/shared/util.js return image.data; } if (image.kind !== 2) { // ImageKind.RGB_24BPP из https://github.com/mozilla/pdf.js/blob/master/src/shared/util.js throw new Error(`Image kind "${image.kind}" is not supported.`); } const data = new Uint8ClampedArray(image.width * image.height * 4); let destPosition = 0; for (let srcPosition = 0; srcPosition < image.data.length;) { data[destPosition++] = image.data[srcPosition++]; data[destPosition++] = image.data[srcPosition++]; data[destPosition++] = image.data[srcPosition++]; data[destPosition++] = 255; } return data; }
Попробую декодировать все полученные изображения:
const qrCodes = []; images.forEach((image) => { if (image.data) { const data = extractRGBAData(image); try { const code = jsQR(data, image.width, image.height); console.log(code); qrCodes.push(code); } catch (err) { console.log(err); } } });
В результате в консоль браузера выведено 7 строк — по одной на каждый QR код на странице. Одна из строк содержит URL документа — QR код с ней размещен в верхней правой части документов, она меня не интересует. Остальные 6 строк содержат XML следующего формата (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <BarcodeElement xmlns="http://barcodes.pdf.shep.nitec.kz/"> <creationDate>...</creationDate> <elementData>...</elementData> <elementNumber>1</elementNumber> <elementsAmount>6</elementsAmount> <FavorID>...</FavorID> </BarcodeElement>
Из этого меня интересуют следующие теги:
<elementData>...</elementData>— часть данных<elementNumber>1</elementNumber>— индекс текущей части<elementsAmount>6</elementsAmount>— общее количество частей на которые разделены данные
3. Извлечение частей данных
Для распределения частей данных по соответствующим позициям я воспользуюсь следующей функцией:
const qrCodesBlocks = []; function addQRCodeBlock(code) { if (!code || !code.data) { return; } // Получу общее количество частей. const elementsAmountRegexp = /<elementsAmount>((.|\r|\n)+?)<\/elementsAmount>/; const elementsAmountResult = elementsAmountRegexp.exec(code.data); if (!elementsAmountResult || elementsAmountResult.length <= 2) { return; } const elementsAmount = +elementsAmountResult[1]; if (!Number.isSafeInteger(elementsAmount)) { throw new Error('Не удалось извлечь общее количество частей из тега <elementsAmount>'); } // При обработке первой части нужно инициализировать массив. if (qrCodesBlocks.length === 0) { for (let i = 0; i < elementsAmount; i++) { qrCodesBlocks.push(''); } } else { if (qrCodesBlocks.length !== elementsAmount) { throw new Error(`В разных QR кодах указано разное общее количество QR кодов: "${qrCodesBlocks.length}" и "${elementsAmount}"`); } } // Получу индекс части. const elementNumberRegexp = /<elementNumber>((.|\r|\n)+?)<\/elementNumber>/; const elementNumberResult = elementNumberRegexp.exec(code.data); if (!elementNumberResult || elementNumberResult.length < 2) { throw new Error(`В QR коде отсутствует "<elementNumber>"`); } const elementNumber = +elementNumberResult[1]; if (!Number.isSafeInteger(elementNumber)) { throw new Error(`"<elementNumber>" в QR коде не является числом`); } // Защита от внештатных ситуаций. if (elementNumber > elementsAmount) { throw new Error(`Индекс QR кода "${elementNumber}" больше общего количества QR кодов "${elementsAmount}"`); } if (qrCodesBlocks[elementNumber - 1] !== '') { throw new Error(`Индекс QR кода "${elementNumber}" обнаружен более одного раза`); } // Помещу часть в соответствую позицию. const elementDataRegexp = /<elementData>((.|\r|\n)+?)<\/elementData>/; const elementDataResult = elementDataRegexp.exec(code.data); if (!elementDataResult || elementDataResult.length < 2) { throw new Error('В QR коде отсутствует "<elementData>"'); } const elementData = elementDataResult[1]; qrCodesBlocks[elementNumber - 1] = elementData; }
Осталось получить части и проверить что распределение прошло успешно.
qrCodes.forEach(addQRCodeBlock); if (qrCodesBlocks.length === 0) { throw new Error('Ошибка при извлечении данных из QR кодов: не обнаружено ни одного QR кода с поддерживаемыми данными'); } const foundBlocks = qrCodesBlocks.filter((block) => !!block); if (qrCodesBlocks.length !== foundBlocks.length) { throw new Error('Ошибка при извлечении данных из QR кодов: не удалось получить данные всех QR кодов'); }
4. Восстановление данных
Анализ частей данных показал что это ZIP архив разрезанный на части каждая из которых закодирована в Base64.
В первую очередь нужно декодировать части из Base64:
const zippedParts = qrCodesBlocks.map(block => new Uint8Array(gostCrypto.coding.Base64.decode(block)));
Далее соединить их:
const totalLength = zippedParts.reduce((accumulator, part) => accumulator + part.length, 0); const zippedData = new Uint8Array(totalLength); let zippedDataIndex = 0; zippedParts.forEach((part) => { zippedData.set(part, zippedDataIndex); zippedDataIndex += part.length; });
И распаковать архив:
const zip = await JSZip.loadAsync(zippedData, { checkCRC32: true });
В архиве находится единственный файл с именем one, его содержимое меня и интересует:
const file = zip.file('one'); if (!file) { throw new Error('В архиве отсутствует ожидаемый файл "one"'); } const recoveredContents = await file.async("string");
5. Подготовка данных к анализу
Восстановленные данные — это XML следующего формата (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <p1001Response> <SystemInfo> <messageId xsi:nil="true" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"/> <chainId>...</chainId> <messageDate>...</messageDate> `1` <responseInfoRu>Запрос обработан</responseInfoRu> <responseInfoKz>Запрос обработан</responseInfoKz> <digiSign>...</digiSign> </SystemInfo> <ResponseData> <ResponseType>UNJUDGED</ResponseType> <Person> <IIN>...</IIN> <SurName>...</SurName> <Name>...</Name> <MiddleName>...</MiddleName> <BirthDate>...</BirthDate> <BirthPlace> <Country>...</Country> <CountryKz>...</CountryKz> <District>...</District> <DistrictKz>...</DistrictKz> <City>...</City> <CityKz>...</CityKz> <Locality>...</Locality> <LocalityKz>...</LocalityKz> </BirthPlace> </Person> <Untried/> <CheckDate>...</CheckDate> </ResponseData> </p1001Response>
Из всего перечисленного меня интересует только digiSign — это еще один XML закодированный в Base64. На остальные данные я не обращаю внимания, так как они будут продублированы глубже.
Извлеку и декодирую внутренний XML:
const regexp = /<digiSign>((.|\r|\n)+?)<\/digiSign>/; const regexpResult = regexp.exec(recoveredContents); if (!regexpResult && regexpResult.length !== 2) { throw new Error('В XML отсутствует "<digiSign>"'); } const digiSignBytes = gostCrypto.coding.Base64.decode(regexpResult[1]); const xmlDataAndSignature = gostCrypto.coding.Chars.encode(digiSignBytes, 'utf8');
6. Анализ данных
Содержимое внутреннего XML выглядит следующим образом (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="no"?> <ResponseData> <ResponseType>UNJUDGED</ResponseType> <Person> <IIN>...</IIN> <SurName>...</SurName> <Name>...</Name> <MiddleName>...</MiddleName> <BirthDate>...</BirthDate> <BirthPlace> <Country>...</Country> <CountryKz>...</CountryKz> <District>...</District> <DistrictKz>...</DistrictKz> <City>...</City> <CityKz>...</CityKz> <Locality>...</Locality> <LocalityKz>...</LocalityKz> </BirthPlace> </Person> <Untried/> <CheckDate>...</CheckDate> <ds:Signature xmlns:ds="http://www.w3.org/2000/09/xmldsig#"> <ds:SignedInfo> <ds:CanonicalizationMethod Algorithm="http://www.w3.org/TR/2001/REC-xml-c14n-20010315"/> <ds:SignatureMethod Algorithm="http://www.w3.org/2001/04/xmldsig-more#gost34310-gost34311"/> <ds:Reference URI=""> <ds:Transforms> <ds:Transform Algorithm="http://www.w3.org/2000/09/xmldsig#enveloped-signature"/> <ds:Transform Algorithm="http://www.w3.org/TR/2001/REC-xml-c14n-20010315#WithComments"/> </ds:Transforms> <ds:DigestMethod Algorithm="http://www.w3.org/2001/04/xmldsig-more#gost34311"/> <ds:DigestValue>...</ds:DigestValue> </ds:Reference> </ds:SignedInfo> <ds:SignatureValue>...</ds:SignatureValue> <ds:KeyInfo> <ds:X509Data> <ds:X509Certificate>...</ds:X509Certificate> </ds:X509Data> </ds:KeyInfo> </ds:Signature> </ResponseData>
Это XML подпись с внедренными данными в которых, судя по всему, указано что судимостей у субъекта нет <ResponseType>UNJUDGED</ResponseType>, а так же приведены данные для идентификации субъекта в теге <Person>...</Person>.
7. Проверка целостности подписанных данных
Проверка целостности данных будет заключаться в сравнении приведенного в XML подписи значения хеша с вычисленным.
Создание объекта XML документа:
const xml = XmlDSigJs.Parse(xmlDataAndSignature);
Значение хеша приведено в теге <ds:DigestValue>...</ds:DigestValue>:
const xmlSignatures = XmlDSigJs.Select(xml, "//*[local-name(.)='Signature' and namespace-uri(.)='http://www.w3.org/2000/09/xmldsig#']"); if (xmlSignatures.length === 0) { throw new Error(`В распакованных данных отсутствует цифровая подпись (тег "<Signature>"): "${xmlDataAndSignature}"`); } if (xmlSignatures.length > 1) { throw new Error(`В распакованных данных присутствует несколько цифровых подписей (тег "<Signature>"): "${xmlDataAndSignature}"`); } const hashElementsInSignature = XmlDSigJs.Select(xmlSignatures[0], "//*[local-name(.)='DigestValue']"); if (hashElementsInSignature.length === 0) { throw new Error(`В XML подписи отсутствует хеш (тег "<DigestValue>"): "${xmlDataAndSignature}"`); } if (hashElementsInSignature.length > 1) { throw new Error(`В XML подписи присутствует несколько хешей (тег "<DigestValue>"): "${xmlDataAndSignature}"`); } const hashInSignature = hashElementsInSignature[0].textContent;
Данные необходимо подготовить к хешированию — выполнить над ними трансформации приведенные в теге <ds:Transforms>...</ds:Transforms> XML подписи:
const xmlDsigEnvelopedSignatureTransform = new XmlDSigJs.XmlDsigEnvelopedSignatureTransform(); xmlDsigEnvelopedSignatureTransform.LoadInnerXml(xml.documentElement); xmlDsigEnvelopedSignatureTransform.GetOutput(); const xmlDsigC14NWithCommentsTransform = new XmlDSigJs.XmlDsigC14NWithCommentsTransform(); xmlDsigC14NWithCommentsTransform.LoadInnerXml(xml.documentElement); const signedDataXML = xmlDsigC14NWithCommentsTransform.GetOutput(); const dataToHash = gostCrypto.coding.Chars.decode(signedDataXML, 'utf8');
В подписи указан алгоритм хеширования "http://www.w3.org/2001/04/xmldsig-more#gost34311", это ГОСТ 34.311-95 что аналогично GOST R 34.11-94 в библиотеке gostCrypto. В РК совместно с ним обычно используют набор параметров D-TEST.
Вычисление значения хеша:
const hashBytes = await gostCrypto.subtle.digest({name: 'GOST R 34.11-94', version: 1994, sBox: 'D-TEST'}, dataToHash); const signedDataXMLHash = gostCrypto.coding.Base64.encode(hashBytes);
Проверка целостности данных в моем документе прошла корректно:
if (signedDataXMLHash !== hashInSignature) { throw new Error(`Хеш вычисленный из данных XML документа "${signedDataXMLHash}" не соответствует значению в подписи "${hashInSignature}"`); }
Заключение
Эксперимент завершился успешно, поставленная цель достигнута. Но нужно упомянуть о том, что без проверки цифровой подписи говорить о целостности данных несколько лукаво — нет уверенности в том, что значение хеша данных в XML подписи не было изменено.
Еще одним нюансом оказалось то, что разные типы документов электронного правительства РК имеют разную структуру: в некоторых случаях восстановленный документ сразу является XML подписью, в других в digiSign подпись не закодирована в Base64, а вместо этого представлена в HTML кодировке, бывают и другие варианты. В связи с чем приведенный выше алгоритм не является универсальным и требует доработки под разные типы документов.
Полезные ссылки:
