я вот пока в поисках, есть loguru, но там как-то не очень очевидное с await logger.complete(), глянул aiologger, там тоже какой-то await logger.shutdown(), вот еще новое в комментах предложили, пока внимательно не смотрел.

pomponchik Apr 21 2023 at 14:01

В целом сервис выглядит хорошо, но:

Не хватает тестов.
Не предусмотрены репликация / шардирование.
Что будет, если в процессе загрузки данных в файл выключится электричество на сервере? На диске окажется битый файл, а в БД о нем записей не будет. Со временем при постоянном пользовании сервисом такие файлы неизбежно будут возникать и накапливаться. Одно из возможных решений - писать в файл внутри транзакции БД. Но это порождает риск долгих транзакций, от которого можно избавиться, если хранить не файлы целиком, а чанки (также это может частично решить проблему с фрагментацией диска).
await request.content.read() будто бы таки считывает файл в память полностью, после чего уже записывает на диск. То есть не соблюдается главная гарантия вашего сервиса - что он не держит файлы в памяти целиком.
aiofiles - немного сомнительная библиотека.
Не вижу возможности параметризовать сервис при помощи переменных окружения.
Нет возможности запуска в контейнере.
Инициализация движка БД выглядит странно. Если по итогу все равно создается глобальная переменная, зачем это пихать в функцию?

SergeyKlimov_Creator Apr 21 2023 at 14:31

Спасибо большое за развернутый комментарий. Почемуaiofiles сомнительная библиотека? Какие предлагаете альтернативы?

pomponchik Apr 21 2023 at 14:39

Это обертка, насколько я помню, над тред-пулом. То есть реальной кооперативной многозадачности там нет, только ее видимость. Альтернатив, к сожалению, не знаю.

mcferden Apr 21 2023 at 18:02

Есть aiofile, заявляется нативная асинхронная работа с файлами в Linux

sirejja Apr 21 2023 at 18:14

По п3. Решение довольно простое. Перед загрузкой файла делать некоторый черновик записи о файле со статусом pending. Загружать файл. Апдейтить запись на статус processed. А дальше в фоне подчищать все, что не в processed статусе и со старой временной меткой.

pomponchik Apr 21 2023 at 18:27

Это может быть опасно, поскольку неизвесно, сколько точно должна длиться загрузка. Лимитов на размер файлов тут нет, теоретически пользователь может из тайги по GPRS 100-гиговый рип "аватара 2" качать. А если автор запилит еще и возобновление загрузки после обрыва соединения, то вообще.

pfffffffffffff Apr 22 2023 at 06:19

Можно периодически чекать не изменился ли размер файла с прошлой проверки и уже тогда грохать файл

pomponchik Apr 24 2023 at 06:14

Я не вижу, чем это проще, нежели организовать код правильно, чтобы запись файлов осуществлялась внутри транзакции БД. Вы предлагаете дополнить проект новыми сущностями, при том, что по итогу гарантий это дает даже меньше.

SergeyKlimov_Creator May 8 2023 at 01:07

Ещё раз спасибо за комментарии. Внёс исправления в проект:

добавил тесты
`await request.content.read()` заменил на `async for data in request.content.iter_any()`
библиотеку `aiofiles` заменил на `aiofile`
параметризовал сервис переменными окружения
добавил запуск проекта в docker'е
инициализацию движка БД перенес в область глобальной видимости модуля
заменил `logger` на `aiologger`

По оставшимся вопросам:

репликация / шардирование постановкой задачи не были предусмотрены. Заранее было оговорено, что сервис работает в рамках локальной сети заказчика и бэкап делается его силами.
Если в процессе загрузки данных в файл выключится электричество на сервере, то процесс придется начинать заново. Насколько я себе представляю, чтобы возобновить загрузку файла с определенного места нужно ещё научить клиента понимать, с какого места продолжить байтовый поток. Но клиент в данном кейсе давался уже "как есть". Чтобы избежать ссылок на битые файлы, сохранение данных о новом файле в БД сервиса происходит только после сохранения файла на диске.

pomponchik Nov 24 2024 at 00:57

По последнему вопросу. Дело тут не в том, что придется начинать заново, а в том, что при этом у вас на диске остается лежать паразитный файл.

funca Apr 22 2023 at 07:34

При обрыве соединения клиент сможет докачивать только недостающие данные или будет грузить все по новой?

SergeyKlimov_Creator May 8 2023 at 01:39

Придется грузить всё по новой. Чтобы была возможность докачки, нужно дорабатывать и код сервера и код клиента. Обновление кода клиента в постановку задачи в рамках данного кейса не входил.