Comments / Profile of gaploid / Habr

How to become an author

gaploid @gaploid

User

Profile Publications 2Comments 396Bookmarks 10

Центризбирком РФ обфусцировал статистические данные выборов на своем сайте, вероятно, чтобы затруднить их анализ

gaploid Sep 20 2021 at 10:45

Кстати, можно гугловский распознователь таблиц с русским языком или Azure. https://cloud.google.com/document-ai/docs/process-tables эти штуки лучше чем тессеракт. У них там на бесплатном тире от 1к до 5к распознаваний, должно хватить на всех. Я попробывал сейчас Azureовский, цифры в лет в табличном виде хватает.

+2

ФЗ-152 надоел, простое решение c хранением персональных данных на nginx

gaploid Apr 19 2021 at 14:01

Для каких-то сценариев и каких-то систем это может быть решение as-is, а для кого-то нужно будет его менять, как написали выше и исключать еще доп. информацию.
К сожалению, нет четкого понимания, что такое эти перс. данные. Их с точки зрения логики получается два: данные, которые идентифицируют человека (ФИО, паспортные данные), сведенья которые относятся к персоне (политические взгляды, мед. данные, количество детей и семейнное положени). По моему мнению закон затрагивает оба этих типа, но тут уже должны подключаться юристы.

0

ФЗ-152 надоел, простое решение c хранением персональных данных на nginx

gaploid Apr 19 2021 at 11:47

Да, я именно хотел задать этим примером конву решения, дальше его уже можно и нужно улучшать.

0

ФЗ-152 надоел, простое решение c хранением персональных данных на nginx

gaploid Apr 19 2021 at 11:45

Так как в этих запросах может передаваться персональные данные и вы правы, что может и не передаваться эта информация. Но закон вот так говорит, что такое персональные данные:

"персональные данные - любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных);"

Другими словами это может быть и сведенья о ваших покупках в магазине, так как она относится к вам. Тут большая серая зона и поэтому в примере, который у меня намеряно сделан захват так широко. Разработчик или владелец системы может уже зная структуру запроса вычленять эти данные более гранулярно, но это уже будет конкретная имплементация.

0

ФЗ-152 надоел, простое решение c хранением персональных данных на nginx

gaploid Apr 17 2021 at 22:42

А в чем тут противоречие? 1) Данные всегда актуальны и записываются все изменения. 2) Если есть срок хранения, то можно сделать автоматическое удаление. Сделать это можно по дате записи лога в PostgreSQL, лог фаил приэтом просто будет временным буфером.

Но в решении действительно не хватает части для последующего управлениями и просмотром этих данных. Но как я сказал, эту идею и реализацию можно брать за основу и уже адаптировать под свое приложение и сервис.

0

ФЗ-152 надоел, простое решение c хранением персональных данных на nginx

gaploid Apr 17 2021 at 19:10

Спасибо за комментарий, попробую прокомментировать его:

Docker я намеряно не использовал, так как внутри база данных и придется тогда делать persistent volume, что несколько уже усложняет все это и от докера теряется смысл. Но ничего не мешает запустить скрипт внутри докера.
Базу данных было несложно добавить, поэтому как дополнительная галочка, то не помешает. А так же с помощью нее можно еще хранить и трансформировать changefeed в справочник персон и их данных. Как хороший задел для расширения.
«предусматривает удаление неактуальных данных» такого в законе нет, актуализация может быть произведена очень многими разными способами. Отзыв согласия как мне, кажется, есть в GDPR, а в ФЗ-152 такого я не помню.
Про США нужно дополнительно уточнять, про требования о странах подписавших эту конвенцию для передачи персональных данных, я слышу если честно в первый раз.
«не просто сохранять, но и ИЗВЛЕКАТЬ из БД на территории РФ», в законе явно сказано только:«При сборе персональных данных», а дальше уже перечислены операции в рамках этого процесса.

0

Как мы стартовали Vivid Money для iOS

gaploid Dec 5 2020 at 15:44

А вы не смотрели на Mac AWS instance? Интересно ваше мнение насколько такая штука релевантна для команд уже с серьезной разработкой.

0

AWS re:Invent. Главные анонсы первого дня (Part 1)

gaploid Dec 2 2020 at 12:40

О класс, трансляция на Twitch, новый тренд.

+1

Технорадар Lamoda 2020: что изменилось за два года

gaploid Oct 27 2020 at 02:57

А чем гугл клауд не подошел? И для чего Azure, AWS используете?

0

Как мы организовали высокоэффективное и недорогое DataLake и почему именно так

gaploid Aug 29 2020 at 12:44

Класс, какой обьем сейчас в s3 — дата лейке сумарно и сколько примерно выходит по деньгам: хранение и процессинг?

+3

Как мы научились делить видео на сцены с помощью хитрой математики

gaploid Apr 17 2020 at 10:47

Мы в своем проекте вот это использовали и оно нормально отрабатывало https://pyscenedetect.readthedocs.io/en/latest/features/ не пробывали?

+1

Как сократить расходы в AWS

gaploid Mar 25 2020 at 21:05

Еще пара советов:

Если используется API gateway для lambda, что бы выставить ее во вне ввиде http, то можно заменить на новый облегченный HTTP API. latency меньше и цена на ~70% меньше
Если большой исходящий траффик до внутренней инфраструктуры то можно сделать direct connect в рамках него биллинг идет по другой логике и получается дешевле.
Если используются инстансы для работы в определенное время (ec2 и rds), то посмотрите на auto Instance Scheduler, можно выключать ночью, а так же включить еще Hibernate для ec2 и тогда будет не заметно что машина вообще выключалась.
Вот еще штука aws.amazon.com/solutions/cost-optimization-ec2-right-sizing которая анализирует ваши инстанс по логам за последние две недели дают рекомендацию какие инстансы можно уменьшить или убрать совсем исходя из их загрузки
static контент лучше раздавать через cloudfront это тоже помогает сократить расходы в различных сценариях. Но лучше это делать если конечные консьюмеры там где есть cloudfront pop точки
Цены на виртуалки в разных регионах разные и различаются бывает на десятки процентов. Поэтому если есть не критические ворклоды к latency лучше их поднимать в дешевых регионах
Трафик из VPC до S3 и тд лучше пускать через VPC endpoints. Вот статья где сокращают на ~80% тысячи долларов за счет переключения на endpoints bluesentryit.com/gain-real-savings-proper-cloud-setup
Не забывайте про inter az трафик он тоже стоит денег и всякие кросс az кластеры могут серьезно добавить в косты, поэтому если не сильна важна отказоустойчивость для некоторых сценариев, то возможно этим можно пожертовать.

+5

Подсчитаем баги в калькуляторе Windows

gaploid Mar 10 2019 at 12:14

Похоже, калькулятор это первые шаги перед переводом чего-то большого в опенсорс. Так же было вначале с .net, сначала библиотеки, unit тесты и тд.

0

Симулируем реалистичную реку в Houdini и Unreal Engine 4

gaploid Nov 21 2018 at 23:12

А можно ли сделать у такой реки вес/силу давления? Чтобы к примеру могла двигать/смывать обьекты и тд?

0

Больше, чем государство: Британская Ост-индская торговая компания

gaploid May 7 2018 at 15:26

Взяточнество и коррупцию значит победили просто закрытием компании?

0

Открытое письмо к маркетологам и прочим пиарщикам, причастным к контенту на Хабре и других ресурсах

gaploid May 7 2018 at 14:30

Посты от уставших копирайтеров, кажется это лучший показатель аудитории и того кто теперь тут пишет.

0

Лучшие технологические стартапы 2017 года по версии GenerationS

gaploid Apr 29 2018 at 13:58

ViewGA, похоже, это что-то вроде вот этого SIMULCAM www.youtube.com/watch?v=lyHa_0yJBlw впервые использовалось при сьемке аватара, кажется 2008 год. Стоимость $5к, а какая цена у ViewGA?

0

Telegram заблокирован, но вроде работает. Почему?

gaploid Apr 16 2018 at 12:23

У меня уже в Москве не работает без прокси. Провайдер Экотелеком.

+1

Собственная игровая аналитика за $300 в месяц

gaploid Mar 14 2018 at 19:14

А есть ограничения по обьему даннах в такой конструкции?

0

Развязываем игровой код с помощью паттерна Command, и дебажим, летая на машине времени

gaploid Mar 7 2018 at 13:16

Binding WPF такой же:)

0

1

2 3 ...