Comments / Profile of lizardus / Habr

@lizardus^{read⁠-⁠only}

Пользователь

lizardus Aug 23 2021 at 18:24

Я не совсем уверен, что "общий случай" сильно важен практически. В общем случае нельзя вообще использовать файлы для поиска, всегда может подвернуться jpg или bin. В общем случае может не существовать решения, или в общем случае можно доказать NP-completeness. PDF достаточно удобен на практике, для довольно большого множества задач. Но да, он переусложнен и возможно предоставляет слишком много свободы. Но тут, так сказать, trade-off, иногда эти возможности - killer фича.

Как сравнить два PDF-документа

lizardus Aug 22 2021 at 14:05

PDF идеальный формат для публикации документа, не подразумевающей его последующее редактирование. PDF позволяет избежать практически любых проблем форматирования, графики, формул, отсутствующих приложений с уникальными форматами которые работают на редких ОС, и т.д. плюс цифровая подпись. PDF это то же самое что и распечатка на бумаге. Никому же не приходит в голову жаловаться, что невозможно редактировать текст после печати на принтере. Можно всего лишь добавить заметки на полях, подчеркнуть или зачеркнуть что что-либо карандашиком.

Как сравнить два PDF-документа

lizardus Aug 22 2021 at 13:59

Нет большой проблемы. Есть diffpdf в репозиториях Linux. Для Windows бинарное приложение платное (https://www.qtrac.eu/diffpdf.html), но оно open source, можно собрать самому. Но это для обычных текстовых PDF, сравнение текста на сканированных растровых изображениях - совершенно отдельная и более сложная задача.

План Apple по сканированию iPhone в США вызывает тревогу. Тотальная слежка начинается

lizardus Aug 9 2021 at 13:08

Сделай вклад в свой личный пативэн )

Да, и устройство уже не моё :) его мне выдали за мои немалые деньги в пользование. Можно только пользоваться тем, что выдали. Все остальное нельзя.

Тут противоречия нет. Программа (нейросеть) с некоторой долей уверенности говорит

Да, программа что-то кому-то "говорит." Но чья программа? Она не может быть ничьей и ниоткуда. Если она с Марса, значит марсиане имеют доступ к устройству. Программа написана Эплом, контролируется Эплом, данные с устройства шлет в Эпл. Значит Эпл имеет доступ. Утверждать что Эпл не имеет доступа - ложь, введение в заблуждение.

Троян

Петя хакер написал трояна. Поставил его на устройство тети Глаши. Троянская программа сама находит нужные данные и шлет Пете. Теперь Петя может честно утверждать что он не имеет доступа к устройству тети Глаши, так как данные читает программа и шлет программа. Петя ничего не читает на устройстве, и вообще тетя Глаша сама поставила трояна кликнув на ссылку. А так как Петя не имеет доступа к устройству тети Глаши, то он по определению никак не может получать ее данные (доступа-то у него нет). Данные (банковский пароль) получает некая программа, так случилось, что шлет их именно ему. А Петя ничего сам и не делает, да и не может (в силу отсутствия у него доступа). Вот программа и виновата, все претензии к программе.

План Apple по сканированию iPhone в США вызывает тревогу. Тотальная слежка начинается

lizardus Aug 9 2021 at 09:17

У меня возникли несколько вопросов (риторических скорее всего, к сожалению):

преобразует эту базу данных в нечитаемый набор хэшей, который надежно хранится на устройствах пользователей.

С какой стати Эпл хранит какие-то данные не относящиеся к работе ОС и системы на моем устройстве? Учитывается ли (вычитается?) размер базы данных из заявленных тех. спецификаций устройств (Эпл рекламирует новый iphone как 5 гб но 3 из них заняты каким-то мутным контентом, не относящимся напрямую к работе устройства)? Это не введение в заблуждение? Это законно? А завтра они начнут майнить криптовалюту (аргументируя тем, что услуги вам бесплатно) или по договору с нетфликс хранить гигабайты видео на устройствах пользователей... Что скажет юрист? Мне кажется как минимум должна быть возможность opt-out. В суд?

У Apple более миллиарда пользователей, а это означает, что вероятность того, что кто-то будет неправильно идентифицирован каждый год, выше 1/1000

Тут нужно больше деталей, что и как конкретно считали. Учитывали ли количество файлов, например? Если вероятность неправильной классификации равна p, а у пользователя на устройстве N файлов, то вероятность того что хотя бы один из этих N файлов будет неправильно классифицирован равна 1-(1-p)**n. То есть она растет до 1 экспоненциально с ростом количества файлов. Это значит, что каждый под угрозой и угроза увеличивается со временем (количество файлов ведь растет). Фотографы, блоггеры (имеющие глупость пользоваться экосистемой Эпла), и другие кто делает много фото и вообще хранит много файлов - под угрозой. Родители маленькbх детей особенно под угрозой (фото с пляжа).

Изображения сканируются на устройстве.
он будет предупрежден, и родители смогут об этом сообщить. Apple заявляет, что не получает доступа к изображениям, которые сканируются на устройстве.

Это какое-то само-себе-противоречащее высказывание. Эпл не получает доступ, но при этом сканирует? Если Эпл шарится непосредственно на моем устройстве, то это значит он не имеет доступа? Или они определяют "получаю доступ" исключительно если живой человек из Эпла читает/смотрит файлы? Программа/автомат/робот Эпла не считается, даже если он может отослать подозрительные файлы человеку? Какой-то 1984. Что скажет юрист? Введение в пользователей заблуждение? В суд?

Siri и Search также будут вмешиваться, когда люди делают то, что считается поисковыми запросами, относящимися к CSAM, объясняя, что интерес к этой теме проблематичен.

А как в Китае? Эпл работает в этой стране и соблюдает законы? Интерес ко многим темам в этой прекрасной стране проблематичен, Тянаньмынь, Фалунгун, права человека и т.п. Противники вакцин тоже будут получать уведомления, что интерес к противопоказаниям к вакцине проблематичен? Что дальше?

Скорее всего следующий шаг: защита авторских прав биг-корпораций. Запросы вроде "скачать фильм" тоже будут маркироваться как проблематичные? Слово "торрент" под запретом? Пользователям зальют очередную базу данных с хэшами пиратских фильмов?

А дальше по хэшам фото и видео и поисковым запросам устройство само будет определять интересы пользователя (за его же счет) и отправлять готовые данные рекламной сети? Хороший способ сократить расходы на инфраструктуру при этом усиливая контроль за пользователем.

Facebook, Microsoft и Google уже имеют технологии, которые сканируют такие материалы, передаваемые через электронную почту или платформы обмена сообщениями.

Но это делается на сервере, так? На личном устройстве пользователя ничего не происходит? Базы данных не хранятся, ресурсы пользователя (электричество, память и т.п.) не используются, заявленные характеристики устройства не деградируют. Компании обязаны проверять хранимые ими данные по закону. Окей пусть проверяют за свой счет и не вводя в заблуждение владельцев устройств.

Apple призвали открытым письмом отказаться от планов сканировать фотографии на устройствах пользователей

lizardus Aug 8 2021 at 23:04

Пользователи не виноваты. Им тупо удобно нажать кнопку "сделать все как надо." Какая-нибудь Баба Валя вряд ли поставит Openmediavault на одноплатнике с SATA, настроит rsync или ssh сервер и какой-нибудь syncopoli на телефоне, чтобы все фотки были под её контролем. Как баба Валя проголосует баблом? Наймет хакера-киберпанка чтобы он ей все сделал вместо Эппла? Вряд ли, она и слов-то таких не знает. А тут просто кнопка: 'синхронизировать' и сохранить на случай потери/кражи телефона. Ну и услужливый Эппл объяснит бабе Вале, что все для ее блага и удобства, все бесплатно, высокая технология, все супер безопасно и вообще законопослушным людям нечего бояться и скрываться. Единственное решение: опен сорсные инструменты, которым реально просто пользоваться и с киллер-фичами: удобство (на первом месте), безопасность и приватность. И соответственно информирование, так чтобы отдавать даром свои данные навсегда неизвестно кому баба Валя считала западлом. Но и тут перспектива не радужная: отдел маркетинга Эппла выкатит супер-военное полностью безопасное, мега-квантовое e2e шифрование с многолетним бэкапом в icloud или гугл-диск (незашифрованное для удобства пользователя).

Организация распределённого хранения файлов с помощью git-annex

lizardus Jul 28 2021 at 23:26

svn: плюс svn: легко получить доступ к файлам через WebDAV без необходимости использовать svn клиент. Иногда может быть удобно. Ну и интерфейс команд очень прост, не в пример git-у.

Организация распределённого хранения файлов с помощью git-annex

lizardus Jul 28 2021 at 22:52

Да, если нужно управлять файлами "на сервере" (условно, на удаленных системах) не скачивая локально, syncthing не подойдет. Он работает примерно как старый оригинальный дропбокс или bt sync: просто синхронизируем локальную папку. Т.е. никаких офф-лайновых съемных хранилищ и т.п. С NAT проблем быть не должно, обычно открывать порты не нужно (если только корпоративный firewall реально суров). Обычного UPnP хватает: насколько я знаю, достаточно чтобы одна сторона соединения поддерживала UPnP. В сложных случаях наверное можно relay-ить или тунеллировать через ssh/socks5. По умолчанию syncthing использует публичный трекер. Обновления файлов конфигурируемы, можно inotify (где поддерживается) или по таймингу, это не должно быть проблемой. Большое число файлов... ну это скорее всего зависит от числа. На более-менее современной системе не должно быть проблемой. Могут быть тормоза в мобильном клиенте наверное и в NAS-е со слабым процессором (у меня было такое, на слабом armv5tel сильно выжирал память но работал, подтормаживали другие процессы). Разрешение конфликтов довольно примитивно: просто файлы с суффиксом -conflict-1234567890. на мой взгляд главное достоинство syncthing - легко поставить и настроить, после чего он работает сам не требуя внимания. Но скорее всего в сложных кейсах придется городить что-то нетривиальное.

Организация распределённого хранения файлов с помощью git-annex

lizardus Jul 28 2021 at 19:51

rsync, NAS, git ... А где-же Syncthing? Все задачи решает: p2p, разделение по папкам с отдельной синхронизацией, шифрование, версионирование (разного типа), при этом элементарно простая настройка, работает на множестве платформ/ОС, мобильный клиент и т.п. Это специальный инструмент для организации распределенного хранения. Просто работает в фоне годами, сам себя обновляет.

Использовние git выглядит как забивание гвоздей ручкой шуруповерта: тоже можно, но сильно неоптимально и можно сломать:)

Telegram заблокировал один из крупнейших сервисов для частного поиска данных граждан «Глаз Бога»

lizardus Jul 5 2021 at 07:51

xmpp и matrix боты, а в клиент телеграмма можно интегрировать базовую поддержку протоколов xmpp и/или matrix (клиент же открытый?). дарю идею :)

Как и зачем хранить домашние каталоги пользователей в Git-репозиториях

lizardus Apr 19 2021 at 09:03

svn не поощряет создание веток по малейшему поводу, что может быть как неудобством, так и преимуществом. Мне кажется для конфигов гитообразный лес из веток как раз нехарактерен, как пулл-реквесты и многие другие полезности. Ну и такая особеность svn как возможность практически из коробки работать с https и webdav сильно облегчает жизнь — элементарно деплоить конфиг на машину не требуя установки vcs.

Как и зачем хранить домашние каталоги пользователей в Git-репозиториях

lizardus Apr 17 2021 at 09:26

Subversion на мой взгляд намного удобнее для этих целей: Единственный приватный репозиторий, разделение прав доступа для поользователей, нет особых проблем с бинарными файлами, доступ к файлам по простому WebDAV, несложно прикрутить авторизацию по сертификату. С dot-файлами и прочими документами (не кодом) обычно не сильно нужны обильные branches с частым и сложным слиянием (и частоколом веток в котором черт ногу сломит). Тут git сильно уступает svn. Да и научить синхронизировать файлики с svn можно быстро научить кого угодно. Скрипт для вытаскивания XML из LO файлов это… как бы сильно неоптимально. Есть же поддержка Flat XML (https://wiki.documentfoundation.org/Libreoffice_and_subversion). Microsoft Office тоже позволяет сохранять документы чистом XML. Для LO есть простенькое расширение для svn (https://extensions.libreoffice.org/en/extensions/show/4071). В общем — разные тулзы для разных целей (но похоже некоторые выучив как пользоваться микроскопом пытаются им же и разглядывать мелкий шрифт в газете и забивать гвозди, ну и вычурные скрипты писать по приколу :)

Что такое VCS (система контроля версий)

lizardus Apr 17 2021 at 06:26

Может быть это было в какой-то древней версии 10 лет назад. В современном svn все работает. Главные трудности в svn — всегда нужна сеть, и он может быть очень мммееееддддленный. Ну и с ветками работать не так удобно, в svn это просто директории. Хотя для новичков "папки" svn обычно интуитивнее.

А в целом, svn просто другая система (он работает просто как файловая система) со своими преимуществами и недостатками. Его легко поставить на windows (не тянет за собой треть линукса), он безопасен (все что закоммичено — сохранено навеки, удалить нельзя ничего, никакого rebase), легко сделать checkout одной маленькой части проекта и работать только с ней (а это позволяет модный монорепо без костылей), можно мешать ревизии отеальных файлов в папке проекта и мерджить отдельные файлы произвольным образом. Права доступа к отдельным частям проекта — легко. svn работает с бинарными данными и даже (теоретически) как-то мерджит. Легко аутентификацию по сертификату. Встроенный WebDAV с минимальными усилиями: можно смонтировать как диск в Windows для тех, кому нужен доступ только для чтения, или просто бросить ссылку для браузера (какие-нибудь дизайнеры так могут любоваться картинками из svn или скрипт может получать последние бинарные данные для управления коллайдером).

Что такое VCS (система контроля версий)

lizardus Apr 17 2021 at 05:49

автомитического мерджа, вам надо каждый файлик брать и копипастить изменения в основную ветку, что неудобно.

Не совсем понятно, что значит "автомитический мердж." И в svn совершенно не нужно брать каждый файлик отдельно и куда-то копипастить. Все делается само автоматически, как и в других vcs.

Общаемся в Telegram со смартфонов на Symbian

lizardus Oct 16 2020 at 17:22

Прекрасно! А можно ли подобное на J2ME? На этой платформе в свое время было несколько клиентов XMPP, но они давно заброшены и уже не поддерживают современные TLS (не говоря о новых XEP-ах). Или еще осталось что-нибудь рабочее для J2ME в 2020?

Минкомсвязи предлагает отменить нулевой НДС на продажу ПО, чтобы компенсировать налоговый маневр для IT-компаний

lizardus Jun 25 2020 at 08:51

Это «маневры»: вправо-влево, вперед-назад, вверх-вниз. Главное процесс обещаний и связанный с ним пиар. Ну и наиболее критичная к режиму группа хомячков обрадовалась, пойдет (или нет?) голосовать за вечного дедушку. Еще «маневры» предсказуемо и повышают стоимость акций аффилиированных с режимом IT-гигантов, что можно монетизировать если заранее знать. Профит.

Путин одобрил меру о бессрочном снижении налога на прибыль для IT-компаний с 20% до 3%

lizardus Jun 24 2020 at 08:07

Хаха — бессрочно, это значит что льготы можно отменить достаточно скоро после того как радостные «айтишники» проголосуют за продолжение бесконечного царя. Называется — полюбите меня :) После перевыброрв царя, «отрицательный экономический рост» перерастет в стабильный экономический спад и конечно-же, это будет означать, что «ситуация поменялась» и можно вернуть все ставки в зад. Дядя уже много чего обещал: не трогать конституцию, не повышать пенсионный возраст и т.п. Но как водится, «ситуация меняется.» Умные и рациональные айтишники поверят дяде с учетом его репутации? Обрадуются и побегут голосовать за стабильность (а вдруг новый главный все отменит? ужос)? Или всем ясно, что это очевидное шулерство?

Пока, Python. Привет, Julia❗

lizardus Jun 21 2020 at 21:10

На питоне можно писать быстрый код. Но это требует изучения numpy (и т.п). А это отдельная сущность, отдельная работа, требующая усилий и времени. Причем со своими концепциями, например статическими типами. Для многих непрограммистов, пишущих код (а число таких людей растет) все это часто бывает большой проблемой (такова жизнь). Julia же позволяет написать считалку в рамках всего одного инструмента. Вот поэтому ее и пиарят. Не поймите меня неправильно, я не призываю всех переходить на Julia. Но у нее действительно есть свои положительные стороны в своей основной нише.

Пока, Python. Привет, Julia❗

lizardus Jun 20 2020 at 23:00

Ну это питон открыл ящик пандоры с табами. Чтобы не сломать мозг, в Julia нужно рассматривать ; как перевод строки, т.е. матрица:

| 1  -2 |
| 4  -5 |

Пока, Python. Привет, Julia❗

lizardus Jun 20 2020 at 22:54

Нет, я на ней сам не пишу, но иногда ее читаю. (Сам пишу на фортране, си, эр и матлабе). И по моему опыту порог входа у джулии примерно как у питона, матлаба или эр. Правда в реальности что-то пишут на джулии (пока?) довольно редко и обычно те кто уже хоть немного знаком с питоном.