Pull to refresh

Comments 17

Цитата:
"База SQLite прекрасно понимает CSV и к тому же имеет даже собственный полнотекстовый поиск"
интересно, если взять случай:
млн. документов, каждый по 1 Мб.
(ну или 100 тыс. документов по 10 Мб. каждый)
то по итогу будем иметь документов на 1 Тб. суммарно,
И каков будет в таком случае размер полнотекстового индекса в SQLite?
Сможет ли SQLite полноценно работать с индексом обьемом 100 Гб ? 1 Тб ?

Спасибо за вопрос!
Помимо sqlite есть ещё два варианта поиска. В самом начале вы имеете текстовые данные (csv) и можете искать по ним обычным grep, а его недооценивать не стоит. Наконец, elasticsearch, куда можно свалить хоть терабайт информации и это не предел.
В любом случае, вы сами выбираете, в каком виде вам работать с данными. Если вы пентестер и у вас несколько дней на проект, просто grep по csv. Если вы админ и разворачиваете непрерывный краулинг, то elasticsearch/opensearch.

А сами документы часто бывают 2-х язычные, например,

  • Документ на русском со вставками на английском языке

  • документ на немецком со вставками на английском языке

  • документ на немецком со вставками на иврите языке почему именно иврит, спросите ? а потому, что это язык с направлением письма "справа-налево", в отличие от др. вышеупомянутых языков с направлением письма "слева-направо". ============================ и насколько корректно будет работать полнотекстовый индекс в таком случае ?

Всё зависит от парсера. Большинство утилит сможет понять любые языки.

И чтоб совсем уж поставить в тупик, интересующихся данной темой,
задам следующий вопрос:
как можно было бы проиндексировать видеофайл 360град.
митинга из 20+ человек, разговаривающих иногда одновременно и перебивающих друг друга,
разговаривающих, например, на русском, но для многих из них русский- не родной,
и потому акцент у них - жуткий ?

Видеозапись митинга содержит звуковую дорожку, которую можно извлечь с помощью ffmpeg и далее распознать текст с помощью vosk. Так, задача может быть решена в две команды.
Вот если бы вы спросили как извлечь текст именно из видеоряда)

По сути статья для тех кому нечем заняться. Можно ломать всё вокруг, но лучше жить от этого никто не станет.
Что бы лучше жить нужно созидать. А поиск паролей в локалках это разрушение.

Если Гугл поисковик, то нужно было написать опен сорс Гугл поисковик с интерфейсом. И что бы искал по всему интернету. Индексировал с указанной скоростью и периодичностью.
А не поиск паролей, что бы взломать...

оч много компаний ведут документооборот не в спец системах а в шарах, и вот подобное так то бы очень помогло найти что-то в документе/скане/видосе, видосы порой бывают не только с митингов но и с фиксацией действия некоторых лиц с погонами

Действительно, безопасность внутренней инфраструктуры вашего бизнеса - это от нехрен делать ... Ну ведь работало же оно нормально без мероприятий ИБ вчера .. и позавчера.. и месяц назад ? Так значит, будет работать и завтра и послезавтра и через год и через 10 лет ! (???)

Аналогия из автопрома: покупаем новое авто, в нём естессно, залито моторное масло . проходит время...и авто ездит без проблем ...и вчера и позавчера, и полгода назад.. но есть правила ТО, которые настоятельно рекомендуют заменить масло уже сегодня-завтра, максимум через неделю ! ведь авто будет ездить без проблем ещё 2 недели ? будет ! а ещё месяц ? будет ! а 3 месяца ?... так нафиг менять масло ? ведь ездит же ! а тупые инженерришки, написавшие сервисные инструкции, набивают себе цену . в топку их инструкции... Но, прошло пол-года и двигатель заклинило... ай.яй.яй. откуда ж эта напасть взялась ? происки инопланетян, не иначе ? или злой рок ?

так и история с ИБ...
пентесты ? нафиг.. ведь работает же...

Спасибо за комментарий!
Поисковая система ничего не разрушает, поэтому её создание — это созидание.
Эта система 100% опенсорсна и у неё есть интерфейс.
Но вас никто не обязывает искать именно пароли, это лишь самый наглядный пример. Эту систему можно использовать и простым людям, чтобы ориентироваться, где какие документы можно найти.

Интеграция с pandoc возможна всего в одну строчку кода: добавьте его команду в crawl.sh под нужным mime-type.
Но учитывайте, что pandoc ограничен типами файлов, он не сможет exe, elf, zip, tar, 7z, etc. Ограничения нам не нужны.

Sign up to leave a comment.