Comments 17
Это очень хорошо
Прекрасная работа и полезная статья, автору респект
Хабр торт!
Цитата:
"База SQLite прекрасно понимает CSV и к тому же имеет даже собственный полнотекстовый поиск"
интересно, если взять случай:
млн. документов, каждый по 1 Мб.
(ну или 100 тыс. документов по 10 Мб. каждый)
то по итогу будем иметь документов на 1 Тб. суммарно,
И каков будет в таком случае размер полнотекстового индекса в SQLite?
Сможет ли SQLite полноценно работать с индексом обьемом 100 Гб ? 1 Тб ?
Спасибо за вопрос!
Помимо sqlite есть ещё два варианта поиска. В самом начале вы имеете текстовые данные (csv) и можете искать по ним обычным grep, а его недооценивать не стоит. Наконец, elasticsearch, куда можно свалить хоть терабайт информации и это не предел.
В любом случае, вы сами выбираете, в каком виде вам работать с данными. Если вы пентестер и у вас несколько дней на проект, просто grep по csv. Если вы админ и разворачиваете непрерывный краулинг, то elasticsearch/opensearch.
А сами документы часто бывают 2-х язычные, например,
Документ на русском со вставками на английском языке
документ на немецком со вставками на английском языке
документ на немецком со вставками на иврите языке почему именно иврит, спросите ? а потому, что это язык с направлением письма "справа-налево", в отличие от др. вышеупомянутых языков с направлением письма "слева-направо". ============================ и насколько корректно будет работать полнотекстовый индекс в таком случае ?
И чтоб совсем уж поставить в тупик, интересующихся данной темой,
задам следующий вопрос:
как можно было бы проиндексировать видеофайл 360град.
митинга из 20+ человек, разговаривающих иногда одновременно и перебивающих друг друга,
разговаривающих, например, на русском, но для многих из них русский- не родной,
и потому акцент у них - жуткий ?
По сути статья для тех кому нечем заняться. Можно ломать всё вокруг, но лучше жить от этого никто не станет.
Что бы лучше жить нужно созидать. А поиск паролей в локалках это разрушение.
Если Гугл поисковик, то нужно было написать опен сорс Гугл поисковик с интерфейсом. И что бы искал по всему интернету. Индексировал с указанной скоростью и периодичностью.
А не поиск паролей, что бы взломать...
оч много компаний ведут документооборот не в спец системах а в шарах, и вот подобное так то бы очень помогло найти что-то в документе/скане/видосе, видосы порой бывают не только с митингов но и с фиксацией действия некоторых лиц с погонами
Действительно, безопасность внутренней инфраструктуры вашего бизнеса - это от нехрен делать ... Ну ведь работало же оно нормально без мероприятий ИБ вчера .. и позавчера.. и месяц назад ? Так значит, будет работать и завтра и послезавтра и через год и через 10 лет ! (???)
Аналогия из автопрома: покупаем новое авто, в нём естессно, залито моторное масло . проходит время...и авто ездит без проблем ...и вчера и позавчера, и полгода назад.. но есть правила ТО, которые настоятельно рекомендуют заменить масло уже сегодня-завтра, максимум через неделю ! ведь авто будет ездить без проблем ещё 2 недели ? будет ! а ещё месяц ? будет ! а 3 месяца ?... так нафиг менять масло ? ведь ездит же ! а тупые инженерришки, написавшие сервисные инструкции, набивают себе цену . в топку их инструкции... Но, прошло пол-года и двигатель заклинило... ай.яй.яй. откуда ж эта напасть взялась ? происки инопланетян, не иначе ? или злой рок ?
так и история с ИБ...
пентесты ? нафиг.. ведь работает же...
Спасибо за комментарий!
Поисковая система ничего не разрушает, поэтому её создание — это созидание.
Эта система 100% опенсорсна и у неё есть интерфейс.
Но вас никто не обязывает искать именно пароли, это лишь самый наглядный пример. Эту систему можно использовать и простым людям, чтобы ориентироваться, где какие документы можно найти.
pandoc - текстовый конвертер. Понимает пару десятков разных форматов.
Спб. В том числе за импульс на коммент от Pasha_21.
Свой Google в локалке. Ищем иголку в стоге сена