All streams
Search
Write a publication
Pull to refresh
-22
0
Артем Шпынов @FYR

User

Send message
Да ну нет. Технологии… не не так… Подходы к решению проблем поиска и анализа данных есть. И какие-то даже реализуются и работают.
Другой вопрос что ничего из «готового» как правило просто непригодно ну или приходиться использовать это либо очень «нестандартно», либо жесточайше тюнить.

А если вы воткнулись с разбегу в пень… ну значит вы взяли мало железа… даже если это уже измеряется машзалами :sarcasm:
ЭЭЭ… А назовите ка мне хоть одну реализацию СОРМ-3 на хадупе? Желательно еще не для голоса, а для ПД у которых архив интернет статистики за 2 года лежит в хадупе и которые выполняют требования 583 приказа по скорости извлечения этих данных из этого архива… Хорошо бы если бы он был «коммерческим».

Это не «архив под закон Яровой» из этого «архива» надо данные извлекать со скоростью хотя бы 1 поток за секунду найти, а потом за пару секунд прочитать.
Стоп… что значит «приедет ли» вообще-то на время ЧМ специалист из мсцт должен будет сидеть рядом со шкафами 24/7 с готовым блоком в позе «наготовЕ»
Да есть несколько компаний, которым это под силу. И даже люди из них это реализующие присутствуют тут. На самом деле нет ничего сложного в реализации записи и поиска — технологий вагон. Тот же гугол, яндекс, всякие однокашники с фейсбуками — давно уже это делают и на подобных масштабах.

Реально проблема в том чтобы реализовать это на минимальном железе с минимальными затратами, ибо эта прелесть в отличае от гуглов и однокашников никоим образом не монетизируется. А так да — берем хадуп, какую нибудь монгу дб, строим пару датацентров чтобы разместить там гору дешевейшего ширпотребного железа… нанимаем пару взводов рабов чтобы это все чинить и менять и получаем профит…
Отвечаю:
Устройство съема и декодирования трафика работает на скорости 40 гигабит секунду. Или 5 гибибайт в секунду. Задержка в 1 секунду на запись данных требует минимум 10 гигабайтного буфера на отправляющей стороне тупо чтобы сгладить эту задержку. А также буферизация требуется на коммутируемый протокол на базе TCP ибо точки съема трафика и датацентр с хранилищами ни разу ни рядом, и так далее и тому подобное. В итоге у нас только на буфера сетевые для отправки улетает десятки гигабайт ОЗУ. Причем это на «смешные 40 гигабит».
Потом упомянутый тут Купол — это лишь большой и кстати довольно неудобный жесткий диск. Про остальную часть системы в статье ни слова.
Как раз про ту что аггрегирует, переупорядочивает, индексирует, ищет достает.

Реданданси? Репликация? Вы тут вайдосите что вам тарифы в разы поднимут… Давайте мы еще фактор репликации 3 введем… что бы уж наверняка?

Если вы мне не дай боже на хадупе… в рамках скажем 12 серверов класса HP gen9 с полками в паре шкафов сможете записать 20 миллионов одновременных потоков, приходящих фрагментами в лучшем случае по полтора килобайта с общей скоростью 5 гигабайт в секунду, с длительностью потоков до нескольких часов, а то и суток…

К слову сказать это если в лоб — примерно 3 миллиона IOPS при размере запроса 1,5 кб… и латентности 0,3 микросекунды.

И не просто записать, а еще и проиндексировать так чтобы потом найти в этих петабайтах любой поток по ключу не медленнее чем за пару секунд, а потом извлечь его хотябы в 10 раз быстрее чем он был записан… Все это на фоне текущей записи, гарантируя стабильное летенси скажем на 64 мегабайтный блок на запись хотя бы секунда… А реданданси ну хотя бы аналогичный Raid6…
Откровенно дурной протокол, указанный в нормативке, который просто не предназначен для кластерной архтектуры, а также проблемы вида «точка съема трафика у нас во Владивостоке, а датацентр с хранилкой в подмосковье» мы это пока оставим за скобками.

Вообщем, если вы это сделаете на хадупе ну или хотя бы на более подходящем для этого ceph… тогда у меня сразу есть для вас job-offer.

З.Ы. извиняюсь за некоторый сумбур в формулировках

Ты хотя бы представляешь себе примерно с точностью до 2х порядков производительность хадупа и требуемую производительность этой шарманки? «на обычном ширпотребе» с армией мальчиков-зайчиков которые будут бегать и менять «ширпотребные» винты?

И потом это всего лишь хранилка, там еще шкаф оборудования декодирования, приема и организации данных. Ибо 200 гигабит/секунду с предельным временем отклика 10мс и 24/7 throughput это вам не хадуп и не ширпотреб.

Для ориентировки пока «ширпотребные» не тянут по скорости, времени отклика да и пропускную способность обеспечить не могут (чтобы не занимать при этом больше 2х шкафов)

А что к 30 июня то? Мы вроде к 31 мая делаем.
Жалко что Гарда Предприятие не посмотрели. Мне как её разработчику интересно было бы увидеть такое сравнение с конкурентами.
У тех лида своя своя своебразная ниша, конечно он не очень менеджер и не очень разработчик. Конечно если его брать как разработчика то он будет явно переоценен.
Если его брать как менеджера у него не будет ряда менеджерских качеств. Да и не архитектор он.

Но у него есть свои качества которые и ценятся: знание общей архитектуры, техническое управление несколькими проектами, общее понимание архитектур. Владение кодом как правило в самых проблемных местах.
Ну это не техлид получается, а менеджер.

Все зависит от «сотрудник уходит на повышение» или «сотрудника попросили уйти» ибо намучались с ним.
Но вообще еще не разу «дембельский аккорд» ни к чему хорошему в итоге не приводил
Увы я не просто вполне понимаю. Вот там выше были цены наших комплексов.

«Распарсить такие потоки трафика? Какие „такие“? Задача декодирования всех объектов прикладного уровня в потоке трафика 40 гигабит успешно решается одним двухюнитовым сервером.
Дальше больше проблем с масштабированием/взаимодействием/интерфесами подключения.

Проблема не в „записать все что раскодировали“ это вообще без проблем — просто куча железа. Причем процессорной мощности на индексацию надо не так уж и много и габариты начинают вылазить тупо из за шасси в которое нужно пихать диски, объема памяти которое нужно для кеширования индекса и т.п. Но это вполне подъемно.

А дедупликация — посчитали объект, посчитали crc32 проверили урл оппа совпало перепроверка и отбрасывание.

Но есть маленький ньюанс — а дублируемые объекты чекистам и не нужны. Это как правило и есть весь тот „мусор“.

Отмена пакета не отменит спецсредства, их закупку и их использование. Есть или нет пакет Яровой не важно — оборудование купят, поставят и будут использовать. Разница лишь за счет бюджета либо за счет операторов.

>в правила которого можно в любой момент залезть и проверить
угу щас залезете и проверите. даже щас нераскрытие оперативных мероприятий — священая корова… только прокуратура.

Точно также можно залезть и проверить в логи, а не было ли запросов по такому то депутату. Щас регламентируется запись будет регламентироваться доступ…

А и да если спецслужбе (инквизиции, ЦРУ, ФСБ) потребуются орудия пыток — то вашего выбора никто не спросит: купят и дыбу и железную деву. Тут че то решили в демократию поиграть целый законопроект придумали.
не совсем меня поняли.
Вариант такой: выжмут из вас 800р оператор связи (при условных 1000р)
или
Выжмет из вас бюджет 10 тысяч (при условных 1000р) в виде налогов, да не в том виде 13 процентов подоходного, а сократив зарплату медсестрев поликлинике куда вы приписаны, урезав финансирование школы куда ходит ваш ребенок, увеличив цену на продукты из за акцизов на бензин, разных платонов и прочее.
Ну про простых сисадминов вы конечно загнули, они даже сейчас доступа не имеют в том числе даже к оборудованию на прощадке оператора.

Так то для того чтобы узнать «чем помочь вашему бизнесу» конкретных макетов видеть не нужно. Странные вы люди — пользуетесь облаками (а там совсем никакого регламентирования как хранить как передавать что писать) голосовыми чатами (а тут вообще пиши все что хочешь). А спецслужбам пусть плохим и поганым не доверяете — а там хоть какой то регламент есть.
Угу… Вот сейчас передомной лежит коробка с типа российским сервером «Depo» на коробке написано «мы их сделали для Вас» внутри Supermicro. Если честно я даже насчет картона коробки не уверен российский ли он.
На самом деле закон Яровой обычным людям даже выгоден. Объясняю почему:
ДУмаю всем понятно, что если спецслужбам нужно какое то техническое средство для своей работы, то они его так или иначе все же получат.
Вариантов два:
1. Обязываем операторов
2. Закупаем самостоятельно за счет бюджета

В первом случае это довольно публично — вот автор нарыл цены аж у двух поставщиков. Хоть и какая никакая а конкуренция. Сговориться трем-четырем поставщикам и продать решение двум трем покупателям все же не так просто. Плюс оператор и сам может разрабатывать средства для СОРМ (один так даже и делает).
Оператор не сможет просто увеличить свои тарифы — их нескольколько кто последним увеличит к тому народу куча прибежит, придется снижать свою норму прибыли. Плюс самим производителям то что дешевле продать тупо проще — стремимся подобрать железо оптимизировать софт и т.п.

Во втором случае это бюджет, закупки, а так как спецсредства то еще и закрытые тендеры… А так как все равно за бюджет, производителям ничего не надо оптимизировать. Более того это еще и не выгодно (лучше тупо иметь запас по железу в 2 раза, а лучше в 3), купить проприетарные решения (зачем что-то разрабатывать, когда перепродать чужое под своей маркой выгоднее). Плюс производителей будут заставлять сертифицировать/стандартизировать, каждый новый чих — все заново. Еще приплетут какие нибудь «отечественные разработки», типа операционка должна быть отечественной «здраствуй болгенос» и процессор тоже, и сервер и так далее. Вообщем еще присосуться куча фирмочек по сертификации/стандартизации/переклейке лейблов.

А еще это не позволит производителям переиспользовать код, а еще появятся сложности с кадрами (много программеров хотят быть невыезными и под секретностью?).

Ну а еще ~распилы~ и все что присуще тендерам. И конечно никакой операторской самодеятельности…

В итоге цена только вырастет. Точно в разы, если не на порядок.

А кто все это оплатит? Дядя с горы? Вы же из своих налогов и оплатите. А цена на связь все равно вырастет — потомучто нужно будет и каналы связи построить, и оборудование охлаждать/питать, и как же не примазаться то оператору…
Да, именно, не какой-то icmp, а куча танчиков, ферм, раздачи торрентов, киношки, всякие ajax запросы, всякое обновление винды, антивирусов. Ну конечно и банальные ретрансмиты пакетов, но их не так и много.
Да даже вот эту страничку хабра обновите и посмотрите сколько будет собственно страничка (текст + скрипты + оформление которое еще и кешируется), а сколько баннеры/реклама/счетчики/прочий мусор.

И это заметьте на довольно легком сайте. А если открыть какой нибудь однокласники или ЯП где реклама просто пестрит…

Krey, это хорошо если РАЗРЕШАТ и дедупликацию, и фильтрацию мусора: решения есть, процессорное время тоже, оптимизируется хорошо. НО я боюсь что снова обяжут тупо «хранить все» как в кольцевом буфере шифрованное/нешифрованное/мусор/служебное. Кстати с точки знения приватности это даже надежнее ибо в этом хламе котиков танков ферм торрентов найти что то полезное и конкретное — очень долго.
Да в одной из упомянутых. Как раз и занимаюсь разработкой СХД.
Но не в моих правилах разглашать корпоративную информацию — конкуренты не дремлют. А касательно всех этих паник насчет закона Яровой могу только одно сказать — важно что будет конкретно прописано потом в правилах применения — если как сейчас с кольцевым буфером тупо хранить весь трафик — это просто с технологической да и практической стороны — бред — там больше половины всякое технологическое никому ненужное говно от служебного трафика до обновлений окошек да мама не горюй дублей обычных страниц типа ленты.ру. Но ведь профильных специалистов не спросят как обычно. И не из каких либо «тайных замыслов», а тупо по глупости.
Можно спросить: откуда вы все лезете? Вы в вопросе хотябы в прикладной части разберитесь чтобы такие статьи писать. А уж про рейтинги компаний Спецтехи+МФИ больше Норсятников аж в пять раз вы откуда это взяли? СОРМ3 приплели… Пакет Яровой и ФСБ… Я незнаю инсайдеров бы хоть что ли поспрошали или чекистов чтобы узнать кто и где стоит. Разобрались бы чем второй сорм от третьего отличается, что такое «обеспечение ОРМ».

А уж про «доходы вышеперичисленных» при увеличении кольцевого буфера" вообще просто бред сивой кобылы. Тем более в 12 раз.

Вот приходят такие деятели в госдуру и не разобравшись в предметной области придумывают законы. Обосновывая типа «вот 4 терровый диск в ситилинке 5 тыщ рублев стоит — гавно вопрос 1000 штук купить этож какой кольцевой буфер забабахать можно», а ты потом придумывай как это реализовывать. и Как операторские пол террабита в секунду на эти диски писать, а потом с них читать.

Information

Rating
Does not participate
Location
Нижний Новгород, Нижегородская обл., Россия
Date of birth
Registered
Activity