Статьи / Закладки / Профиль Imsim / Хабр

Иван Симкин @Imsim

Lead Data Engineer

Профиль Публикации Комментарии 1Закладки 7

CodeDroidX 2 окт 2023 в 12:00

P2P-форум с нуля | от NAT hole punching до автономной и полностью децентрализованной сети

Средний

32 мин

17K

Блог компании RUVDS.comДецентрализованные сети*Программирование*Сетевое оборудованиеСетевые технологии*

Туториал

Многие, кто работают с интернет-сокетами в любой сфере IT, задаются вопросом о пробросе портов. Связано это с тем, что практически во всех домашних/общественных/корпоративных роутерах реализован механизм NAT, который перекрывает прямой доступ к устройствам в этих подсетях извне, общаясь с внешним интернетом от их имени.

У NAT есть киллер-фича — он представляет собой идеальный фаервол: атаки извне не могут использовать порты локальных устройств напрямую, следовательно, это решает проблему атак на сетевую уязвимость ОС.

Но, это доставляет и неудобства, например, если ты захочешь подключиться или хотя бы увидеть устройство за NAT в благих целях, то ты чисто теоретически не сможешь это сделать — у него относительно тебя нет IP-адреса.

Разнообразные сервисы работают на серверах, т. е. имеют некую ноду, которая имеет белый адрес в интернете (находится не за NAT). Все пользователи же подключаются к этому единому серверу. В таком случае проблема «невидимости» пользователей отпадает. Однако чисто серверное взаимодействие ограничивает скорость участников, так ещё и не отказоустойчиво. Если сервер упадёт, то все клиенты отправятся за ним (считаем, что это одноклеточный сервис не на всяких там kubernetes).

Как вы уже могли были догадаться, даже в реалиях, когда практически все устройства находятся за NATами, P2P реален. Когда вы являетесь участником bittorrent-раздачи, трансфер больших данных осуществляется напрямую. Как это работает? Поиск ответа на этот вопрос завёл меня в глубокие дебри, разгребая которые я написал оверлейную p2p-сеть, где трекерами являются сами её участники. Интересно? Тогда добро пожаловать под кат.

Читать дальше →

+76

dubrovinru 1 июл в 15:35

4 года холакратии — честный отзыв о работе без руководителей

10 мин

29K

Контент и копирайтинг*Развитие стартапаУправление персоналом*Карьера в IT-индустрииУдалённая работа

Мнение

В этой статье я постарался честно и вдумчиво проанализировать опыт перехода из вертикальной структуры в горизонтальную. Как мы к этому пришли? Как проходил переход? Что с зарплатами? Куда делись руководители, которые вдруг стали не нужны? Если что-то упустил, спрашивайте в комментариях.

+88

AlexeyNadezhin 20 апр 2022 в 15:13

Тест свинцовых аккумуляторов 12V 7Ah средней цены

3 мин

23K

Блог компании LampTestЭнергия и элементы питания

Полгода назад я тестировал дешевые свинцовые аккумуляторы и результаты были довольно грустными. Теперь я протестировал три модели аккумуляторов средней ценовой категории и одну подороже.

Читать дальше →

+41

Asmodayppl 22 июл 2021 в 13:00

Как и зачем мы сделали Spark-коннектор к Greenplum

5 мин

6.9K

Блог компании ArenadataBig Data*Хранилища данных*Распределённые системы*Data Engineering*

Всем привет! Меня зовут Андрей, я работаю системным архитектором в Arenadata. В этой статье расскажу, как и зачем мы сделали свой инструмент для обмена данными между Arenadata DB (аналитическая MPP-СУБД на базе Greenplum) и фреймворком для распределенной обработки данных Apache Spark (входит в экосистему Arenadata Hadoop).

servarius 14 фев 2023 в 10:03

Делаем ТруЪ-DevOps в мире хранилищ данных

Средний

16 мин

5.6K

Блог компании JUG Ru GroupБлог компании ПочтатехSQL*IT-стандарты*DevOps*

Мнение

Меня зовут Василий, и уже больше пяти лет я причиняю DevOps в хранилищах. Последние полтора года руковожу группой автоматизации хранилищ данных в Почтатехе.

В нашем data warehouse 6,5 петабайт активных данных. Вы и сами можете представить масштабы, когда речь идет о Почте России: работа сайта и приложения, логистика, трейсинг посылок и даже строительство сортировочных центров основываются на данных нашего хранилища.

Я расскажу, как мы применяем DevOps-практики на таких объемах DWH и как внедрить подобное у себя.

+26

Sber 12 окт 2021 в 15:04

Изменить сохранения Spark Часть вторая: реализация партишенера

44 мин

2.5K

Блог компании СберАдминистрирование баз данных*Big Data*

Изменить сохранения Spark! Часть вторая: реализация партишенера!

Sber 7 окт 2021 в 10:45

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

23 мин

7.4K

Блог компании СберАдминистрирование баз данных*Big Data*

В этой статье вы узнаете о том, какими способами мы пытались обновлять таблицы в Hadoop, содержащие сотни терабайт данных.

И если в начале нашего пути процесс обновления длился несколько часов (до десяти-двенадцати часов), то теперь ему требуется всего тридцать-сорок минут, а использование вычислительных ресурсов уменьшено вдвое!

При этом была создана библиотека расширения Spark, которая предоставляет DataSource для преобразования данных в файлах в формат этого DataSource, изменения данных командой MERGE через DataFrame API или SQL, а в будущем ещё и UPDATE, DELETE и некоторые операции DDL.

Файлы при этом можно будет читать любым привычным способом, ведь они не модифицированы, а метаданные не обязательны для их чтения.

Вы увидите код этой библиотеки на языке Scala, который сможете использовать, а может быть даже доработать и поделиться своими успехами.

Я постараюсь пояснить, почему был сделан тот или иной выбор, но могу умолчать о чём-то, что кажется очевидным, или, наоборот, о чём я не имею представления. Вы сможете задать вопросы, а я постараюсь ответить на них.

Это первая статья из нескольких, и в ней будет рассказано только о немногих реализованных классах (они нужны для распределения данных определённым способом), поэтому наберитесь терпения, я расскажу всё по частям. Впрочем, пора перейти к повествованию.

P2P-форум с нуля | от NAT hole punching до автономной и полностью децентрализованной сети

4 года холакратии — честный отзыв о работе без руководителей

Тест свинцовых аккумуляторов 12V 7Ah средней цены

Как и зачем мы сделали Spark-коннектор к Greenplum

Делаем ТруЪ-DevOps в мире хранилищ данных

Изменить сохранения Spark Часть вторая: реализация партишенера

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

Информация

Специализация