Articles / Bookmarks / Profile of igor

Игорь @igor_suhorukov

java / open source

ProfileArticles89PostsNewsComments1.8K

Denis-ulcity Jan 29 2023 at 12:46

Сводные таблицы в Pandas — швейцарский нож для аналитиков

3 min

49K

Python*Data Mining*

From sandbox

Сводные таблицы хорошо известны всем аналитикам по Excel. Это прекрасный инструмент, который помогает быстро получить различную информацию по массиву данных. Рассмотрим реализацию и тонкости сводных таблиц в Pandas.

dmitriizolotov Mar 3 2023 at 15:50

Журнал архитектурных решений (ADL) при проектировании информационных систем

Easy

4 min

8.8K

OTUS corporate blogSystem Analysis and Design*Project management*

Review

Для сложных информационных систем бывает крайне сложно принять компромиссные решения с учетом ограниченных ресурсов. Одним из возможных способов решения является подход Architecture Description Log, который внедрен в крупных компаниях, таких как Google, Spotify и Microsoft. В этой статье мы рассмотрим основные положения ADL и обсудим, чем это может быть полезно для создания сбалансированной архитектуры в гибкой методологии разработки.

+12

Iskorkin Mar 3 2023 at 15:32

Как рисовать красивые соединения с помощью SVG

Medium

5 min

15K

Web design*JavaScript*Programming*Vector graphics*HTML*

From sandbox

Представьте, в вашем проекте есть куча разбросанных по пространству логически связанных элементов, которые (о ужас!) могут свободно перемещаться по пространству. Задача - красиво и наглядно показать пользователю эти связи, чтобы упорядочить представление. В данной статье я покажу нашу реализацию.

+36

Takagi Feb 26 2023 at 12:59

О «раздутом пузыре» нейросетей

Medium

8 min

102K

Natural Language Processing*Artificial IntelligenceMachine learning*Programming*Python*

Opinion

✏️ Technotext 2023

На днях я наткнулся на одно любопытное видео.

Моей первой реакцией было ~~Братан, хорош, давай, давай, вперёд! Контент в кайф, можно ещё? Вообще красавчик! Можно вот этого вот почаще?~~ отрицание и усталость, потому что всё это я уже слышу на протяжении лет пяти с разной интенсивностью в зависимости от текущих объектов хайпа. В этом посте я попытаюсь разобраться, что из сказанного в видео является правдой.

Утверждения:

1. Закон Мура больше не выполняется из-за фундаментальных физических ограничений ⇒ масштабирование нейросетевых моделей по вычислительному бюджету невозможно.

2. Нейросетевые модели внедряются слишком медленно.

3. Ответы нейросетевых моделей неконтролируемы и неинтерпретируемы.

Дальше обсудим каждое из них.

+132

172

alizar Feb 27 2023 at 09:00

Безграничные возможности FFmpeg на примерах

Easy

12 min

72K

RUVDS.com corporate blogSoftwareWorking with video*Video equipmentOpen source*

FFmpeg — швейцарский нож для мультимедиа. Совершенно незаменимая программа, которую использует в повседневной жизни почти каждый, даже не зная об этом. Например, вы сняли видео и заливаете на видеохостинг — оно перекодируется и публикуется уже в другом разрешении/формате/размере. Как вы думаете, какая программа выполнила транскодирование? Вполне возможно, что под капотом на сервере работает FFmpeg.

FFmpeg объединяет более 300 видео/аудио/графических кодеков, декордеров, муксеров, демуксеров и фильтров. Благодаря ему вы можете написать собственный видеоплеер в тысячу строчек кода, не разбираясь с кишочками видеообработки.

Это «движок» почти всех современных инструментов для обработки/сжатия/редактирования видео. Они просто предлагают графический интерфейс с кнопками, а ffmpeg делает реальную работу.

Читать дальше →

+127

tarmalonchik Feb 25 2023 at 09:21

Сказ о том как pet-project превратился в небольшой пассивный доход (часть 1)

Easy

5 min

43K

Programming*Nginx*Go*

Case

Я backend разработчик с опытом около 3-х лет, пишу в основном на Golang. Проработал в нескольких крупных российских компаниях. Сейчас я параллельно со своей работой пытаюсь сделать удобный, дешевый VPN сервис с высокой пропускной способностью. В этой статье я хочу просто рассказать про жизненный цикл своего проекта. Возможно кому-то будет просто интересно почитать, а кто-то может почерпнуть что-то новое для себя.

+50

Razoomnick Jan 16 2023 at 17:12

Парсим сайты с защитой от ботов

26 min

52K

C#*HTML*.NET*JavaScript*Configuring Linux*

Tutorial

✏️ Technotext 2023

В этой статье мы разберемся, как работает типичная защита от роботов, рассмотрим подходы к автоматическому парсингу сайтов с такой защитой, и разработаем свое решение для её обхода. В конце статьи будет ссылка на гитхаб.

Речь не идет о каком-либо виде "взлома" или о создании повышенной нагрузки на сайт. Мы будем автоматизировать то, что и так можно сделать вручную.

+15

Arnak Feb 24 2023 at 10:05

Массовые IT-увольнения создают условия для нового бума стартапов

7 min

13K

getmatch corporate blogStart-up developmentIT careerIT-companies

За последние месяцы сотни тысяч сотрудников потеряли работу в Google, Meta и других IT-гигантах. Некоторые, оставшись без дела, решают создать собственные компании. Или раскручивают свои пет-проекты. Что закладывает новый фундамент для будущего всей индустрии.

Читать дальше →

+21

Igor_Le Feb 21 2023 at 00:11

Postgresso 1 за 2023 (50)

20 min

4.6K

Postgres Professional corporate blogPostgreSQL*

В этом номере самое интересное за январь начало февраля 2023. В том числе, конечно, о релизах

PostgreSQL 15.2 и Postgres Pro Enterprise 15.1.1

+12

deskarion Dec 22 2022 at 08:13

Создаем кибер-разведку в компании на основе OSINT

10 min

27K

Тензор corporate blogInformation Security*IT Infrastructure*

Привет ХАБР. Тема, которой посвящена эта статья с одной стороны важна, ведь в кибер-пространстве «неспокойно». Каждый день приходят новости, что ту или иную компанию взломали хакеры, получили дампы или зашифровали данные. Защищаться от кибер-угроз, выстраивая целую инфраструктуру из всевозможных средств защиты хорошо и нужно, но никогда не стоит забывать о разведке. В кибер-пространстве как в армии. Хорошо, когда на границах вырыты окопы, дежурит артиллерия и ПВО, но без разведки не понятно куда и чем противник будет атаковать. В цифровом мире базовая военная стратегия в целом не отличается. Разведка важна и нужна, чтобы быть готовыми и собирать данные, которые собирают злоумышленники о вас и вашей инфраструктуре. В этой статье разберем вопрос о том как создавалось направление кибер-разведки(OSINT open-source intelligence ) в компании.

С чего зародилась идея создания направления OSINT?

В наше время стал мейнстримом тренд на защиту персональных данных и всякой конфиденциалки в компании. Запрос на поиск источников утечек и их закрытия очевиден. Самое сложное расставить приоритеты или ответить на вопрос: "Что будем собственно искать?" Если открыть внутренние документы любой компании, то сведений, составляющих какую-либо из тайн (персональные, конфиденциальные, коммерческие) большое количество. Важно выбрать те, которые являются самыми важными для контроля и утечки которых реально можем находить и устранять.

Путем расстановки приоритетов и реальных возможностей мы выделили основные направления для OSINT:

+16

Kilor Feb 21 2023 at 05:35

SQL HowTo: крупицы золота в реестре

Hard

7 min

10K

Тензор corporate blogAlgorithms*SQL*PostgreSQL*High performance*

Tutorial

В большинстве учетных систем, типа нашего СБИС, рано или поздно возникает проблема быстрого отображения реестра, в который по просьбам бизнес‑пользователей накручено несколько комбинируемых фильтров с очень редкой выборкой, ну никак не ложащихся в вашу красивую структуру базы данных и индексов базовой таблицы реестра — что‑нибудь типа "список продаж покупателям, чей день рождения выпадает на 29 февраля".

Универсального способа сделать «хорошо» тут нет, но я расскажу про модель запроса, которая позволит вам дать пользователю быстрый отклик, но при этом весьма эффективно с точки зрения PostgreSQL.

+18

Stormglass Feb 22 2023 at 11:42

Своя альтернатива Google Maps: хостим сервер OpenStreetMap

Medium

7 min

17K

QIWI corporate blogHostingGeoinformation services*OpenStreetMap*Open source*

Tutorial

Translation

Зачем? Это странно...

Нет, не странно! Google Maps — это, наверно, самый потрясающий сервис, который мы получаем бесплатно [в обмен на свои персональные данные].

Я пользуюсь им почти каждый день, он невероятно полезен для ориентирования на местности.

Но что, если бы нам вообще не нужен был Google?

OpenStreetMap бесплатно предоставляет всему миру данные карт, собранные при помощи краудсорсинга. Но я не имею в виду, что можно просто воспользоваться OSM. Эта организация предоставляет данные, однако политика использования стимулирует пользователей не полагаться на её серверы при личном пользовании, а брать на себя ответственность за хостинг. И глядя на этот проект, я понимаю, почему. Его аппаратные требования не для слабонервных.

Читать дальше →

+33

AlexRybakov Apr 25 2021 at 05:53

Использование данных OSM для анализа

4 min

3.1K

PostgreSQL*OpenStreetMap*Geoinformation services*

From sandbox

В рамках проекта Фото-Географического Атласа России (photogeomap.ru) мы собрали ряд фотографий различных ландшафтов страны. Многие из них сделаны в достаточно труднодоступных местах. Именно эту труднодоступность на качественном уровне мы и хотим оценить для каждой точки (фотографии).

olegbunin Aug 28 2019 at 10:23

Time series данные в реляционной СУБД. Расширения TimescaleDB и PipelineDB для PostgreSQL

21 min

68K

Конференции Олега Бунина (Онтико) corporate blogPostgreSQL*Database Administration*Data visualization*Data storage*

Time series данные или временные ряды — это данные, которые изменяются во времени. Котировки валют, телеметрия перемещения транспорта, статистика обращения к серверу или нагрузки на CPU — это time series данные. Чтобы их хранить требуются специфичные инструменты — темпоральные базы данных. Инструментов — десятки, например, InfluxDB или ClickHouse. Но даже у самых лучших решений для хранения временных рядов есть недостатки. Все time series хранилища низкоуровневые, подходят только для time series данных, а обкатка и внедрение в текущий стек — дорого и больно.

Но, если у вас стек PostgreSQL, то можете забыть о InfluxDB и всех остальных темпоральных БД. Ставите себе два расширения TimescaleDB и PipelineDB и храните, обрабатываете и проводите аналитику time series данных прямо в экосистеме PostgreSQL. Без внедрения сторонних решений, без недостатков темпоральных хранилищ и без проблем их обкатки. Что это за расширения, в чем их преимущества и возможности, расскажет Иван Муратов (binakot) — руководитель отдела разработки в «Первой Мониторинговой Компании».

+46

sergey-sw May 25 2022 at 12:04

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

16 min

31K

Ozon Tech corporate blogMicroservices*System Analysis and Design*Search engines*High performance*

Technotext 2022

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

+56

ringova Oct 28 2022 at 09:19

Делаем документацию здорового человека в Git на примере Docs Ozon

7 min

37K

Ozon Tech corporate blogTechnical Writing*Product Management*Project management*Development Management*

Казалось бы, с документацией всё просто — пишешь, публикуешь, поддерживаешь актуальность. Например, вот у нас в Ozon есть пользовательские инструкции на docs.ozon.ru: выглядит просто как текст на сайтике, что ж необычного-то в его размещении и в целом в работе техписателей?

Если начать раскапывать, всплывёт ещё несколько вопросов:

• где хранить тексты и почему Confluence не подходит?

• как красиво оформить документацию с помощью статических генераторов сайтов

• зачем техписателям знать git и CI/CD?

• в какой момент пора искать разработчиков в команду и превращать документацию в платформу?

На связи Катя — руководитель отдела технических писателей в Ozon, и сегодня расскажу о платформе Docs Ozon изнутри.

Читать

+44

InlyIT Feb 15 2023 at 12:20

20 уроков, которые я вынес из 20 лет работы программистом

Easy

9 min

118K

InlyIT corporate blogStudying in IT

Translation

Вы приступаете к чтению статьи с высокой концентрацией советов. Учиться у предшественников – хороший способ добиться успеха, но здесь мы часто забываем о важной оговорке. Практически любой совет работает только в определенном контексте, но дается обычно без каких-либо указаний на него.

«Да просто повысьте цены!» — говорит компания, которая уже двадцать лет на рынке и первые годы продавала продукт за копейки, чтобы привлечь клиентов и прийти к успеху. «Нужно всё реализовать в микросервисах», — говорит компания, которая по-быстрому сколотила монолит, набрала несколько тысяч пользователей и метнулась к микросервисам, когда начались проблемы с масштабированием.

Без понимания контекста советы теряют смысл или, хуже того, приносят вред. Если бы люди из примеров выше последовали своим собственным советам в начале пути, то, вероятно, пожалели бы этом. Этой ловушки сложно избежать. Мы представляем собой кульминацию своего опыта, но при этом смотрим на него через призму настоящего.

Читать дальше →

+150

115

Nikuson Feb 14 2023 at 09:00

Нейросети в генерации видео: Imagen video и Phenaki

Medium

5 min

28K

RUVDS.com corporate blogMachine learning*Artificial Intelligence

Мы видели уже большое количество генеративных нейросетей способных превращать текстовые запросы в изображение, но почему все забыли про видео? Разве никто не хочет примерить на себе кресло режиссёра без съёмочной группы и выхода за пределы комнаты с любимым компьютером? Google начал делать первые шаги в этой области, и сейчас мы рассмотрим их нейросети: Imagen video и Phenaki. Приготовьтесь к приключению в глубины машинного обучения, где искусственный интеллект превращает написанное слово в завораживающее зрелище.

Читать дальше →

+53

3Dvideo Feb 14 2023 at 07:00

Увеличь это! Современное увеличение разрешения в 2023

Medium

26 min

28K

Algorithms*Image processing*Machine learning*Popular scienceArtificial Intelligence

Review

Почти 4 года назад вашим покорным слугой была опубликована статья Увеличь это! Современное увеличение разрешения, которая набрала +376 хабролайков и 176 тысяч просмотров. Но прогресс на месте не стоит! Новые нейросетевые методы жгут! Их результаты прекрасны и великолепны. 1,5 года назад на хабре была неплохая статья Апскейл, который смог (+160), в которой были показаны плюсы новых алгоритмов.

Но всегда ли все прекрасно? Конечно нет!

Мой любимый пример фантастических способностей нейросетевых алгоритмов выше. В шарике отражается наша лаборатория. Бюст Зевса был взят в датасет, чтобы оценить работу нейросетей с полутенями, но результат «обработки полутеней» сильно превзошел ожидания. Во-первых, ~~мудрые~~ голубые глаза и покрасневшие губы! Во-вторых, Зевс теперь причесан! В-третьих, его борода стала короче и тоже аккуратно подстрижена! Наконец, Зевс теперь выглядит ощутимо моложе и… человечнее! О, жители Олимпа, согласитесь, это просто божественно!

Почему нам таки есть что сказать по теме? За последние годы мы создали 3 бенчмарка Video Super-Resolution под разные кейсы использования, которые на данный момент занимают первые 3 (из 14) места в соответствующем разделе на сайте paperswithcode.com.

Подобная деятельность безмерно актуальна, поскольку если 4 года назад на GitHub было меньше 200 репозиториев Super-Resolution, то сейчас их там больше 900 и разобраться в этом море исходников стало совсем непросто.

Естественно, при создании бенчмарков у нас было много чудных примеров. Более того, сейчас мы целенаправленно создаем датасет артефактов нейросетевых алгоритмов апскейла.

Кому интересно посмотреть, какие забавные косяки бывают у новых алгоритмов, а также как выглядят наилучшие результаты, которые даже меня, занимающегося темой 14+ лет, удивляют — добро пожаловать под кат!

Много прекрасных картинок Super-Resolution

+107

rozmysl Feb 12 2023 at 18:24

Кластер ElasticSearch на 1Ptb+

Hard

9 min

8.5K

DevOps*Big Data*

From sandbox

Черновик статьи был написан еще год назад, когда я работал на крупном международном проекте, но из-за разных событий прошлого года он остался неопубликованным.

На проекте в моем ведении находилось несколько on-premise кластеров в нескольких европейских датацентрах. «Мы» в этой статье — небольшая команда DataOps из 5 человек.

Было дело я читал на Хабре статью про «Кластер Elasticsearch на 200 ТБ+» и примерял написанное к нам, у нас такой кластер считался средним, самый маленький кластер под 0,1Ptb, а большой тогда был под 0,5Ptb. Потом была поставлена задача подготовить кластер к увеличению объемов входящих данных в 2-3 раза, а срок хранения в 2 раза, т. е. объем хранимых данных, если грубо экстраполировать, должен был стать в районе 2-3Ptb.

Хочу поделиться нашим опытом, может кому пригодиться.

+30

1 2 ...

13 14

16 17 ...

145 146