Articles / Bookmarks / Profile of Techniker753 / Habr

@Techniker753

User

Profile Articles Posts News Comments 15

oneSmilla Oct 27 2024 at 12:05

Пара шаблонов кастомизированных элементов Handlebars для Apache Superset — 2

Medium

9 min

2.9K

Data visualization*CSS*HTML*Apache*

Case

Причины написания статьи, общие правила использования handlebars в superset и советы содержатся в первой статье, поэтому сразу опишу следующие шаблоны.

techno_mot Feb 15 at 15:11

Данные на льду: как Apache Iceberg перевернул мир аналитических систем

11 min

11K

Selectel corporate blogApache*IT-companiesCloud computing*Data storage*

Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.

Читать дальше →

+37

NeyroEntuziast Jan 24 at 12:54

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

Medium

6 min

192K

Artificial IntelligenceThe future is here

Tutorial

Translation

Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.

В настоящее время DeepSeek можно использовать бесплатно, что является отличной новостью для пользователей, но вызывает некоторые вопросы. Как при таком резком росте числа пользователей они справляются с затратами на сервера?

Ведь эксплуатационные расходы на оборудование не могут быть дешевыми, верно?

Единственный логичный ответ здесь - данные. Данные - это жизненная сила ИИ-моделей. Вероятно, они собирают данные о пользователях, чтобы использовать их в своей модели квантовой торговли или для другой формы монетизации.

Поэтому, если вы беспокоитесь о конфиденциальности данных, но при этом хотите использовать R1, не предоставляя свои данные, лучший способ - запустить модель локально.

+139

164

AlexeyBest Dec 23 2022 at 12:44

Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

9 min

11K

VK corporate blogBig Data*Machine learning*

В последнее время многие российские компании столкнулись с задачей по выстраиванию системы бизнес-аналитики на новом технологическом стеке. В качестве замены Tableau, Power BI и Qlik одни рассматривают BI-решения российских вендоров — с лицензионной поддержкой, постоянными обновлениями версий и возможностью влиять на roadmap. Другие — Open-Source-инструменты: они бесплатны, однако их придётся развертывать, настраивать и администрировать своими силами. Один из таких инструментов — Apache Superset.

Мы расскажем о способах развёртывания Apache Superset на разных платформах (Docker, ВМ, Kubernetes), а также дадим подробные инструкции на примере облака VK Cloud.

Читать дальше →

+37

default_itshnik Aug 14 2024 at 19:01

Памятка по BPMN и BPMN-диаграммам

Easy

7 min

63K

Сбер corporate blogSystem Analysis and Design*

Tutorial

Я написал эту статью для себя, но подумал, что она будет полезна и начинающим айтишникам, и тем, кому необходимо освежить знания или быстро вспомнить основные вещи, не открывая полное руководство.

Ещё раз подчеркну, статья задумывалась как базовая памятка и помощь для начинающих, а никак не исчерпывающая документация. Многое я опускаю ввиду избыточности или неактульности, по крайней мере в моей работе.

+60

azathot Jun 23 2014 at 18:44

HP Vertica, проектирование хранилища данных, больших данных

8 min

33K

SQL*Big Data*

UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.

Читать дальше →

+15

AlexeyRybakov Jan 24 at 14:50

Новые возможности .NET 9: новые типы и семантика блокировок в C# 13

Easy

3 min

9.4K

.NET*C#*

Review

В ноябре 2024 года с выходом .NET 9 и обновлением C# до версии 13 мы получили интересные нововведения, которые касаются типов данных и семантики блокировок. Каждый крупный релиз .NET сопровождается новыми инструментами, которые улучшают производительность, безопасность и удобство разработки. В C# 13 такой новинкой стал System.Threading.Lock. Это попытка сделать многопоточность чуть менее токсичной и чуть более предсказуемой.

-12

kmorozov Jan 1 at 11:20

Делаем свой docker-образ Apache Kafka 4.0

Medium

7 min

5.5K

Apache*Kubernetes*Java*High performance*

Tutorial

В 2024 году мы не дождались выхода в свет Apache Kafka 4.0, в которой окончательно исчезнет поддержка ZooKeeper, оставив нам для создания кластеров только KRaft. Кто-то давно уже перешёл на эту прекрасную технологию, другие же размышляют, как им жить дальше — оставаться на линейке 3.х или в омут с головой.

Новогодние каникулы самое подходящее время для того, чтобы пощупать новую версию. Хотя код невозбранно доступен в Github проекта Apache Kafka, docker-образов текущих сборок 4.0 мне найти не удалось. Также поддержку 4.0 ещё не добавили в довольно популярный, и с недавних пор мною любимый, k8s-оператор strimzi. Ну что же, придётся устроить себе праздник самому!

kmorozov Jan 4 at 12:19

Что нового в Apache Kafka 4.0?

Easy

5 min

3.2K

Big Data*Java*High performance*

Review

Не за горами выход релиза 4.0 Apache Kafka. Согласно графику релиза, 15 января состоится code freeze, а через пару недель или позже, после стабилизации, версия 4.0 увидит свет. Самое время присмотреться, что же в неё вошло.

+19

acc0unt Sep 8 2024 at 17:16

Зачем в iPhone чип, который убивает FaceID

Medium

9 min

62K

Debugging*Reverse engineering*Manufacture and development of electronics*

From sandbox

Recovery Mode

Разбирался я в низкоуровневой работе камер iPhone, и дошёл до FaceID — системы распознавания лиц, используемой Apple для разблокировки смартфона. И наткнулся внутри на интересную вещь: чип, единственное предназначение которого в том, чтобы вывести из строя FaceID. Навсегда.

О том, как в iPhone вообще работает FaceID, где там этот чип стоит, что именно он делает, зачем его сделали таким злым, и как в ремонте справляются с этой напастью — под катом!

+757

178

VitTurov Dec 6 2024 at 10:16

Бизнес-визуализации или графики, которые недооценивают. Часть I

Medium

5 min

6.4K

DesignProduct Management*Data visualization*

From sandbox

Расскажу я вам о способах визуализации данных, которые помогают бизнесу быстро оценивать информацию и принимать обоснованные решения. Постараюсь объяснить теоретические аспекты и продемонстрировать на практическом примере. Донести плюсы и минусы этих визуализаций.

Magnit_tech Dec 6 2024 at 13:50

Платформа данных в хранилище Магнит OMNI

Medium

7 min

1.8K

Magnit Tech corporate blogData storages*Data storage*Data Engineering*

Case

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

k0mar0v Dec 6 2024 at 15:00

От арктических морозов до тропической жары: как в СССР автомобили ЗИЛ испытывали

4 min

5.4K

МТС corporate blogTransportHistory of IT

Советский Союз славился инженерными достижениями во всем мире, а завод имени Лихачева (ЗИЛ) был в числе тех, кто двигал автомобильную промышленность вперед. Об одном из достижений, высотном складе, мы уже писали. Сегодня расскажем о втором — стационарном комплексе аэроклиматических испытаний.

Чтобы моделировать любые погодные условия для тестирования автомобилей, в 1983 году построили специальный комплекс. В течение многих лет он верой и правдой служил своим создателям. Сегодня его уже нет, как и самого предприятия. Но кое-какая информация сохранилась, плюс есть фотографии, сделанные современными «сталкерами». Все это — дальше.

+35

maximovkl Dec 6 2024 at 17:37

Java Digest #19

Easy

12 min

3.8K

Т-Банк corporate blogProgramming*Java*

Digest

Всем привет! 👋 👋 👋 👋 Мы — Java-разработчики Т-Банка: Андрей, Арсений, Константин и Константин. Собираем интересные новости, статьи, туториалы и другие материалы из мира Java-разработки и делимся этим со всем сообществом.

В этом выпуске мы пройдемся по JEP, которые попадут в Java 24. Взглянем на новые релизы: IntelliJ IDEA 2024.3, Spring Framework 6.2 и Spring Boot 3.4, а еще Armeria 1.31.0 и Kora 1.1.16. Посмотрим новый алгоритм сбора мусора Mark-Scavenge. Узнаем больше о точках отказа в хайлоад-системах и LLVM. А еще разберемся, как ускоряли time-to-code в IntelliJ IDEA, какие тонкости есть в Hibernate и во многом другом 🙂

Читать девятнадцатый выпуск

+17

em1nx Nov 6 2023 at 13:01

Мутации в микросервисах: применяем Temporal

Medium

10 min

21K

Microservices*Distributed systems*

Case

Всем привет!
В прошлой статье была поставлена задача о надёжных мутациях и транзакциях в архитектуре Профи, в этой статье разберём один из вариантов решения — применить workflow-engine Temporal.

+13

iJKos May 26 2021 at 11:47

Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса

27 min

35K

Яндекс corporate blogDatabase Administration*Data storage*Data storages*

Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы в Яндекс Go пришли к неожиданному ответу: выбирать надо не между подходами, а лучшее из двух подходов.

Темы доклада, который вместе со мной прочитал Николай Гребенщиков:
— DV и AM: в чем разница и где точки соприкосновения
— Гибридный подход к построению хранилища
— Сильные и слабые стороны этого подхода
— Примеры кода
— Дальнейший вектор развития hNhM

— Меня зовут Евгений Ермаков, я руководитель Data Warehouse в Яндекс Go.

Читать дальше →

+25

GregTMJ May 31 2023 at 16:26

Битва медведей: Pandas против Polars

8 min

11K

Spectr corporate blogPython*Big Data*Machine learning*Artificial Intelligence

Review

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.

+13

vQFd4 Oct 24 2024 at 13:54

Быстрее пули: как найти счастье с PostgreSQL

Easy

24 min

12K

Ростелеком corporate blogSearch engines*PostgreSQL*Java*Website development*

Tutorial

Recovery Mode

В этой статье мы расскажем о том, как эффективно реализовать полнотекстовый поиск с помощью PostgreSQL. Узнайте, как улучшить скорость и точность поиска по текстовым данным, используя такие инструменты, как tsvector, tsquery и индексы GIN, и как эти возможности могут значительно повысить производительность вашего приложения.

+40

andrey_chuyan Oct 24 2024 at 18:08

Zabbix vs Prometheus. Что выбрать для гетерогенной инфраструктуры?

Easy

15 min

15K

DevOps*Network technologies*Configuring Linux*

Tutorial

Разберемся в преимуществах и недостатках каждой системы, а также настроим мониторинг гетерогенной Linux-Windows инфраструктуры средствами централизованного управления.

Давайте разбираться

+14

aetolmachev Aug 30 2024 at 09:07

В закладки: 23+ полезные ссылки для 1С-разработчика

Easy

3 min

20K

Яндекс Практикум corporate blogProgramming*Studying in ITIT career1C*

Digest

Хабр, привет! Меня зовут Андрей Толмачёв, я 1С-разработчик, консультант, архитектор и руководитель проектов 1С, а ещё автор курсов по разработке 1С в Яндекс Практикуме.

Без лишних слов — делюсь полезными ссылками на видео, чаты, каналы и форумы, которые помогут начинающим и опытным 1С-разработчикам найти ответы на вопросы и почувствовать себя частью комьюнити.

+11

2 3 ...

636 637