Pull to refresh
0
0
Send message

Пара шаблонов кастомизированных элементов Handlebars для Apache Superset — 2

Level of difficultyMedium
Reading time9 min
Views2.9K

Причины написания статьи, общие правила использования handlebars в superset и советы содержатся в первой статье, поэтому сразу опишу следующие шаблоны.

Читать далее

Данные на льду: как Apache Iceberg перевернул мир аналитических систем

Reading time11 min
Views11K


Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.
Читать дальше →

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

Level of difficultyMedium
Reading time6 min
Views192K

Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.

В настоящее время DeepSeek можно использовать бесплатно, что является отличной новостью для пользователей, но вызывает некоторые вопросы. Как при таком резком росте числа пользователей они справляются с затратами на сервера?

Ведь эксплуатационные расходы на оборудование не могут быть дешевыми, верно?

Единственный логичный ответ здесь - данные. Данные - это жизненная сила ИИ-моделей. Вероятно, они собирают данные о пользователях, чтобы использовать их в своей модели квантовой торговли или для другой формы монетизации.

Поэтому, если вы беспокоитесь о конфиденциальности данных, но при этом хотите использовать R1, не предоставляя свои данные, лучший способ - запустить модель локально.

Читать далее

Как развернуть Apache Superset в облаке: Docker, ВМ, Kubernetes

Reading time9 min
Views11K


В последнее время многие российские компании столкнулись с задачей по выстраиванию системы бизнес-аналитики на новом технологическом стеке. В качестве замены Tableau, Power BI и Qlik одни рассматривают BI-решения российских вендоров — с лицензионной поддержкой, постоянными обновлениями версий и возможностью влиять на roadmap. Другие — Open-Source-инструменты: они бесплатны, однако их придётся развертывать, настраивать и администрировать своими силами. Один из таких инструментов — Apache Superset.  

Мы расскажем о способах развёртывания Apache Superset на разных платформах (Docker, ВМ, Kubernetes), а также дадим подробные инструкции на примере облака VK Cloud.
Читать дальше →

Памятка по BPMN и BPMN-диаграммам

Level of difficultyEasy
Reading time7 min
Views63K

Я написал эту статью для себя, но подумал, что она будет полезна и начинающим айтишникам, и тем, кому необходимо освежить знания или быстро вспомнить основные вещи, не открывая полное руководство.

Ещё раз подчеркну, статья задумывалась как базовая памятка и помощь для начинающих, а никак не исчерпывающая документация. Многое я опускаю ввиду избыточности или неактульности, по крайней мере в моей работе.

Читать далее

HP Vertica, проектирование хранилища данных, больших данных

Reading time8 min
Views33K
UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.
Читать дальше →

Новые возможности .NET 9: новые типы и семантика блокировок в C# 13

Level of difficultyEasy
Reading time3 min
Views9.4K

В ноябре 2024 года с выходом .NET 9 и обновлением C# до версии 13 мы получили интересные нововведения, которые касаются типов данных и семантики блокировок. Каждый крупный релиз .NET сопровождается новыми инструментами, которые улучшают производительность, безопасность и удобство разработки. В C# 13 такой новинкой стал System.Threading.Lock. Это попытка сделать многопоточность чуть менее токсичной и чуть более предсказуемой.

Читать далее

Делаем свой docker-образ Apache Kafka 4.0

Level of difficultyMedium
Reading time7 min
Views5.5K

В 2024 году мы не дождались выхода в свет Apache Kafka 4.0, в которой окончательно исчезнет поддержка ZooKeeper, оставив нам для создания кластеров только KRaft. Кто-то давно уже перешёл на эту прекрасную технологию, другие же размышляют, как им жить дальше — оставаться на линейке 3.х или в омут с головой.

Новогодние каникулы самое подходящее время для того, чтобы пощупать новую версию. Хотя код невозбранно доступен в Github проекта Apache Kafka, docker-образов текущих сборок 4.0 мне найти не удалось. Также поддержку 4.0 ещё не добавили в довольно популярный, и с недавних пор мною любимый, k8s-оператор strimzi. Ну что же, придётся устроить себе праздник самому!

Читать далее

Что нового в Apache Kafka 4.0?

Level of difficultyEasy
Reading time5 min
Views3.2K

Не за горами выход релиза 4.0 Apache Kafka. Согласно графику релиза, 15 января состоится code freeze, а через пару недель или позже, после стабилизации, версия 4.0 увидит свет. Самое время присмотреться, что же в неё вошло.

Читать далее

Зачем в iPhone чип, который убивает FaceID

Level of difficultyMedium
Reading time9 min
Views62K

Разбирался я в низкоуровневой работе камер iPhone, и дошёл до FaceID — системы распознавания лиц, используемой Apple для разблокировки смартфона. И наткнулся внутри на интересную вещь: чип, единственное предназначение которого в том, чтобы вывести из строя FaceID. Навсегда.

О том, как в iPhone вообще работает FaceID, где там этот чип стоит, что именно он делает, зачем его сделали таким злым, и как в ремонте справляются с этой напастью — под катом!

Читать далее

Бизнес-визуализации или графики, которые недооценивают. Часть I

Level of difficultyMedium
Reading time5 min
Views6.4K

Расскажу я вам о способах визуализации данных, которые помогают бизнесу быстро оценивать информацию и принимать обоснованные решения. Постараюсь объяснить теоретические аспекты и продемонстрировать на практическом примере. Донести плюсы и минусы этих визуализаций.

Читать далее

Платформа данных в хранилище Магнит OMNI

Level of difficultyMedium
Reading time7 min
Views1.8K

Всем привет! Меня зовут Михаил, я руковожу разработкой хранилища данных «Магнит OMNI». Хочу рассказать, как мы решали проблемы его создания: разделение ресурсов хранилища между несколькими большими равнозначными заказчиками; переиспользование кода для оптимизации рутинных задач; развитие платформы DWH в условиях активно растущего бизнеса; навигация в сотнях витрин и соблюдение единообразия расчёта метрик.

Читать далее

От арктических морозов до тропической жары: как в СССР автомобили ЗИЛ испытывали

Reading time4 min
Views5.4K

Советский Союз славился инженерными достижениями во всем мире, а завод имени Лихачева (ЗИЛ) был в числе тех, кто двигал автомобильную промышленность вперед. Об одном из достижений, высотном складе, мы уже писали. Сегодня расскажем о втором — стационарном комплексе аэроклиматических испытаний.

Чтобы моделировать любые погодные условия для тестирования автомобилей, в 1983 году построили специальный комплекс. В течение многих лет он верой и правдой служил своим создателям. Сегодня его уже нет, как и самого предприятия. Но кое-какая информация сохранилась, плюс есть фотографии, сделанные современными «сталкерами». Все это — дальше.

Читать далее

Java Digest #19

Level of difficultyEasy
Reading time12 min
Views3.8K

Всем привет! 👋 👋 👋 👋 Мы — Java-разработчики Т-Банка: Андрей, Арсений, Константин и Константин. Собираем интересные новости, статьи, туториалы и другие материалы из мира Java-разработки и делимся этим со всем сообществом.

В этом выпуске мы пройдемся по JEP, которые попадут в Java 24. Взглянем на новые релизы: IntelliJ IDEA 2024.3, Spring Framework 6.2 и Spring Boot 3.4, а еще Armeria 1.31.0 и Kora 1.1.16. Посмотрим новый алгоритм сбора мусора Mark-Scavenge. Узнаем больше о точках отказа в хайлоад-системах и LLVM. А еще разберемся, как ускоряли time-to-code в IntelliJ IDEA, какие тонкости есть в Hibernate и во многом другом 🙂  

Читать девятнадцатый выпуск

Мутации в микросервисах: применяем Temporal

Level of difficultyMedium
Reading time10 min
Views21K

Всем привет!
В прошлой статье была поставлена задача о надёжных мутациях и транзакциях в архитектуре Профи, в этой статье разберём один из вариантов решения — применить workflow-engine Temporal.

Читать далее

Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса

Reading time27 min
Views35K
Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы в Яндекс Go пришли к неожиданному ответу: выбирать надо не между подходами, а лучшее из двух подходов.

Темы доклада, который вместе со мной прочитал Николай Гребенщиков:
— DV и AM: в чем разница и где точки соприкосновения
— Гибридный подход к построению хранилища
— Сильные и слабые стороны этого подхода
— Примеры кода
— Дальнейший вектор развития hNhM

— Меня зовут Евгений Ермаков, я руководитель Data Warehouse в Яндекс Go.
Читать дальше →

Битва медведей: Pandas против Polars

Reading time8 min
Views11K

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух  гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.

Читать далее

Быстрее пули: как найти счастье с PostgreSQL

Level of difficultyEasy
Reading time24 min
Views12K

В этой статье мы расскажем о том, как эффективно реализовать полнотекстовый поиск с помощью PostgreSQL. Узнайте, как улучшить скорость и точность поиска по текстовым данным, используя такие инструменты, как tsvector, tsquery и индексы GIN, и как эти возможности могут значительно повысить производительность вашего приложения.

Читать далее

Zabbix vs Prometheus. Что выбрать для гетерогенной инфраструктуры?

Level of difficultyEasy
Reading time15 min
Views15K

Разберемся в преимуществах и недостатках каждой системы, а также настроим мониторинг гетерогенной Linux-Windows инфраструктуры средствами централизованного управления.

Давайте разбираться

В закладки: 23+ полезные ссылки для 1С-разработчика

Level of difficultyEasy
Reading time3 min
Views20K

Хабр, привет! Меня зовут Андрей Толмачёв, я 1С-разработчик, консультант, архитектор и руководитель проектов 1С, а ещё автор курсов по разработке 1С в Яндекс Практикуме.

Без лишних слов — делюсь полезными ссылками на видео, чаты, каналы и форумы, которые помогут начинающим и опытным 1С-разработчикам найти ответы на вопросы и почувствовать себя частью комьюнити.

Читать далее
1
23 ...

Information

Rating
Does not participate
Registered
Activity