Pull to refresh
42
0
Send message

Книга: «Data mesh в действии»

Reading time17 min
Views2.3K
image Привет, Хаброжители!

Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.

Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.

Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать дальше →
Total votes 7: ↑5 and ↓2+9
Comments0

Как мы строили систему грейдов разработчиков

Level of difficultyMedium
Reading time10 min
Views13K

Как понять, насколько правильно ты оценен, насколько верно оценены люди в твоей команде, соответствует ли оценка приносимой пользе и багажу их знаний и навыков? Стоит ли платить больше за знания, которые в данный момент не применяются и могут никогда не задействоваться? Как правильно оценить опыт? Как не обидеть коллег оценками и сподвигнуть их к саморазвитию, а не переходу в другую компанию? И как не раздуть ФОТ до бесконечности, когда люди открывают охоту за грейдами?

Все это сложные вопросы и очень многогранные. Пять лет мы аккуратно пытались подобрать ключик к этой проблеме. Пробовали подойти с разных сторон, анализировали результаты и тюнили программу. Кому интересно взглянуть на наш путь, позаимствовать немного хороших идей и узнать, чем закончились те или иные шаги, — добро пожаловать под кат.

Читать далее
Total votes 26: ↑22 and ↓4+22
Comments31

Цикл статей о Greenplum. Часть 1. GP под капотом

Level of difficultyMedium
Reading time6 min
Views5.7K

Всем привет!

Как вы знаете, многие поставщики ПО ушли с российского рынка ввиду введённых санкций и многие компании столкнулись с необходимость заняться импортозамещением в кратчайшие сроки. Не стал исключением и наш заказчик. Целевой системой, на которое было принято решение мигрировать старое хранилище, стал Greenplum (далее GP) от компании Arenadata.

Этой статьей мы запускаем цикл материалов посвященных Greenplum. В рамках цикла мы разберем, как вообще устроен GP и как выглядит его архитектура. Постараемся выделить must have практики при работе с данным продуктом, а также обсудим, как можно спроектировать хранилище на GP, осуществлять мониторинг эффективности работы и многое другое. Данный цикл статей будет полезен как разработчикам БД, так и аналитикам.

Читать далее
Total votes 19: ↑18 and ↓1+21
Comments2

Как Uber обслуживает более 40 миллионов чтений в секунду из онлайн-хранилища с помощью встроенного кэша

Level of difficultyMedium
Reading time15 min
Views8.1K

Привет, Хабр! Представляю вам перевод статьи "How Uber Serves Over 40 Million Reads Per Second from Online Storage Using an Integrated Cache" автора Preetham Narayanareddy. Из неё вы узнаете, как в Uber проектировалась система кэширования на основе Redis, с какими сложностями и тонкостями пришлось столкнуться разработчикам, и как в итоге им удалось создать действительно высокопроизводительное решение.

Читать далее
Total votes 5: ↑4 and ↓1+7
Comments6

Как мы ускорили деплой облачной платформы в 20 раз и избавились от панических атак

Level of difficultyMedium
Reading time12 min
Views4.7K

Привет, Хабр! С вами снова Антон, все еще DevOps-инженер в Selectel. И да, в этот раз ни слова про шеринг GPU, не пугайтесь. :)

Недавно на DevOps Conf я рассказал, как мы в отделе DataML-продуктов используем GitLab и Terraform, чтобы деплоить облачную платформу за 24 минуты вместо восьми часов, избавиться от костылей на серверах и получать больше удовольствия от работы. Вот ссылка на сам доклад. В этой статье я поделюсь этим опытом, дополню свой рассказ примерами, а для самых терпеливых оставлю ссылку на бесплатный двухнедельный тест той самой платформы.
Читать дальше →
Total votes 41: ↑41 and ↓0+43
Comments5

Как идеи российских предпринимателей меняют агробизнес: список перспективных проектов молодых ученых

Level of difficultyEasy
Reading time8 min
Views2.4K

Темпы развития рынка агротехнологий в России превышают 15–20% ежегодно. В эту сферу со своими проектами приходят все больше студентов и молодых выпускников вузов, желающих совершить свой вклад в цифровизацию отечественного АПК (агропромышленного комплекса).

Сегодня расскажем вам про 11 перспективных агротех‑проектов, прошедших через Студенческий агротех‑акселератор от РСХБ и «Сколково» и представленных на демо‑дне акселератора.

Читать далее
Total votes 11: ↑8 and ↓3+8
Comments11

Cloudflare открыла код Rust-фреймворка для программируемых сетевых сервисов — Pingora

Level of difficultyEasy
Reading time6 min
Views5.4K



Мы гордимся тем, что открываем исходный код Pingora — фреймворка на Rust, который мы используем для создания сервисов, обеспечивающих значительную часть трафика в Cloudflare. Pingora выпускается под лицензией Apache 2.0.

Читать дальше →
Total votes 18: ↑18 and ↓0+18
Comments2

Факир математики: Золотое сечение

Reading time8 min
Views9.2K

Привет, хабр! На дворе 2023 год. Теперь более чем когда‑либо всё в нашем мире основано на числах. Некоторые из них, как вы уже знаете, имеют собственные имена. Число π (пи), число e. Математика везде. Карма и рейтинги в хабре, количество ваших денег, сегодняшняя дата (22.11.2023). Даже есть вид эзотерики, веры — нумерология, вера в том, что числа связаны с судьбой. И ведь все это появилось не на пустом месте.

Мы, будто факиры заклинают своих змей, будем познавать математический мир. Красивый, бездонный и невероятно интересный. Добро пожаловать в серию статей «Факир математики», и тема первой нашей статьи — золотое сечение!

Среди всех замечательных и не очень чисел, цифр есть одно особенно интересное число...

Узнать про золотое сечение
Total votes 8: ↑6 and ↓2+7
Comments20

Слово Божие — функциональное программирование как основа Вселенной

Level of difficultyMedium
Reading time15 min
Views39K

В одном из своих предыдущих постов под названием "Эйлер, Чёрч и Мандельброт — этюд о красоте и математике" я немного затронул тему рассмотрения функционального программирования в качестве основы реальности. Под тем постом было оставлено множество интересных комментариев, один из которых, написанный @nickolaym, вдохновил меня на развитие мысли в данном направлении. Так появился этот пост, в котором прямо как во времена пифагорейской школы и платоновской академии философия переплелась с математикой, а математика с философией.

Читать далее
Total votes 58: ↑48 and ↓10+44
Comments103

Приходите к нам на завод, у нас тяжело

Reading time10 min
Views139K
Короче, ИТ на заводе — это вам не романтика, особенно в нашем цифровом направлении.

Между «давайте этим займёмся» и «о, смотрите, какая гламурная ML-модель» лежит очень много того, про что не рассказывают. Сейчас расскажу.

Вначале у нас была банда энтузиастов из разных подразделений: несколько человек из ИТ, АСУТП, технологи со знанием статистики — чтобы смотреть с разных углов и видеть всё в целом, насколько это возможно. Начали с оценки перспектив. Они были необъятные — наше производство размером с небольшой город. Стали формироваться подразделения и направления: кто-то пошёл собирать роботов, кто-то в видеоаналитику, кто-то в лайтовый анализ данных, кто-то в самый хардкор — в дата-сатанизм. Работы у нас всегда больше, чем рук.

И на каждой из этих дорожек нас поджидали свои чудеса и сюрпризы.

Вот, к примеру, видеоаналитика:

  • Мы поняли, что ML в 50% задач не нужны. Нужна, например, камера, которая по цвету определяет, где есть железка, и смотрит её геометрию в реальности. Всё. Или другая камера, которая следит, чтобы в нужной зоне ничего не шевелилось.
  • Всё это прекрасно до первого солнечного зайчика. ML отлично показывают себя там, где вам лень строить крышу или ставить прожектор над конвейером.
  • У нас была идея, что мы можем сами в нейросети. Чуть не написали свой сервис для распознавания номеров вагонов. Казалось, делов-то на 20 минут, а у подрядчика это стоит 25 копеек за фото. Сделали свой, сферические вагоны в вакууме он определял хорошо. Потом приехало вот это:

image

А потом внезапно пошёл дождь. Знаете что? Вагоны под дождём становятся мокрыми. Это было неожиданно. Ещё они бывают после снега, битые, немытые, обновлённые криворукими малярами и ПРОЧИЕ. И в солнечных зайчиках тоже.

Мы накалывались на получении данных (кто сказал, что прошивка станка без костылей?), на роботизации, инфраструктуре, связи, на всём. Мы облазили весь завод, испачкались в солидоле, мазуте и масле. Но стали делать то, что должны, — оптимизировать мир.
Читать дальше →
Total votes 228: ↑224 and ↓4+268
Comments278

Простое CPU ядро на ПЛИС

Level of difficultyEasy
Reading time5 min
Views15K

Простое, нестандартное процессорное ядро с открытым кодом, которое может быть использовано для создания микроконтроллера в базисе ПЛИС, в том числе ПЛИС - ОП.

Читать далее
Total votes 58: ↑58 and ↓0+58
Comments20

Как оценить реальную производительность своего кода

Reading time9 min
Views14K

Код, который мы пишем, и который будет исполнен процессором, — две разные вещи. На уровне ассемблера существует миллион вариантов, в каком виде интерпретировать и запустить высокоуровневые команды. Более того, современные компиляторы сильно оптимизируют код, а результат этой оптимизации похож на магию.
Читать дальше →
Total votes 52: ↑49 and ↓3+62
Comments3

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Level of difficultyMedium
Reading time9 min
Views3.9K

Привет, Habr !

Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).

Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.

Видеозапись по мотивам статьи можно посмотреть здесь.

Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Настраиваем двухступенчатый WireGuard для выхода из страны

Level of difficultyMedium
Reading time4 min
Views47K

У Wireguard есть немало прекрасного, включая его простоту реализации, скорость и минималистичные клиенты, которые не вызывают проблем у пользователей.

В начале августа некоторые интернет операторы и провайдеры начали блокировку протокола WireGuard в РФ по его рукопожатию.

Лично испытывал блокировку у Мегафон и Теле2, но не заметил у Ростелеком. VPN по-прежнему работал через последнего.

Очень не хотелось отказываться от Wireguard в пользу прокси-серверов в духе VLESS+TLS-Vision, в виду того, что все наши пользователи уже сильно привыкли именно к Wireguard.
Поэтому вариант с кардинальной сменой клиентского софта не рассматривался.

Поскольку трафик Wireguard блокируется только на зарубежные адреса было принято решение добавить еще один хоп в систему, а начальное подключение осуществлять к серверу в РФ.

Читать далее
Total votes 52: ↑52 and ↓0+52
Comments50

Apache Flink ML – прогнозирование в реальном времени

Level of difficultyMedium
Reading time7 min
Views2.2K

Всем привет!

В этой статье рассмотрим применение библиотеки Apache Flink ML для построения конвейеров машинного обучения. Затем реализуем простой проект по прогнозированию поведения системы, а также ответим на вопросы: какие задачи Machine Learning подходят для Flink и какие особенности Flink делают его подходящим для использования в задачах Machine Learning.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Семантические базы данных: RDF, SPARQL и Linked Data

Reading time8 min
Views3.7K

Семантические базы данных представляют собой специально организованные хранилища данных, где информация не только описывает факты, но и содержит семантические связи между ними. В отличие от традиционных баз данных, которые ограничиваются хранением и извлечением данных, семантические базы данных исследуют глубинные связи и значения, лежащие в основе этих данных.

Основными строительными блоками семантических баз данных являются RDF (Resource Description Framework) – формальный язык для описания ресурсов и их отношений, SPARQL – язык запросов к RDF данным, и Linked Data – концепция объединения данных разных источников через общие семантические структуры.

Следует отметить, что применение семантических баз данных также имеет свои сложности и вызовы, связанные с проектированием семантических моделей, производительностью и масштабируемостью. Однако, в совокупности, их потенциал и перспективы предоставления более глубокого понимания данных и разнообразных приложений делают их одной из наиболее захватывающих технологических областей нашего времени.

Читать далее
Total votes 11: ↑9 and ↓2+10
Comments1

Независимая оценка ГИПов: катастрофа или новая надежда?

Reading time5 min
Views2.6K

С 1 сентября 2022 г. вступили в силу изменения в Градостроительный кодекс, согласно которым главным инженерам проекта, являющимся членами Национального объединения изыскателей и проектировщиков (НОПРИЗ), необходимо подтверждать уровень квалификации через прохождение независимой оценки.

Процедура прохождения независимой оценки состоит из двух частей: теоретической и практической. При этом теоретическая часть представляет собой тестирование. Практическая часть — подготовка и защита портфолио. Специалисту необходимо рассказать о себе, своем опыте, образовании и стаже, месте работы и основных объектах, которые прошли экспертизу.

На первый взгляд ничего криминального. И цель нововведения заявлена правильная — упорядочить систему подтверждения компетенций ГИПов.

Но если копнуть поглубже, то вот что мы увидим…

Все ГИПы итак были обязаны раз в 5 лет проходить курсы повышения квалификации, получать подтверждающие удостоверения — это абсолютная норма и это не новшество. Так всегда и было. Эти документы передавались в соответствующие СРО, в которых состоит организация. А СРО, в свою очередь, взаимодействовали с НОПРИЗ. Вся эта система работала достаточно понятно и прозрачно. И для ГИПов, и для работодателей это была адекватная и по сути, и по стоимости процедура. В рамках прохождения повышения квалификации темы обучения, так или иначе, всегда были сфокусированы на проектировании и можно было выбрать наиболее практико‑ориентированное обучение.

Сейчас рядом с этой системой соорудили еще одну — для того чтобы иметь возможность работать ГИПом, теперь (плюсом ко всему, что было) нужно прийти в специальный аккредитованный центр (ЦОК), пройти тест из 50 вопросов (которые попадутся из общего пула в 500 вопросов) и ответить правильно всего на 36!

Читать далее
Total votes 3: ↑1 and ↓2+1
Comments5

«Магия вне Хогвартса», или Как разделить аудиосигнал на источники, обогнав существующие решения

Reading time8 min
Views6.4K

Привет, хабровчане! Меня зовут Дмитрий, я студент первого курса Вышки магистерской программы «Системный анализ и математические технологии».

В октябре прошлого года я прошёл отбор в Инженерно-математическую школу (ИМШ). Это совместная образовательная программа VK Education и НИУ ВШЭ. Я стал участником мастерской по прикладному искусственному интеллекту. В одном из проектов мы командой из двух человек (да, нас было мало, но мы были сильны!) решили реальную технологическую задачу под руководством эксперта VK и научных сотрудников университета. Нам нужно было придумать технологию разделения аудиосигнала на источники. В команде я отвечал за подготовку данных, а мой коллега — за проведение экспериментов. Хочу рассказать вам подробно, как мы решали эту задачу – надеюсь, что это будет для вас полезно.

Читать далее
Total votes 18: ↑17 and ↓1+24
Comments16

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Reading time6 min
Views6.9K

Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:

1. Какой способ выбрать для деплоя модели в production?

2. Как затащить составной ML-пайплайн в real-time сервис?

3. Каким способом тестировать новую версию модели?

Читать далее
Total votes 5: ↑4 and ↓1+4
Comments4

Механические клавиатуры

Reading time17 min
Views762K
Все мы давно ждем массового появления всевозможных кибер-перчаток и виртуальной реальности на каждом шагу, но все равно каждый день в офисе и дома нам приходится работать за такой банальной вещью, как обычная клавиатура.

А раз уж сталкиваешься с вещью регулярно, постепенно возникает вопрос — можно ли найти для работы какие-то более удобные варианты обычных клавиатур?

Итак, некоторое время назад я озаботился сбором информации о клавиатурах, и даже начал готовить информацию для статьи, но к сожалению (к счастью?) нашлась исчерпывающая статья о всех нюансах сразу, которую я решил перевести.

Механические клавиатуры. Путеводитель.

Читать дальше →
Total votes 323: ↑313 and ↓10+303
Comments331
1
23 ...

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity