How to become an author

Вадим Нестеров @nucleusv

User

ProfileArticles2PostsNewsComments97

somegreed Apr 3 2013 at 11:37

HotSpot в Mikrotik, или как заработать $: Часть 2

5 min

80K

Network hardware

Общие сведения

Это вторая часть статьи, иллюстрирующие возможности использования OS Mikrotik, в качестве HotSpot точки. В первой части я рассказывал как настроить HotSpot, а так же познакомил с возможностью выдачи и покупки карт доступа. Ознакомиться с первой частью вы можете здесь.

Читать дальше →

+10

TedBeer Jan 17 2012 at 10:50

Краткий экскурс в методы 3D-печати

6 min

52K

Мои предыдущие посты по теме:
Первое мероприятие по 3D-печати в Нидерландах
Мероприятие по 3D-печати (окончание)
Новый бюджетный 3D-принтер
Чтобы ответить на часто задаваемые вопросы я опишу тут популярные технологии 3D-печати — печать расплавленным пластиком, порошком, фотополимером, лазерное спекание. Разумеется эта информация не является истиной в последней инстанции. Это картина, которая сложилась у меня на сегодня в голове из разных источников.

Читать дальше →

+101

TedBeer Jan 11 2012 at 01:35

Новый бюджетный 3D принтер

5 min

119K

Появляются всё новые 3D принтеры в семействе RepRap. Printrbot был разработан с целью сделать принтер дешевым, максимально простым в сборке, а значит доступным широким кругам. Девиз проекта — "Printrbot — твой первый 3D принтер". Забегая вперед — планируемая цена на базовую модель 549$.

Читать дальше →

+66

0xC0CAC01A Jun 11 2011 at 13:37

Профессиональная эмиграция — Часть 1 — Проблема курицы и яйца и как с ней бороться, а также развенчание мифов

4 min

59K

Здравствуйте, Хабраюзеры.

Этим постом я хотел бы начать цикл (если позволит время и будет интересно аудитории) про профессиональную эмиграцию, особенно без привязки к работодателю.

Читать дальше →

+188

NNikolay Jul 18 2014 at 03:51

Lean Big Data на 6 сервисах Google

5 min

20K

Big Data*Hadoop*Data visualization*

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.

Читать дальше →

+23

slowcountry2 Aug 28 2014 at 04:41

Повышение конверсии с помощью Big Data: 9 платформ прогнозной аналитики

5 min

23K

Increasing Conversion Rate*

Прогнозная аналитика — это технология, опирающаяся на большие массивы данных для прогнозирования будущего поведения людей с целью принятия оптимальных решений. Она задействует множество методов из статистики, интеллектуального анализа данных, учитывает как текущие данные, так и данные за прошлые периоды, на основе которых составляет прогнозы о будущих событиях. В бизнесе модели прогнозирования используют паттерны, составленные на основе данных за определенный период, чтобы оценить потенциальные риски и возможности. Модели выявляют связи среди многих факторов, чтобы сделать возможной оценку рисков или потенциала, связанного с конкретным набором условий. Итогом использования прогнозной аналитики является принятие верных (максимально эффективных для бизнеса) решений.

Как прогнозная аналитика может пригодиться e-commerce?

Читать дальше →

+13

moat Sep 21 2014 at 16:42

Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)

6 min

10K

Data Mining*Big Data*

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Хочу также обратить внимание, что я выпустил первый дайджест по теме высокой производительности и Data Enginering: Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014). Думаю, что кого-то он тоже может заинтересовать.

Читать дальше →

+25

infobox Sep 19 2014 at 10:30

Используем Docker и не волнуемся о vendor-lock

8 min

112K

Infobox corporate blog

Docker в значительной мере изменил подход к настройке серверов, поддержке и доставке приложений. Разработчики начинают задумываться о том, можно ли архитектуру их приложений разделить на более мелкие компоненты, которые будут запускаться в изолированных контейнерах, что позволит достичь большего ускорения, параллелизации исполнения и надежности. Также Docker решает важную проблему снятия облачного vendor–lock и позволяет легко мигрировать настроенные приложения между собственными серверами и облаками. Все что требуется от сервера, чтобы запустить Docker – более-менее современная ОС Linux с ядром не ниже 3.8.

В этой статье мы расскажем о том, как просто использовать Docker и какие преимущества он даст сисадмину и разработчику. Забудьте про проблемы с зависимостями, запускайте на одном сервере софт, требующий разные дистрибутивы Linux, не бойтесь «загрязнить» систему неправильными действиями. И делитесь наработками с сообществом. Docker решает множество актуальных проблем и помогает сделать IaaS гораздо более похожими на PaaS, без vendor-lock.

InfoboxCloud Docker

InfoboxCloud Docker

На облачных VPS от Infobox мы сделали готовый образ Ubuntu 14.04 с Docker. Получите бесплатную пробную версию (кнопка «Тестировать 10 дней») и начните использовать Docker прямо сейчас! Не забудьте поставить галочку «Разрешить управление ядром ОС» при создании сервера, это требуется для работы Docker. В самое ближайшее время у нас появятся и другие ОС с Docker внутри.

Под катом вы узнаете, что же в Docker настолько воодушевило автора статьи, что за пару дней он перевел свои облачные сервера, автоматизирующие части процесса разработки, в контейнеры Docker.

Читать дальше →

+42

pronskiy Sep 21 2014 at 18:11

Дайджест интересных новостей и материалов из мира PHP № 48 (7 – 21 сентября 2014)

3 min

21K

Zfort Group corporate blogWebsite development*PHP*

Предлагаем вашему вниманию очередную подборку со ссылками на новости и материалы.

Приятного чтения!

Читать дальше →

+46

moat Sep 21 2014 at 16:43

Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)

4 min

13K

High performance*Big Data*

Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.

Читать дальше →

+19

Marod Aug 29 2014 at 07:21

Система облачной телефонии 2600hz KAZOO

8 min

26K

Erlang/OTP*Development of communication systems*

Введение

Телекоммуникационный проект KAZOO молодой компании под названием 2600hz (США) уже успел собрать несколько отраслевых наград и используется многими крупными операторами связи.

Эта статья — краткий авторский обзор возможностей и архитектуры проекта от человека, посвятившего последние полтора года его изучению и применению на практике.

KAZOO — быстро развивающаяся открытая (open-source) платформа виртуальной облачной телефонии, на основе которой можно строить сервисы виртуальных АТС, виртуальные мобильные сети и другие масштабные облачные телекоммуникационные решения операторского класса.

Читать дальше →

+13

lesovsky Aug 25 2014 at 07:11

Настройка мониторинга PostgreSQL в Zabbix

8 min

94K

PostgreSQL это современная, динамично развивающаяся СУБД с очень большим набором возможностей которые позволяют решать самый широкий спектр задач. Использование PostgreSQL как правило относится к очень критичному сегменту ИТ инфраструктуры который связан с обработкой и хранением данных. Учитывая особое место СУБД в инфраструктуре и степень критичности возложенных на нее задач, возникает вопрос мониторинга и надлежащего контроля за работой СУБД. В этом плане PostgreSQL обладает широкими внутренними средствами сбора и хранения статистики. Собираемая статистика позволяет получить довольно подробную картину о том что происходит под капотом в процессе функционирования СУБД. Эта статистика хранится в специальных системных таблицах-представлениях и постоянно обновляется. Выполняя обычные SQL запросы в эти таблицы можно получать разнообразные данные о базах, таблицах, индексах и других подсистемах СУБД.
Ниже я описываю способ и средства для мониторинга PostgreSQL в системе мониторинга Zabbix. Мне нравится эта система мониторинга поскольку предоставляет широкие возможности для реализации самого кастомного мониторинга самых разных систем и процессов.

Читать дальше →

+20

YourChief Aug 15 2014 at 22:40

Дисковая балансировка в Nginx

4 min

25K

В этой статье я опишу интересное решение на базе Nginx для случая, когда дисковая система становится узким местом при раздаче контента (например, видео).

Читать дальше →

+28

AndreiYemelianov Aug 19 2014 at 08:09

Анализ сетевого трафика на сервере с помощью tshark

11 min

82K

Selectel corporate blog

Tutorial

tshark

В практике системного администрирования довольно часто приходится cталкиваться со сложными ситуациями, в которых не помогают ни инструменты сбора статистики (например, netstat), ни стандартные утилиты на основе протокола ICMP (ping, traceroute и другие). В таких случаях часто используются специализированные диагностические утилиты, дающие возможность «слушать» сетевой трафик и анализировать его на уровне единиц передачи отдельных протоколов. Они называются анализаторами трафика, а на профессиональном жаргоне — снифферами. С их помощью можно, во-первых, локализовывать сетевые проблемы и более точно их диагностировать, а во-вторых — обнаруживать паразитный трафик и выявлять в сети зловредное ПО.

Особенно полезными оказываются анализаторы трафика в случаях, когда сетевое ПО плохо документировано или использует собственные закрытые протоколы.

Читать дальше →

+58

ChizHJr Apr 22 2014 at 18:31

Учет трафика Cisco ASA с помощью NetFlow, nfdump и MySQL на FreeBSD или Linux (Часть 2)

10 min

32K

Cisco*Network technologies*

Введение

Несколько месяцев назад у меня появилось несколько устройств Cisco ASA разных моделей. После их настройки у меня встал вопрос о подсчете трафика, который будет проходить через них. Решил вести учет при помощи стандартного протокола NetFlow, который поддерживается этим оборудованием. Но вот незадача, по сей день в свободном доступе для учета трафика нет ни одного бесплатного решения, которое может нормально считать и учитывать трафик по пользователям.

Единственное, что можно было найти в Интернете, это возможность настройки оборудования таким образом, чтобы оно отправляло NetFlow пакеты на определенный хост, где эти пакеты складываются в файлы. А вот описания о том, как получить нормальную статистику по пользователям, используя эти файлы, просто не нашлось. Поэтому принял решение написать свое собственное приложение, которое может показать статистику по пользователям и вести учет трафика в компании.

Первое, с чего пришлось начать, это с изучения данной статьи — http://habrahabr.ru/post/127613/ (автору gag_fenix большущий респект). Это единственная нормальная и полная статья о том, как можно получить и учитывать трафик на сетевом оборудование Cisco ASA с использованием nfdump. В этой статье отлично описана только реализация о том, как можно настроить оборудование на передачу пакетов NetFlow на хост, а также каким образом можно использовать полученные данные для последующего анализа. Сам же анализ трафика и его учет не рассматривается в статье.

Перед тем, как читать дальше, настоятельно рекомендую хорошо изучить вышеуказанную статью, так как некоторые особенности настройки будут опускаться. В статье рассмотрим такие вопросы о том, как вести учет по NetFlow (используя MySQL на коллекторе), как посчитать VPN трафик, какой тип пакетов учитывать, как избежать «удвоения» и «дублирования» трафика, и как использовать мое приложение.

Читать дальше →

+6

azathot Jun 23 2014 at 14:44

HP Vertica, проектирование хранилища данных, больших данных

8 min

33K

UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.

Читать дальше →

+15

ascrus Aug 9 2014 at 22:50

Новая версия HP Vertica: Dragline 7.1

13 min

7.9K

8 августа 2014 года вышла новая версия HP Vertica 7.1. Команда Майкла Стоунбрейкера продолжает утверждать, что работа с большими данными сродни БАМу и продолжает новым версиям выдавать названия с строительной тематикой. Итак, Бульдозером (6 версия) по таблицам данные разровняли, сверху неструктурированными данными во Flex зону приложили (версия 7.0), пришла пора большого Экскаватора повернуть реки вспять. Встречаем версию Dragline 7.1! В этой статье я опишу, что же изменилось в новой версии.

Расширения функциональности проекций

Напомню для тех, кто в курсе и расскажу для тех, кто не знает: проекцией в Vertica называется материализация данных таблицы. Таблица в Vertica это описание структуры таблицы (столбцов), constraints и партиций. А непосредственно данные хранятся в проекциях, которые создаются на таблицы. Проекции чем-то похожи на индексы, они хранят данные по всем или не всем столбцам таблицы. Может быть более одной проекции на таблицу, проекции могут хранить отсегментированные и отсортированные данные по разным правилам. Данные во всех проекциях автоматически обновляются при обновлении записей таблицы. Фактически проекции содержат данные таблицы полностью всех колонок или частично определенных колонок. Жертвуется дисковое место серверов кластера, но значительно ускоряются выборки для разных групп запросов.

Выражения в проекциях

До новой версии в проекциях можно был указать исключительно только колонки таблицы. Это накладывало определенные ограничения на использование проекций. Например, если в запросах часто в фильтрации использовалось выражение по колонкам таблицы, поиск по этому фильтру не был максимально эффективным за счет того, что в проекции не было возможности указать сортировать хранимые данные по выражению. Сортировка же по столбцам выражения вряд ли помогла повысить производительность. Это могло вылиться в достаточно серьезную проблему. В качестве решения потребовалось бы добавить в таблицу новую колонку, в которую можно сохранять результат вычисления. Так же потребовалось изменить алгоритм загрузки в эту таблицу данных первоисточников, чтобы во время загрузки заполнять вычисляемый столбец. Так же пришлось бы перегружать всю таблицу, чтобы заполнить добавленное поле. Если в таблице десятки и сотни миллиардов записей и в нее идет постоянная загрузка, такое решение физически было бы невыполнимо.

В новой версии для проекций введена возможность указать как столбцы, так и выражения:

CREATE PROJECTION sales_proj (sale_id, sale_count,  sale_price, sale_value) AS
  SELECT sale_id, sale_count, sale_price, sale_count * sale_price
  FROM sales 
  ORDER BY sale_count * sale_price
  SEGMENTED BY HASH(sale_id) ALL NODES KSAFE 1;

Следующий запрос к созданной проекции таблицы:

SELECT *
FROM sales_proj_b0
WHERE value > 1000000
ORDER BY value;

при выполнении фактически моментально отдаст результат, используя сортировку выражения.

На такие проекции накладываются следующие ограничения:

Нельзя использовать функции, которые могут изменить результат (например функцию TO_CHAR, так как она вернет разный результат в зависимости от выставленной кодировки клиента)
Нельзя использовать служебные мета функции
Нельзя обновлять записи таблицы оператором MERGE (UPDATE и DELETE разрешены)

Проекции такого типа можно создать и перестраивать на таблицу в любой момент времени, без остановки работы с ней пользователей и загрузки данных. Таким образом, проблема включения вычисляемого столбца в сортировку для повышения производительности запросов более не актуальна.

Читать дальше →

+1

Uris Jul 21 2014 at 23:56

Биогаз из биомасс

8 min

177K

Сегодня я расскажу о том, как в течение четырех лет мы в Томске «погружались» в биогазовую тему. В прямом и переносном смысле. Что сделано и какие дальнейшие перспективы такой технологии предлагаю обсудить совместно.

Внимание! Пост содержит материалы, которые могут быть не приятны впечатлительным людям!

Текст, фото, небольшое видео в конце

+110

nucleusv Jun 16 2014 at 07:11

Мониторинг базы данных Oracle через ODBC в Zabbix

10 min

56K

Configuring Linux*Server Administration*System administration*

В статье будет рассмотрена возможность мониторинга база данных по средствам встроенной в Zabbix поддержке ODBC, c использованием автообнаружения объектов.

Подробности

+9

Khivrin May 23 2014 at 06:10

HHVM (hip-hop): Сравнительное тестирование и настройка

7 min

6.8K

ALTWeb Group corporate blog

Tutorial

Сегодня мы делимся результатами тестирования php скрипта с и без HHVM на скорость, а также сразу смотрим, как это внедряется, например на Fedora 20. Хотя об этом уже писали здесь, а здесь даже проводили нечто подобное, для верности напомним: HHVM PHP (hip-hop) — это открытая виртуальная машина спроектированная для выполнения программ написанных на PHP и HACK. Использует JIT компиляцию и была разработана в Facebook.

Читать дальше →

+6

6