Articles / Bookmarks / Profile of grigory

Григорий Коваль @grigory_koval

Архитектор Big Data

Profile Publications 1Comments Bookmarks 27

tsafin Oct 17 2016 at 13:37

MapReduce из подручных материалов. Часть III – собираем все вместе

11 min

4.8K

InterSystems corporate blogSQL*NoSQL*Big Data*

В первой (достаточно капитанской) части этой серии мы рассказали про базовые концепции MapReduce почему это плохо, почему это неизбежно, и как с этим жить в других средах разработки (если вы не про Си++ или Java). Во второй части мы-таки начали рассказывать про базовые классы реализации MapReduce на Caché ObjectScript, введя абстрактные интерфейсы и их первичные реализации.
Сегодня пришел наш день! – мы покажем первый пример собранный в парадигме MapReduce, да, он будет странный и не самый эффективный, и совсем не распределенный, но вполне MapReduce.

Читать дальше →

+18

OrienteerBAP Oct 17 2016 at 10:50

Свой BaaS c моделированием предметной области, скриптами и многим другим за полчаса

4 min

7.8K

Orienteer corporate blogWebsite development*Open source*Java*

Сегодня расскажем и покажем как за полчаса поднять свой Backend as a Service (BaaS) с весьма интересными возможностями.

BaaS — это веб-приложение, которое работает в облаке и предоставляет все необходимое для бизнес/мобильных приложений и сайтов (front-end). BaaS как минимум позволяет:

Управлять пользователями и ролями
Моделировать предметную область
Получать доступ к данным через REST
Управлять самими данными (база данных)

Читать дальше →

+10

1cloud Oct 17 2016 at 11:03

Как сейчас используют нейросети: от научных проектов до развлекательных сервисов

7 min

23K

1cloud.ru corporate blogProgramming*System Analysis and Design*Development for e-commerce*Machine learning*

В 1960-х годах появился новый подраздел информатики — искусственный интеллект (ИИ). Полвека спустя инженеры продолжают развивать обработку естественного языка и машинное обучение, чтобы оправдать надежды на появление сильного ИИ.

Мы в 1cloud пишем в блоге не только о себе [клиентоориентированность, безопасность], но и разбираем занимательные темы вроде ментальных моделей или систем хранения данных на основе ДНК.

Сегодня мы расскажем о том, как машинное обучение используется сейчас: почему нейронные сети популярны у физиков, как работают рекомендательные алгоритмы YouTube и поможет ли машинное обучение «перепрограммировать» наши болезни.

/ Zufzzi / Wikimedia / CC0

Читать дальше →

+18

olsender Oct 15 2015 at 13:29

Новый GUI для Postgresql

3 min

72K

PostgreSQL*

From sandbox

Хочу поделиться новым продуктом со всеми пользователями замечательной базы данных Postgresql. Встречайте — SQL Tabs — графическая SQL консоль для Postgresql. Это новый GUI клиент, в котором можно просматривать объекты базы данных, писать SQL запросы и строить графики.

На сегодняшний день можно скачать версии для OSX и Ubuntu. Пользователи других linux-дистрибутивов могут запустить приложение из исходников. К сожалению, версии для Windows пока нет. Хочется надеяться, что приложение понравится сообществу, и найдутся разработчики, способные помочь в выпуске пакетов под разные платформы: rpm, debian, windows.

Немного информации для разработчиков: SQL Tabs написано на стэке javascript, electron, react  и использует native libpq драйвер для работы с базой. Выпускается под лицензий GPL3.
 
Теперь об основных особенностях SQL Tabs, отличиях от других похожих продуктов и основной мотивации, которая стоит за разработкой.  

Читать дальше →

+32

Ivan22 Oct 26 2015 at 11:57

Немного об оптимизации запросов

3 min

40K

PostgreSQL*SQL*

From sandbox

Хочу на простом примере рассказать о том, как иногда можно сильно оптимизировать вполне простые на первый взгляд запросы. Возьмем такой код, для примера на PostgreSQL 9.3, но принцип подходит ко всем субд, в которых присутствует hash join.

Задача простая — сджойнить две таблицы — одна весьма большая, другая маленькая — но джоин не простой, а ~~золотой~~ с OR. (Как реальный кейс — джоин таблицы проводок по счетам к самим счетам, учитывая, что в проводке два поля со счетом — для дебета и кредита.)

Читать дальше →

+21

FrostNova Sep 4 2015 at 10:40

Apache Spark или возвращение блудного пользователя

10 min

12K

Targetix corporate blogWebsite development*Big Data*

Продолжаем цикл статей про DMP и технологический стек компании Targetix.

На это раз речь пойдет о применении в нашей практике Apache Spark и инструментe, позволяющем создавать ремаркетинговые аудитории.

Именно благодаря этому инструменту, однажды посмотрев лобзик, вы будете видеть его во всех уголках интернета до конца своей жизни.
Здесь мы и набили первые шишки в обращении с Apache Spark.

Архитектура и Spark-код под катом.

Читать дальше →

+11

jetinfosystems Sep 17 2015 at 14:37

История о чертовых дублях

3 min

3.2K

Инфосистемы Джет corporate blogOracle*Programming*Big Data*

Данная статья подготовлена Дмитрием Овчаренко, архитектором Департамента прикладных финансовых систем компании «Инфосистемы Джет»

Да будет унификация! Такое решение было принято при проектировании интеграционной архитектуры, связывающей CRM с другими внешними системами посредством шины на Oracle Service Bus. Помимо онлайн-интеграции на основе веб-сервисов, она принимает файлы, поступающие в систему, и вызывает веб-сервисы на стороне CRM, специально разработанные для каждого типа входящих данных.

Файл содержит множество записей, и по каждой требуется выполнить отдельный вызов сервиса на стороне CRM. Обработка файла производится в цикле по записям. На каждый вызов сервиса уходит по 5 секунд – это довольно много, но для выполнения поставленных требований вполне хватало. Процесс обработки вызова веб-сервиса в CRM предварительно проверяет запись на дубль, затем выполняет требуемую бизнес-логику и создает запись в БД.

Но «внезапности» могут возникнуть в непредвиденных моментах «шиномонтажа». На промышленных объемах данных в базе CRM стали появляться дубли. Мы выяснили, что источник может почему-то отправить большой файл повторно (сразу после того, как он будет подхвачен файловым proxy-сервисом и помещен в Stage-папку). Причем отставание между вызовами веб-сервисов, создающих дубли, настолько мало, что в момент второго вызова данные в первом еще не закоммичены, и проверка на стороне CRM не успевает срабатывать.

Читать дальше →

a-pichugin Sep 17 2015 at 19:15

Анализ логов с помощью Hadoop/Python

6 min

21K

DCA (Data-Centric Alliance) corporate blogSystem Analysis and Design*Big Data*Hadoop*

Привет, Хабр! В этом посте я хотел бы рассказать вам о том, как мы, Лаборатория новых профессий, вместе с компанией Data-centric Alliance смогли сконструировать несколько лабораторных работ, посвящённых обработке и анализу веб-логов. Эти лабораторные работы являются ключевыми в рамках первого кейса нашей образовательной программы «Специалист по большим данным» и выполняются на основе аудиторных данных DMP Facetz.DCA. Меня зовут Артем Пичугин, и я являюсь её координатором.

Задача

Представьте, что вы компания, продающая автомобили. Кому показать рекламу автомобиля? На каких сайтах? Так, чтобы недорого и эффективно? Казалось бы, ответ очевиден: пользователям, которые заходят на страницы покупки автомобилей на сайтах компаний, а также на досках объявлений типа Avito и т д.

Читать дальше →

asash Sep 21 2015 at 18:47

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

6 min

516K

Big Data*

Tutorial

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

Читать дальше →

+44

shamim Sep 30 2015 at 16:05

Переход из SQL на NoSQL: опыт проекта СМЭВ 2.0

4 min

36K

AT Consulting corporate blogSQL*NoSQL*Big Data*

В последние годы NoSQL и BigData стали очень популярными в ИТ-индустрии, и на базе NoSQL успешно реализованы тысячи проектов. Часто на разных конференциях и форумах слушатели задают вопрос о том, как модернизировать или перенести старые системы (legacy) в NoSQL. К счастью, у нас был опыт перехода из SQL на NoSQL в крупном проекте СМЭВ 2.0, о котором я и расскажу под катом.

Читать дальше →

+16

1cloud Oct 1 2015 at 16:01

Файловая система и Hadoop: Опыт Twitter (Часть 1)

2 min

12K

1cloud.ru corporate blogDevelopment of mobile applications*Big Data*Development for e-commerce*Hadoop*

Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:

Сегодня мы решили взглянуть на западный опыт и кратко проанализировать заметку команды инженеров Twitter, в которой они рассказали о своем подходе к работе с файловой системой для кластеров Hadoop.

Читать дальше →

+11

1cloud Oct 2 2015 at 17:00

Файловая система и Hadoop: Опыт Twitter (Часть 2)

2 min

9.7K

1cloud.ru corporate blogDevelopment of mobile applications*Big Data*Development for e-commerce*Hadoop*

Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →

asash Oct 5 2015 at 19:10

Big Data от А до Я. Часть 2: Hadoop

9 min

229K

DCA (Data-Centric Alliance) corporate blogBig Data*Hadoop*

Tutorial

Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.

Читать дальше →

+32

SECL Oct 8 2015 at 14:27

Тренды мирового e-commerce рынка в 2015-2016 годах

7 min

23K

SECL Group corporate blogWebsite development*Big Data*Development for e-commerce*

Рынок электронной коммерции и в мире и в рунете очень активно развивается, не смотря на кризисы и другие негативные явления. В мире в год средние темпы роста по данным eMarketer составляют около 18-20% в год, в России и Украине темпы роста доходят до 17-18%. Это примерно 3-4% от общего ритейла в России (в Украине чуть меньше, рынок развит меньше и сейчас глубокий кризис) и до 10-12% в США и других развитых странах. Средний уровень в мире составляет примерно 6%. Единственное исключение, в прошлом году в Украине из-за глубокого экономического кризиса рынок не вырос в долларовом эквиваленте, но для местных компаний это шанс нагнать упущенное раньше. Самое интересное, что мы все еще находимся в стадии зарождения рынка. По многим прогнозам доля электронной коммерции в общем ритейле достигнет 20% в ближайшие несколько лет. Для компаний данного сектора игнорирование этого рынка сегодня равносильно смерти завтра.

Интересен также и тот факт, что многие крупнейшие игроки электронной коммерции в США имеют оффлайн-корни, а США – это некая лакмусовая бумажка, катализатор рынка, который нам показывает, что произойдет на наших рынках в этом же сегменте через 3-5 лет. Этому уже есть подтверждение: в России ряд крупных интернет-магазинов уже давно принадлежат крупным оффлайн-сетям и поглощения продолжаются. В Украине с этим сложнее, хотя это процесс активно идет, так несколько месяцев назад компания «Фокстрот» выкупила 100% интернет-магазина Sokol.ua

Mobile commerce

Читать дальше →

+11

limitium Oct 19 2015 at 13:17

Big data, билайн и кококо

3 min

32K

Python*Big Data*Microsoft Azure*

Пару дней назад, случайно зайдя на Хабр без адблока, я увидел баннер: ”Билайн, будь мужиком — реши шайтан-задачу”. Челендж звучал интересно, определить возраст по набору таких параметров, как регион, тарифный план и т.д.

Читать дальше →

Zalina Oct 20 2015 at 18:22

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

4 min

117K

Яндекс corporate blogProgramming*Algorithms*Big Data*Machine learning*

Когда-то мы публиковали на Хабре курс по машинному обучению от Константина Воронцова из Школы анализа данных. Нам тогда предлагали сделать из этого полноценный курс с домашними заданиями и разместить его на Курсере.

И сегодня мы хотим сказать, что наконец можем выполнить все эти пожелания. В январе на Курсере пройдёт курс, организованный совместно Яндексом (Школой анализа данных) и ВШЭ. Записаться на него можно уже сейчас: www.coursera.org/learn/introduction-machine-learning.

Сооснователь Coursera Дафна Коллер в офисе Яндекса

Курс продлится семь недель. Это означает, что по сравнению с ШАДовским двухсеместровым курсом он будет заметно упрощен. Однако в эти семь недель мы попытались вместить только то, что точно пригодится на практике, и какие-то базовые вещи, которые нельзя не знать. В итоге получился идеальный русскоязычный курс для первого знакомства с машинным обучением.

Кроме того, мы верим, что после прохождения курса у человека должна остаться не только теория в голове, но и скилл «в пальцах». Поэтому все практические задания построены вокруг использования библиотеки scikit-learn (Python). Получается, что после прохождения нашего курса человек сможет сам решать задачи анализа данных, и ему будет проще развиваться дальше.

Под катом можно прочитать подробнее обо всех авторах курса и узнать его примерное содержание.

Читать дальше →

+79

Etrorini Oct 28 2015 at 10:09

Блеск и нищета HTML5 — доступ к датчикам

3 min

17K

Website development*JavaScript*Development of mobile applications*

From sandbox

Recovery Mode

Недавно я увидел статью на Хабре и очень удивился, что она вообще находиться на ресурсе для IT-специалистов. Но ещё больше меня шокировало то, что никто в комментариях не указал на очевидные грубые ошибки описанные в той статье. Хабр, что с тобой случилось? Когда всё пошло не так?

Эх вы, горе-IT-специалисты.

Дальше подробности

ITI_Capital Oct 29 2015 at 12:20

Что нового: 3 технологических тренда алгоритмической торговли

2 min

13K

ITI Capital corporate blogWebsite development*

В нашем блоге мы большое внимание уделяем вопросам алгоритмической торговли и предлагаем целый ряд технологических решений для ее осуществления (например, прямой доступ на биржу).

Несколько месяцев назад была опубликована презентация основателя финансового сервиса IKnowFirst Липы Ройтмана (Lipa Roitman) и руководителя проекта Ярона Голгера (Yaron Golgher) о трендах и тенденциях алгоритмической торговли. Мы представляем вашему вниманию главные мысли из этого документа.

Читать дальше →

Jeditobe Oct 30 2015 at 17:35

СУБД ЛИНТЕР Бастион успешно протестирована на ReactOS

2 min

21K

Фонд ReactOS corporate blogReverse engineering*Development for Windows*

Добрый пятничный вечер, уважаемые читатели Хабра!

Коллектив разработчиков ReactOS представляет вашему вниманию свой первый совместный пресс-релиз с компанией ЗАО НПП «РЕЛЭКС».

Специалистами ЗАО НПП «РЕЛЭКС» успешно завершены работы по тестированию СУБД ЛИНТЕР Бастион на операционной системе ReactOS.

Замеры показали, что Линтер под управлением ReactOS дает прирост производительности на 10-15% по сравнению с Windows XP на идентичной аппаратной конфигурации. В ходе работ были выявлены недостатки в ОС, которые были оперативно устранены сообществом разработчиков при непосредственном и активном участии российского фонда ReactOS.

Читать дальше →

+13

u1d Oct 29 2015 at 11:25

Обучение машинному обучению

3 min

32K

Machine learning*

From sandbox

Я не настоящий бигдатщик, я просто xgboost на github'e нашел.

Погоня за 500кр от Билайна заставила окунуться в мир машинного обучения, к коему я интерес проявлял и раньше, но доверия не оказывал и, соответственно, не окунался. Беглый поиск показал, что в этом плане рулит сейчас xgboost от китайских товарищей из вашингтонского университета. Как я понял, это что-то вроде Apple в области машинного обучения: нажал одну кнопку — получил быстро и красиво что хотел.

Читать дальше →

+19