Как стать автором
Поиск
Написать публикацию
Обновить
114.18

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Программа по Deep Learning

Время на прочтение3 мин
Количество просмотров7.1K
Хабр, привет! Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.
Читать дальше →

Искусственный интеллект, вызовы и риски – глазами инженера

Время на прочтение11 мин
Количество просмотров18K
Добрый день, коллеги. Сегодня хочется трезво посмотреть глазами инженера на так популярные сейчас искусственный интеллект и Deep learning, упорядочить, выстроить факты и выработать выигрышную стратегию – как с этим … взлететь, пролететь и не упасть кому-нибудь на голову? Потому-что, когда дело от лабораторных моделей на python/matplotlib/numpy или lua доходит до высоконагруженного production в клиентском сервисе, когда ошибка в исходных данных сводит на нет все усилия – становится не то, что весело, а даже начинается нумерологический средневековый экстаз и инженеры начинают сутки напролет танцевать, в надежде излечиться от новомодной чумы )


Танцующие инженеры, тщетно надеющиеся исцелиться
Читать дальше →

Приглашаем на Moscow Data Science Meetup 25 ноября

Время на прочтение1 мин
Количество просмотров4.5K


25 ноября в московском офисе Mail.Ru Group пройдет традиционная встреча сообщества Moscow Data Science. Участники поделятся профессиональным опытом решения практических задач анализа данных и пообщаются в неформальной обстановке. Встреча будет посвящена глубокому обучению. Присоединяйтесь!
Читать дальше →

Класс удаленного прокси — это не (очень) больно

Время на прочтение16 мин
Количество просмотров4K

Fish Out Of Watermelon by Joan Pollak

(Динамическая диспетчеризация спешит на помощь)


После нескольких статей про MapReduce нам показалось необходимым еще раз отойти в сторону и поговорить про инфраструктуру, которая поможет облегчить построение решения MapReduce. Мы, по-прежнему, говорим про InterSystems Caché, и, по-прежнему, пытаемся построить MapReduce систему на базе имеющихся в системе подручных материалов.


На определенном этапе написания системы, типа MapReduce, встает задача удобного вызова удаленных методов и процедур (например, посылка управляющих сообщений с контроллера на сторону управляемых узлов). В среде Caché есть несколько простых, но не очень удобных методов достичь этой цели, тогда как хочется бы получить именно удобный.


Читать дальше →

12 кейсов по биг дате: подтвержденные примеры из индустрии, когда биг дата приносит деньги

Время на прочтение8 мин
Количество просмотров36K
Хабр, привет! Проанализировали кейсы по big data, в которых технологии больших данных помогли компаниям более эффективно работать с клиентами или оптимизировать внутренние процессы.

Кстати, совсем скоро у нас стартует первый набор программы Big Data for Executives, цель которой подготовить руководителя или владельца бизнеса к использованию данных в своей деятельности. Почитать о ней подробнее можно здесь.
Читать дальше →

Рекомендации на основе изображений товаров

Время на прочтение5 мин
Количество просмотров11K
image

В данной статье я хотел бы рассмотреть на практике вариант построения простейшей рекомендательной системы основанной на схожести изображений товаров. Этот материал предназначен для тех, кто хотел бы попробовать применить Deep Learning, а именно свёрточные нейронные сети, в простом, интересном и практически применимом проекте, но не знает с чего начать.
Читать дальше →

Как запустить ClickHouse своими силами и выиграть джекпот

Время на прочтение15 мин
Количество просмотров80K

Мы решили описать простой и проверенный путь для тех, кто хочет внедрить аналитическую СУБД ClickHouse своими силами или просто испробовать ClickHouse на собственных данных. Именно этот путь прошли мы сами в новостном агрегаторе СМИ2 и добились впечатляющих результатов.


Clickhouse-client


В предисловии статьи — небольшой рассказ о наших попытках внедрить Druid и InfluxDB. Почему после успешного запуска ClickHouse мы смогли отказаться от использования InfiniDB и Cassandra.


Как подружить Bagri и MongoDB

Время на прочтение13 мин
Количество просмотров4.8K
Примерно месяц назад, я рассказал Хабру о проекте Bagri: NoSQL базе данных с открытым кодом, построенной поверх распределенного кэша.

После достаточно неплохого отклика, решил написать статью о том как можно наращивать функционал Bagri путем написания расширений (extensions) используя встроенный API системы.

image

Читать дальше →

Интервью с вице-президентом по технологической стратегии компании MapR

Время на прочтение7 мин
Количество просмотров2.9K
Приветствую, Хабр! Я немного помогал своим друзьям готовить конференцию CEE-SECR 2016 и в процессе познакомился с Кристал Валентайн – вице-президентом компании MapR по технологической стратегии. Кристал большая молодец, очень собранная, целеустремленная, глубоко понимающая свою отрасль При своей исключительной занятости умеет очень комфортно сотрудничать. Да и компания её не из последних. Думаю, её доклад в Москве будет очень интересным, а мне захотелось узнать больше про взгляды на будущее отрасли вице президента по технологической стратегии и я придумал сделать с Кристал интервью. Вот что у меня получилось. Кристал весьма любезно ответила на все вопросы, которые я ей задал. В целом же ответы Кристал отличает плотность предоставляемой информации на строку текста, четкость формулировок, умение оставаться в желаемых границах и предельно ясное видение миссии компании и будущего рынка.
Читать дальше →

Много ли надо, чтобы сделать стартап с использованием больших данных и ИИ?

Время на прочтение7 мин
Количество просмотров15K
Предположим, вы хотите создать приложение, которое будет что-то предсказывать, рекомендовать, распознавать изображения или голос, понимать текст на естественном языке… Для этого вам понадобятся знания машинного обучения, в том числе его сложных и продвинутых разделов, таких как глубокое обучение, большие обучающие выборки и сложные алгоритмы, серверы для получения и обработки данных от пользователей, средства хранения и обработки больших данных. Звучит слишком сложно? Если у вас нет диплома Стенфордского университета, вы не готовы нанимать команду data scientist’ов и разворачивать кластеры Hadoop, но у вас есть хорошая бизнес-идея, существует более простое и менее затратное решение – использовать API машинного обучения и искусственного интеллекта.
Читать дальше →

MapReduce из подручных материалов. Часть III – собираем все вместе

Время на прочтение11 мин
Количество просмотров4.8K
Mosaic by Joan PollakВ первой (достаточно капитанской) части этой серии мы рассказали про базовые концепции MapReduce почему это плохо, почему это неизбежно, и как с этим жить в других средах разработки (если вы не про Си++ или Java). Во второй части мы-таки начали рассказывать про базовые классы реализации MapReduce на Caché ObjectScript, введя абстрактные интерфейсы и их первичные реализации.
Сегодня пришел наш день! – мы покажем первый пример собранный в парадигме MapReduce, да, он будет странный и не самый эффективный, и совсем не распределенный, но вполне MapReduce.

Читать дальше →

Создание разделяемого хранилища на базе CEPH RBD и GFS2

Время на прочтение8 мин
Количество просмотров17K
Большинство ПО кластерных систем предполагает наличие файловой системы доступной со всех узлов кластера. Эта файловая система используется для хранения ПО, данных, для организации работы некоторых кластерных подсистем и т.д. Требования на производительность такой FS могут сильно отличаться для разных задач, однако, чем она выше, тем считается, что кластер более устойчив и универсален. NFS сервер на мастер-узле является минимальным вариантом такой FS. Для больших кластеров NFS дополняется развертыванием LustreFS — высокопроизводительной специализированной распределенной файловой системы, использующей несколько серверов в качестве хранилища файлов и несколько метаинформационных серверов. Однако такая конфигурация обладает рядом свойств, которые сильно затрудняют работу с ней в случае, когда клиенты используют независимые виртуализированные кластера. В системе HPC HUB vSC для создания разделяемой FS используется широко известное решение CEPH и файловая система GFS2.
main
Читать дальше →

Применение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям

Время на прочтение3 мин
Количество просмотров16K

В этой краткой заметке хочу поделиться еще одним вариантом использования R в повседневных бизнес задачах. Этот «use-case» актуален почти для всех компаний, вне зависимости от их размера. Речь идет о подготовке различных оперативных отчетов и аналитических срезов.


Читать дальше →

Ближайшие события

Как собрать биграммы для корпуса любого размера на домашнем компьютере

Время на прочтение5 мин
Количество просмотров20K
В современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.
Читать дальше →

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

Время на прочтение14 мин
Количество просмотров48K
Исторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.



Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)

В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.

Читать дальше →

Сравнение аналитических in-memory баз данных

Время на прочтение19 мин
Количество просмотров42K
В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.

Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.

Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать дальше →

Когда старый MapReduce лучше нового Tez

Время на прочтение9 мин
Количество просмотров14K


Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.
Читать дальше →

Школа Данных «Билайн», на Неве

Время на прочтение3 мин
Количество просмотров4.6K


Привет, Хабр! Вы уже не раз слышали про то, что мы проводим курсы машинного обучения и анализа данных в Школе Данных «Билайн». Сегодня мы отмечаем уже 6-й выпуск на нашем аналитическом курсе и 4й — на курсе для менеджеров. Только успев выпустить один курс — мы набираем новый. После каждого очередного выпуска мы собираем обратную связь от наших слушателей, анализируем ее и делаем нашу программу еще более насыщенной практикой и примерами из реального бизнеса.

Нам пишут со всей страны и из-за ее пределов с вопросами, когда Школа Данных появится в их городе. Мы откликнулись на эти пожелания и расширяем наше присутствие.

Сегодня мы рады объявить о запуске нашей программы в Петербурге! Мы собрали самых лучших преподавателей в этой славном городе, подготовили замечательную программу и в этом посте расскажем все подробности обучения.

Курс начинается 28-го октября, будет проходить по понедельникам и пятницам в вечернее время с 19.00 до 21.00 в офисе компании «Билайн» по адресу Васильевский остров, 21 линия, д. 6, литер А (ближайшая станция метро «Василеостровская»).

Впереди нас ждет 18 занятий (курс рассчитан на 9 недель), на которых мы постараемся покрыть самые важные темы анализа данных.
Читать дальше →

Многоуровневый подход NoSQL к обеспечению безопасности больших данных

Время на прочтение4 мин
Количество просмотров4.6K
Если вы рассчитываете, что Большие данные станут той движущей силой, которая придаст импульс развитию вашего бизнеса, то вопрос обеспечения безопасности этих Больших данных должен стать одним из ваших основных приоритетов – и по большому счету в этом нет никакой сенсации. Но каким образом эффективнее всего осуществить такую защиту?


Читать дальше: 2 ключевых подхода к защите NoSQL

Обзор курсов по Deep Learning

Время на прочтение11 мин
Количество просмотров71K
Привет, Хабр! Последнее время все больше и больше достижений в области искусственного интеллекта связано с инструментами глубокого обучения или deep learning. Мы решили разобраться, где же можно научиться необходимым навыкам, чтобы стать специалистом в этой области.

image
Читать дальше →

Вклад авторов