Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

anastasiagrishina 18 ноя 2016 в 12:58

Программа по Deep Learning

3 мин

7.1K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Хабр, привет! Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.

Читать дальше →

+4

AlexSerbul 17 ноя 2016 в 10:26

Искусственный интеллект, вызовы и риски – глазами инженера

11 мин

18K

Блог компании Битрикс24Машинное обучение*Big Data*

Добрый день, коллеги. Сегодня хочется трезво посмотреть глазами инженера на так популярные сейчас искусственный интеллект и Deep learning, упорядочить, выстроить факты и выработать выигрышную стратегию – как с этим … взлететь, пролететь и не упасть кому-нибудь на голову? Потому-что, когда дело от лабораторных моделей на python/matplotlib/numpy или lua доходит до высоконагруженного production в клиентском сервисе, когда ошибка в исходных данных сводит на нет все усилия – становится не то, что весело, а даже начинается нумерологический средневековый экстаз и инженеры начинают сутки напролет танцевать, в надежде излечиться от новомодной чумы )

Танцующие инженеры, тщетно надеющиеся исцелиться

Читать дальше →

+22

mary_arti 14 ноя 2016 в 13:55

Приглашаем на Moscow Data Science Meetup 25 ноября

1 мин

4.5K

Блог компании VKBig Data*Data Mining*Машинное обучение*

25 ноября в московском офисе Mail.Ru Group пройдет традиционная встреча сообщества Moscow Data Science. Участники поделятся профессиональным опытом решения практических задач анализа данных и пообщаются в неформальной обстановке. Встреча будет посвящена глубокому обучению. Присоединяйтесь!

Читать дальше →

+27

tsafin 14 ноя 2016 в 13:24

Класс удаленного прокси — это не (очень) больно

16 мин

4K

Блог компании InterSystemsNoSQL*Big Data*

(Динамическая диспетчеризация спешит на помощь)

После нескольких статей про MapReduce нам показалось необходимым еще раз отойти в сторону и поговорить про инфраструктуру, которая поможет облегчить построение решения MapReduce. Мы, по-прежнему, говорим про InterSystems Caché, и, по-прежнему, пытаемся построить MapReduce систему на базе имеющихся в системе подручных материалов.

На определенном этапе написания системы, типа MapReduce, встает задача удобного вызова удаленных методов и процедур (например, посылка управляющих сообщений с контроллера на сторону управляемых узлов). В среде Caché есть несколько простых, но не очень удобных методов достичь этой цели, тогда как хочется бы получить именно удобный.

Читать дальше →

+17

anastasiagrishina 10 ноя 2016 в 13:20

12 кейсов по биг дате: подтвержденные примеры из индустрии, когда биг дата приносит деньги

8 мин

36K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Хабр, привет! Проанализировали кейсы по big data, в которых технологии больших данных помогли компаниям более эффективно работать с клиентами или оптимизировать внутренние процессы.

Кстати, совсем скоро у нас стартует первый набор программы Big Data for Executives, цель которой подготовить руководителя или владельца бизнеса к использованию данных в своей деятельности. Почитать о ней подробнее можно здесь.

Читать дальше →

+12

ssh1 9 ноя 2016 в 07:01

Рекомендации на основе изображений товаров

5 мин

11K

Машинное обучение*Python*Data Mining*Big Data*Алгоритмы*

Туториал

В данной статье я хотел бы рассмотреть на практике вариант построения простейшей рекомендательной системы основанной на схожести изображений товаров. Этот материал предназначен для тех, кто хотел бы попробовать применить Deep Learning, а именно свёрточные нейронные сети, в простом, интересном и практически применимом проекте, но не знает с чего начать.

Читать дальше →

+18

sublimity 7 ноя 2016 в 04:29

Как запустить ClickHouse своими силами и выиграть джекпот

15 мин

80K

Блог компании СМИ2SQL*PHP*NoSQL*Big Data*

Мы решили описать простой и проверенный путь для тех, кто хочет внедрить аналитическую СУБД ClickHouse своими силами или просто испробовать ClickHouse на собственных данных. Именно этот путь прошли мы сами в новостном агрегаторе СМИ2 и добились впечатляющих результатов.

Clickhouse-client

В предисловии статьи — небольшой рассказ о наших попытках внедрить Druid и InfluxDB. Почему после успешного запуска ClickHouse мы смогли отказаться от использования InfiniDB и Cassandra.

+59

mhalifax 28 окт 2016 в 15:58

Как подружить Bagri и MongoDB

13 мин

4.8K

Big Data*Java*NoSQL*Open source*

Примерно месяц назад, я рассказал Хабру о проекте Bagri: NoSQL базе данных с открытым кодом, построенной поверх распределенного кэша.

После достаточно неплохого отклика, решил написать статью о том как можно наращивать функционал Bagri путем написания расширений (extensions) используя встроенный API системы.

Читать дальше →

+12

vzzvzz 23 окт 2016 в 20:49

Интервью с вице-президентом по технологической стратегии компании MapR

7 мин

2.9K

Анализ и проектирование систем*Data Mining*Big Data*

Приветствую, Хабр! Я немного помогал своим друзьям готовить конференцию CEE-SECR 2016 и в процессе познакомился с Кристал Валентайн – вице-президентом компании MapR по технологической стратегии. Кристал большая молодец, очень собранная, целеустремленная, глубоко понимающая свою отрасль При своей исключительной занятости умеет очень комфортно сотрудничать. Да и компания её не из последних. Думаю, её доклад в Москве будет очень интересным, а мне захотелось узнать больше про взгляды на будущее отрасли вице президента по технологической стратегии и я придумал сделать с Кристал интервью. Вот что у меня получилось. Кристал весьма любезно ответила на все вопросы, которые я ей задал. В целом же ответы Кристал отличает плотность предоставляемой информации на строку текста, четкость формулировок, умение оставаться в желаемых границах и предельно ясное видение миссии компании и будущего рынка.

Читать дальше →

+14

anastasiagrishina 20 окт 2016 в 09:39

Много ли надо, чтобы сделать стартап с использованием больших данных и ИИ?

7 мин

15K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Предположим, вы хотите создать приложение, которое будет что-то предсказывать, рекомендовать, распознавать изображения или голос, понимать текст на естественном языке… Для этого вам понадобятся знания машинного обучения, в том числе его сложных и продвинутых разделов, таких как глубокое обучение, большие обучающие выборки и сложные алгоритмы, серверы для получения и обработки данных от пользователей, средства хранения и обработки больших данных. Звучит слишком сложно? Если у вас нет диплома Стенфордского университета, вы не готовы нанимать команду data scientist’ов и разворачивать кластеры Hadoop, но у вас есть хорошая бизнес-идея, существует более простое и менее затратное решение – использовать API машинного обучения и искусственного интеллекта.

Читать дальше →

+10

tsafin 17 окт 2016 в 10:37

MapReduce из подручных материалов. Часть III – собираем все вместе

11 мин

4.8K

Блог компании InterSystemsBig Data*NoSQL*SQL*

В первой (достаточно капитанской) части этой серии мы рассказали про базовые концепции MapReduce почему это плохо, почему это неизбежно, и как с этим жить в других средах разработки (если вы не про Си++ или Java). Во второй части мы-таки начали рассказывать про базовые классы реализации MapReduce на Caché ObjectScript, введя абстрактные интерфейсы и их первичные реализации.
Сегодня пришел наш день! – мы покажем первый пример собранный в парадигме MapReduce, да, он будет странный и не самый эффективный, и совсем не распределенный, но вполне MapReduce.

Читать дальше →

+18

HPCHub 14 окт 2016 в 09:33

Создание разделяемого хранилища на базе CEPH RBD и GFS2

8 мин

17K

Блог компании HPC HUBBig Data*Open source*Высоконагруженные системы*Параллельное программирование*

Большинство ПО кластерных систем предполагает наличие файловой системы доступной со всех узлов кластера. Эта файловая система используется для хранения ПО, данных, для организации работы некоторых кластерных подсистем и т.д. Требования на производительность такой FS могут сильно отличаться для разных задач, однако, чем она выше, тем считается, что кластер более устойчив и универсален. NFS сервер на мастер-узле является минимальным вариантом такой FS. Для больших кластеров NFS дополняется развертыванием LustreFS — высокопроизводительной специализированной распределенной файловой системы, использующей несколько серверов в качестве хранилища файлов и несколько метаинформационных серверов. Однако такая конфигурация обладает рядом свойств, которые сильно затрудняют работу с ней в случае, когда клиенты используют независимые виртуализированные кластера. В системе HPC HUB vSC для создания разделяемой FS используется широко известное решение CEPH и файловая система GFS2.
main

main

Читать дальше →

+10

i_shutov 13 окт 2016 в 16:23

Применение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям

3 мин

16K

Big Data*Data Mining*R*

В этой краткой заметке хочу поделиться еще одним вариантом использования R в повседневных бизнес задачах. Этот «use-case» актуален почти для всех компаний, вне зависимости от их размера. Речь идет о подготовке различных оперативных отчетов и аналитических срезов.

Читать дальше →

+11

kdenisk 12 окт 2016 в 16:06

Как собрать биграммы для корпуса любого размера на домашнем компьютере

5 мин

20K

Семантические сети*Машинное обучение*Алгоритмы*Data Mining*Big Data*

Из песочницы

В современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.

Читать дальше →

+15

m11 12 окт 2016 в 14:44

Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language

14 мин

48K

Блог компании ЯндексBig Data*Алгоритмы*Анализ и проектирование систем*Промышленное программирование*

Исторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.

Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)

В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.

Читать дальше →

+99

kapustor 11 окт 2016 в 07:57

Сравнение аналитических in-memory баз данных

19 мин

42K

Блог компании Т-БанкSQL*PostgreSQL*MySQL*Big Data*

В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.

Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.

Подробности, результаты и некое подобие выводов из тестирования — под катом.

Читать дальше →

+41

Arhimagic 10 окт 2016 в 13:53

Когда старый MapReduce лучше нового Tez

9 мин

14K

Блог компании VKBig Data*Hadoop*SQL*Высоконагруженные системы*

Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.

Читать дальше →

+39

SergeyMarin 7 окт 2016 в 07:35

Школа Данных «Билайн», на Неве

3 мин

4.6K

Блог компании билайн бизнесАлгоритмы*R*Data Mining*Big Data*

Привет, Хабр! Вы уже не раз слышали про то, что мы проводим курсы машинного обучения и анализа данных в Школе Данных «Билайн». Сегодня мы отмечаем уже 6-й выпуск на нашем аналитическом курсе и 4й — на курсе для менеджеров. Только успев выпустить один курс — мы набираем новый. После каждого очередного выпуска мы собираем обратную связь от наших слушателей, анализируем ее и делаем нашу программу еще более насыщенной практикой и примерами из реального бизнеса.

Нам пишут со всей страны и из-за ее пределов с вопросами, когда Школа Данных появится в их городе. Мы откликнулись на эти пожелания и расширяем наше присутствие.

Сегодня мы рады объявить о запуске нашей программы в Петербурге! Мы собрали самых лучших преподавателей в этой славном городе, подготовили замечательную программу и в этом посте расскажем все подробности обучения.

Курс начинается 28-го октября, будет проходить по понедельникам и пятницам в вечернее время с 19.00 до 21.00 в офисе компании «Билайн» по адресу Васильевский остров, 21 линия, д. 6, литер А (ближайшая станция метро «Василеостровская»).

Впереди нас ждет 18 занятий (курс рассчитан на 9 недель), на которых мы постараемся покрыть самые важные темы анализа данных.

Читать дальше →

+5

GemaltoRussia 6 окт 2016 в 06:54

Многоуровневый подход NoSQL к обеспечению безопасности больших данных

4 мин

4.6K

Блог компании Gemalto RussiaBig Data*Информационная безопасность*

Если вы рассчитываете, что Большие данные станут той движущей силой, которая придаст импульс развитию вашего бизнеса, то вопрос обеспечения безопасности этих Больших данных должен стать одним из ваших основных приоритетов – и по большому счету в этом нет никакой сенсации. Но каким образом эффективнее всего осуществить такую защиту?

Читать дальше: 2 ключевых подхода к защите NoSQL

+6

anastasiagrishina 5 окт 2016 в 15:21

Обзор курсов по Deep Learning

11 мин

71K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Привет, Хабр! Последнее время все больше и больше достижений в области искусственного интеллекта связано с инструментами глубокого обучения или deep learning. Мы решили разобраться, где же можно научиться необходимым навыкам, чтобы стать специалистом в этой области.

Читать дальше →

+44

1 2 ...

162

163 164 ...