Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

azathot 3 мар 2017 в 11:02

Vertica+Anchor Modeling = запусти рост своей грибницы

5 мин

35K

Блог компании AvitoTechBig Data*

Какое-то время назад я написал статью на Хабре. В ней же пообещал продолжение через пару недель. Но, как известно, обещанного три года ждут — и с тех пор действительно прошло три года. Если вы не запомнили со времён той статьи, то напомню — я работаю в Avito, строю хранилище на основе Vertica.
Из того, что поменялось — теперь я могу не просто написать статью, а сделать это в блоге компании. И, надеюсь, не один раз. Самопиар окончен, теперь к делу.

Читать дальше →

+41

matvey_travkin 2 мар 2017 в 15:58

Superjob Data Science Meetup. Прямая трансляция

1 мин

2.8K

Блог компании SuperJobBig Data*Data Mining*

Специально для тех, кто не успел зарегистрироваться на Superjob Data Science Meetup, мы организуем прямую трансляцию события на Youtube или Facebook.

Начало в 19:00 по московскому времени.

Читать дальше →

+9

i_shutov 1 мар 2017 в 06:18

Тонкости R. Как минута час экономит

7 мин

8.7K

Big Data*Data Mining*R*

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.

Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.

Читать дальше →

+17

anastasiagrishina 27 фев 2017 в 12:40

Data Science Weekend 3-4 марта

1 мин

2.6K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Хабр, привет! Приглашаем на Data Science Weekend 2017, который пройдет в Москве, на площадке Deworkacy, 3 и 4 марта.

Читать дальше →

+1

1cloud 27 фев 2017 в 08:12

Big Data: большие возможности или большой обман

7 мин

15K

Блог компании 1cloud.ruBig Data*Высоконагруженные системы*Промышленное программирование*Разработка под e-commerce*

Мы в 1cloud часто рассказываем о технологиях, например, недавно мы писали о машинном обучении и all-flash-массивах хранения данных. Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году.

При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

Читать дальше →

+8

EliseeAlex 27 фев 2017 в 08:07

Аналитические данные за пределами аналитики в Wrike

8 мин

4.6K

Блог компании WrikeМашинное обучение*Анализ и проектирование систем*Data Mining*Big Data*

Дата инженер в ожидании задачи на спарке.

За годы разработки Wrike у нас накопилось много разрозненной информации о действиях пользователя. Эта информация разбросана по нескольким базам данных, логам, и внешним сервисам, и нам, аналитикам, нужно собрать эти данные вместе, найти в них закономерности и найти ответы на вечные вопросы SaaS’а:

Почему уходят клиенты?
Какие пользователи приносят нам деньги?
Как развивать продукт дальше?

Большинство задач мы решаем с помощью SQL, но запросы к логам через SQL — громоздкие и медленные. Их можно использовать для автоматики или подробной аналитики, но если нужно что-то быстро посмотреть, на подготовку данных уйдёт больше времени, чем на анализ.

Если смотреть приходится много и часто, это вызывает боль, в этой статье мы расскажем, как её преодолеть и как извлечь максимальную пользу из полученных данных.

Читать дальше →

+12

anastasiagrishina 22 фев 2017 в 13:24

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

7 мин

12K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Хабр, привет! В современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.

Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.

Читать дальше →

+8

ph_piter 20 фев 2017 в 16:20

Книга «Основы Data Science и Big Data. Python и наука о данных»

4 мин

44K

Блог компании Издательский дом «Питер»Big Data*Python*Профессиональная литература*

Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.

Читать дальше →

+19

i_shutov 17 фев 2017 в 09:51

R в enterprise задачах. Хитрости и трюки

7 мин

11K

Big Data*Data Mining*R*

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать дальше →

+23

matvey_travkin 16 фев 2017 в 09:00

Superjob Data Science Meetup

2 мин

3.8K

Блог компании SuperJobBig Data*Data Mining*

Superjob приглашает на Data Science Meetup. Встречаемся 2 марта в нашем офисе на Малой Дмитровке.

Темы и спикеры:

«Применение алгоритмов поиска нечетких дубликатов в поиске вакансий»

Дмитрий Кожокарь, старший разработчик Superjob, расскажет об опыте создания эффективного алгоритма по поиску нечетких дубликатов среди большого количества полуструктурированных текстовых записей. В докладе рассматривается использование функции из семейства locality-sensitive hashing с дополнительными оптимизациями для выявления схожих вакансий и последующего объединения их в кластеры.

Читать дальше →

+11

anastasiagrishina 15 фев 2017 в 16:35

Данные лучше, чем нефть, или шестой набор на программу по big data

2 мин

9.3K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Хабр, привет! Сложно поверить, но 16 марта мы запустим уже 6 набор нашей программы “Специалист по большим данным”.

На текущий момент у нас уже около 160 выпускников, которые с разной степенью вовлеченности применяют знания и навыки, полученные на программе. Наверное, можно задаться вопросом, нужно ли такое количество кадров. Ответа на это резонное сомнение есть два. Во-первых, мы держим руку на пульсе и периодически проводим анализ рынка. Во-вторых, рынок не является статичной сущностью и растет, причем количество открытых вакансий не является достаточной метрикой для измерения этого спроса.

Читать дальше →

+7

alexkrash 15 фев 2017 в 09:55

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

9 мин

7.9K

Блог компании BadooBig Data*Hadoop*Java*Open source*

enter image description here

Привет, Хабр! Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.

Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL (Extract Transform Load) в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.

Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Читать дальше →

+51

m31 14 фев 2017 в 11:04

Вебинар: Введение в Singularity

1 мин

2.7K

Блог компании FlyElephantМашинное обучение*Высоконагруженные системы*Data Mining*Big Data*

Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.

Читать дальше →

+11

Rupper 13 фев 2017 в 12:27

Мультифакторный анализатор деятельности произвольного предприятия на IEM-платформе

3 мин

4.1K

Блог компании UltimaBig Data*Математика*Машинное обучение*Разработка под e-commerce*

Recovery Mode

WANTED: талантливые математики на интересный и денежный контракт
Целевая специализация — матстатистика, матмоделирование, нейросети.
Описание задачи — ниже.

Вторая попытка по человечески сформулировать задачу из предыдущего постинга.

Читать дальше →

+7

IliaSafonov 8 фев 2017 в 15:35

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

10 мин

33K

Машинное обучение*Data Mining*Big Data*

Перевод

В декабре прошлого года в переписке американских коллег по data science прокатилась волна обсуждения долгожданного черновика новой книги гуру машинного обучения Эндрю Ына (Andrew Ng) «Жажда машинного обучения: стратегии для инженеров в эпоху глубинного обучения». Долгожданного, потому что книга была анонсирована ещё летом 2016 года, и вот, наконец, появилось несколько глав.

Представляю вниманию Хабра-сообщества перевод первых семи глав из доступных в настоящий момент четырнадцати. Замечу, что это не финальный вариант книги, а черновик. В нем есть ряд неточностей. Эндрю Ын предлагает писать свои комментарии и замечания сюда. Начинает автор с вещей, которые кажутся очевидными. Дальше ожидаются более сложные концепции.

Читать дальше →

+46

Olga_ol 8 фев 2017 в 11:45

Техносфере Mail.Ru — три года

9 мин

7.6K

Блог компании VKBig Data*Data Mining*Машинное обучение*

Сегодня исполнилось три года с момента запуска одного из наших образовательных проектов — Техносферы Mail.Ru, реализованного совместно с факультетом ВМК МГУ им. Ломоносова. Программа Техносферы рассчитана на подготовку специалистов в сфере больших данных. Изначально она была рассчитана на один год и состояла из шести дисциплин. Однако спустя год мы пересмотрели программу и сделали её двухгодичной. В течение четырёх семестров студенты изучают 12 дисциплин, выполняя большой объём практических работ. Заодно был разработан подготовительный курс «Алгоритмы и структуры данных».

В Техносферу принимают студентов 2—4-х курсов. Несмотря на то что схема вступительных экзаменов во все наши образовательные проекты одинакова (студенты сдают онлайн-тест и проходят очное собеседование), в Техносфере мы больше ориентируемся на базовые знания по высшей математике. Помимо чтения лекций мы создали лабораторию, где студенты работают с реальными задачами, с которыми мы сталкиваемся в Mail.Ru Group. Например, пытаются улучшить аналитические алгоритмы, создать определённые эвристики. То есть делают всё то же самое, что они делали бы во время обычной стажировки в компании. С осени 2015 года в лаборатории начали проводить и научные исследования. Например, изучаются возможности применения нейронных сетей для решения тех или иных бизнес-задач.

И в честь дня рождения мы выкладываем список учебных материалов, которые рекомендованы к изучению нашим студентам на протяжении всего двухлетнего курса.

Читать дальше →

+20

rocket3 7 фев 2017 в 13:33

Kaggle и Linux. Digit Recognizer for analysts (для начинающих аналитиков)

3 мин

7.4K

Big Data*Python*Обработка изображений*

Для тех, кто только познает сферу анализа многомерных данных, хочу поделиться опытом, как почувствовать себя мини информационным аналитиком.

Кто еще не знаком с сайтом Kaggle.com (англоязычный), рекомендую не полениться и провести там пару часов для общего ознакомления с данным ресурсом.

На данном сайте уже как 4 года идет конкурс на самый лучший анализатор изображений. Принять участие может каждый. Изначально конкурс был до 31.12.16, но сейчас он продлен до 2019 года.

На Хабре уже был описан способ, как написать программу и поучаствовать, но там далеко не для новичков: «Как начать работу в Kaggle: руководство для новичков в Data Science».

Я решил попробовать свои силы, и при этом не писать программу.

Читать дальше →

+7

Moscow_Exchange 6 фев 2017 в 14:59

История разработки TWIME — нового высокоскоростного интерфейса Московской Биржи

9 мин

14K

Блог компании MOEXBig Data*Системы связи*

В этом хабе мы расскажем вам о своем уникальном опыте разработки высокоскоростного интерфейса TWIME для Московской биржи, объясним, почему нам так важна низкая latency (время отклика) и как ее сократить. Надеемся, в заключении вам станет немного понятнее, почему Московская биржа более технологична в некоторых областях, чем, к примеру, такие гиганты High Load как Nginx, VK или MailRu.

Читать дальше →

+13

SAP 6 фев 2017 в 14:23

Как платформа SAP HANA работает с большими данными

5 мин

27K

Блог компании SAPBig Data*

Привет, Хабр! В прошлой статье мы рассказали про решение для малого бизнеса SAP Business One и кратко упомянули про возможности SAP HANA в области вычислений и аналитики. Сегодня мы подробнее остановимся на том, как платформа SAP HANA может работать с большими данными и на сценариях применения этих технологий в бизнесе.

SAP HANA: как это работает

Читать дальше →

+11

sat2707 2 фев 2017 в 15:27

Скоро открытие ML Boot Camp III

9 мин

15K

Блог компании VKМашинное обучение*Алгоритмы*Data Mining*Big Data*

15 февраля стартует Machine Learning Boot Camp III — третье состязание по машинному обучению и анализу данных от Mail.Ru Group. Сегодня рассказываем о прошедшем контесте и открываем тайны нового! Итак, в ходе предстоящего конкурса нужно будет угадать, останется ли участник в онлайн-игре или уйдет из нее. Выборки для задачи построены на двенадцати игровых признаках для 25000 пользователей. Естественно, все данные анонимизированы.

Читать дальше →

+36

1 2 ...

159

160 161 ...