Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@esouldy 5 авг 2015 в 08:50

Hybrid Conf — первая конференция о programmatic-advertising в России

1 мин

3.8K

Блог компании TargetixСемантические сети * Data Mining * Big Data *

Разработка сферических продуктов в вакууме изначально занятие провальное. Особенно в таком сложном и неоднозначном бизнесе как интернет-реклама. Обмен опытом с коллегами, общение с клиентами и рекламодателями это первый шаг к созданию актуального и конкурентоспособного продукта.

В начале лета этого года мы организовали и провели первую в России конференцию о programmatic-медиабаинге Hybrid Conf. По признаниям многих участников, она стала важной и, собственно, единственной пока, вехой на пути развития российского programmatic рынка.

Читать дальше →

+6

@laser13 5 авг 2015 в 08:42

Как узнать год выпуска песни по набору аудио характеристик?

10 мин

12K

Big Data * Scala * Машинное обучение *

Туториал

Из песочницы

Недавно завершился курс Scalable Machine Learning по Apache Spark, рассказывающий о применении библиотеки MLlib для машинного обучения. Курс состоял из видеолекций и практических заданий. Лабораторные работы необходимо было выполнять на PySpark, а поскольку по работе мне чаще приходится сталкиваться со scala, я решил перерешать основные лабы на этом языке, а заодно и лучше усвоить материал. Больших отличий конечно же нет, в основном, это то, что PySpark активно использует NumPy, а в версии со scala используется Breeze.

Первые два практических занятия охватывали изучение основных операций линейной алгебры в NumPy и знакомство с apache spark соответственно. Собственно машинное обучение началось с третьей лабораторной работы, она и разобрана ниже.

Ну что же, поехали!

+7

@peremen 4 авг 2015 в 11:09

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

4 мин

43K

Блог компании .ioАнализ и проектирование систем * Data Mining * Big Data *

Recovery Mode

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Читать дальше →

+10

@a_bogdanova 4 авг 2015 в 06:58

Office как Платформа, выпуск №2: Power BI – новый подход к созданию бизнес-аналитики

6 мин

50K

Блог компании MicrosoftBig Data * Визуализация данных * Открытые данные * Office 365 *

На сегодняшний день, одной из важных задач, с которыми мы сталкиваемся в процессе работы, является задача правильного и красивого предоставления данных. Мы стремимся превратить безликие цифры в интересные и информативные материалы, оживить свои отчеты и презентации. Более того, объем данных, поступаемых в мозг человека, увеличивается с каждым годом, поэтому, наряду с получением любых результатов нам необходимо правильно их обработать и структурировать.

Сегодня, на примере ряда задач, мы с вами рассмотрим мощный облачный инструмент, который позволяет создавать различные яркие и красочные отчеты на основе огромного числа источников данных. А именно, спешу поделиться с вами новым инструментом, который поможет вам визуализировать ваши данные – Power BI.

Читать дальше →

+16

@varagian 3 авг 2015 в 08:36

Что такое Мастер-Данные и зачем они нужны

8 мин

212K

Блог компании NaviconBig Data * Анализ и проектирование систем *

Введение

(клик по картинке ведёт внутрь публикации)

Развиваясь, организации внедряют всё больше и больше информационных систем совершенно различных направлений: бухгалтерский учет, управление персоналом, управление складом etc. Системы живут и развиваются независимо друг от друга до того самого момента, как компании не потребуется взглянуть на свои данные целиком. Объемы данных уже достигают критической точки и выясняется, что сопоставить и сравнить данные вручную становится просто невозможно. Решения основанные на противоречивых и невыверенных данных ведут к управленческим ошибкам, а дубли и неактуальность данных к неверным бизнес решениям.

Конечно же проблема описанная выше не нова и сегодня мы обсудим классический способ решения — систему управления мастер-данными.

Оглавление

Читать дальше →

+5

@alexanderkuk 2 авг 2015 в 21:11

Поиск похожих групп и пабликов Вконтакте

5 мин

57K

Big Data * VK API *

На днях удалось провернуть интересную штуку. Для всех групп Вконтакте с числом подписчиков от 5000 до 10 000 (~100 000 групп) был построен полный граф, в котором веса рёбер равнялись пересечению аудиторий групп.

Читать дальше →

+25

@FallDi 29 июл 2015 в 17:15

PostgreSQL: Приемы на продакшене

9 мин

92K

Big Data * PostgreSQL * SQL *

Можно прочитать много книг по базам данных, написать кучу приложений на аутсорс или для себя. Но при этом невозможно не наступить на грабли, при работе с действительно большими базами/таблицами особенно, когда downtime на большом проекте хочется свести к минимуму, а еще лучше совсем избежать. Вот здесь самые простые операции, как например изменение структуры таблицы может стать более сложной задачей. Наиболее интересные случаи, проблемы, грабли и их решения из личного опыта с которыми нам на проекте Pushwoosh пришлось столкнуться описаны под катом. В статье нет красивых картинок, зато есть много сухого текста.

Читать дальше →

+64

@kfedorenko 28 июл 2015 в 14:12

Типы личности по MBTI: влияние на восприятие рекламы

5 мин

44K

Блог компании DCA (Data-Centric Alliance)Big Data * Машинное обучение *

Привет Хабр! Анализируя пользовательские данные для нужд маркетинга и рекламы, мы решили исследовать влияние типа личности пользователя на то, как он реагирует на рекламное объявление. За основу решили взять, пожалуй, самую популярную типологию линостей MBTI (Myers-Briggs Type Indicator), известную еще с середины 20-го века. Многие крупные западные компании используют тесты MBTI при найме или при формировании команды для работы над проектами.

Но нас интересует, конечно, не готовность пользователя к командной работе, а влияние его типа личности на желание кликнуть по баннеру. Поэтому вопрос, который мы исследовали звучит так: «Могут ли типы личности влиять на CTR в рекламных кампаниях?»

В этой статье я расскажу о том как мы это делали.

Читать дальше →

+15

@iFreeTeam 27 июл 2015 в 11:08

Анализируем большие объемы данных с Apache Spark

1 мин

17K

Big Data * Data Mining * Java * Программирование * Веб-разработка *

С анализом больших объемов данных постепенно начинают сталкиваться не только крупнейшие IT-компании, но и обычные разработчики. В нашей компании в ряде проектов такая задача возникает, и мы решили систематизировать накопленный опыт, поделившись с коллегами по i-Free и нашими партнерами наиболее эффективными инструментами и технологиями. Сегодня речь пойдет о применении Apache Spark

Подробности

+9

@ph_piter 24 июл 2015 в 08:20

R и Python — достойные соперники?

7 мин

79K

Блог компании Издательский дом «Питер»R * Python * Big Data *

Перевод

Всем доброй пятницы, дорогие читатели!

В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?

Добро пожаловать под кат!

Читать дальше →

+11

@ibegtin 24 июл 2015 в 07:01

Опрос: Какие данные открывать налоговой службе?

1 мин

13K

Блог компании «Информационная культура»Открытые данные * Big Data *

В качестве вступления, я немного повторю текст которым сопровождаю все опросы.

Вполне возможно что многие из Вас знают про Совет по открытым данным, это такая рабочая группа при Правительственной комиссии по открытости в которой обсуждают и рекомендуют правительству открывать данные. Я не только вхожу в эту рабочую группу, но и являюсь заместителем её председателя и считаю важным чтобы деятельность совета помогала тем кто понимает какие данные и в какой форме нужны от органов власти.

Поэтому на регулярной основе мы проводим опросы разработчиков о том как и что нужно от конкретного органа власти.

На сей раз пришла пора Федеральной Налоговой Службы. Ранее эксперты совета встречались с коллегами из ФНС России и обсуждали те данные которые считали наиболее приоритетными. Но, безусловно, важнее что об этом думают конечные потребители.

Для тех кто ранее не сталкивался с данными ФНС, их можно найти у них на сайте в "разделе Открытые данные" и большая база данных это данные системы ФИАС доступные по адресу fias.nalog.ru

Читать дальше →

+12

@KirillGuzenko 22 июл 2015 в 14:50

Поиск по геному с помощью Wolfram Language (Mathematica) и HadoopLink

5 мин

7.6K

Блог компании Wolfram ResearchBig Data * Hadoop * Высоконагруженные системы * Программирование *

Перевод

Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать здесь.

Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.

Примечание переводчика: автор данной статьи под термином геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.

В моём предыдущем посте я описал, как писать алгоритмы MapReduce (вики) в Mathematica с помощью пакета HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм MapReduce.

Я уже писал раньше о некоторых занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем HadoopLink для создания геномной поисковой системы!

Читать дальше →

+17

@Lock_Stock 17 июл 2015 в 14:52

Сервис распознавания котов

5 мин

60K

Блог компании IBM BluemixBig Data * Python * Обработка изображений *

Туториал

Проблемой распознавания котов на изображениях нельзя пренебрегать. Как вариант, для её решения можно создать и обучить свой собственный классификатор, для чего потребуются десятки тысяч пушистых фотографий и несколько месяцев работы по подготовке набора данных и, собственно, само обучение. Жаль только, что готового классификатора, обученного именно на котов, на просторах сети найти не удалось.

Да и вообще, можно ли создать сервис, уверенно распознающий котов с учётом присущего последним стремления принять самую неожиданную позу? Давайте попробуем.

Читать дальше →

+91

@Alexandra_Varonis 17 июл 2015 в 11:04

Шесть способов надежно защитить свою организацию от внешних и внутренних угроз

4 мин

5K

Блог компании Varonis SystemsИнформационная безопасность * Big Data *

Recovery Mode

Перевод

Sony, OPM, а недавно еще и MLB. Кто-нибудь знает, как защититься от кражи данных? Предлагается множество идей, начиная с отказа от современных систем и заканчивая шифровкой всех данных. Но, к сожалению, они непрактичны и нереалистичны.
Вот что мы действительно знаем о кибератаках. Согласно последнему отчету компании Verizon о нарушениях безопасности компаниям требуются месяцы, чтобы обнаружить сам факт кражи данных. В другом отчете о защите данных от Ponemon Institute говорится, что 71 % сотрудников сообщают о наличии у них доступа к данным, к которым у них не должно быть доступа. Более того, только 22 % сотрудников утверждают, что их организации способны предоставить им информацию о том, что случилось с потерянными данными, файлами и электронными письмами.

Что же будет дальше? Мы обречены? Что нужно делать?

Читать дальше →

-1

@MagisterLudi 16 июл 2015 в 17:27

Palantir, мафия PayPal, спецслужбы, мировое правительство

8 мин

74K

Big Data * Информационная безопасность * Профессиональная литература *

«Лучший способ избавиться от дракона — это иметь своего собственного»

На Хабре нет ни одного упоминания о Palantir`е, в русской Википедии об этом проекте нет статьи, Mithgol молчит — что-то идет не так. Или так.

А между тем Palantir стала второй крупнейшей частной компанией Кремниевой Долины с оценкой в 20 000 000 000$ (уступив Uber). Среди прочих заслуг Palantir`а — раскрытие крупных китайских разведывательных операций Ghostnet и Shadow Network.

Журналист: — В «Википедии» говорится, что вы входите в управляющий комитет Бильдербергского клуба. Правда ли это, и если да, чем вы там занимаетесь? Организуете тайное мировое господство?

Питер Тиль: — Это правда, хотя все не до такой степени тайно или секретно, чтобы я не мог вам рассказать. Суть в том, что ведется хороший диалог между разными политическими, финансовыми, медиа- и бизнес-лидерами Америки и Западной Европы. Никакого заговора нет. И это проблема нашего общества. Нет секретного плана. У наших лидеров нет секретного плана, как решить все наши проблемы. Возможно, секретные планы – это и плохо, но гораздо возмутительнее, по-моему, отсутствие плана в принципе.

Приходится собирать информацию о Palantir`е по крохам. И такая жирная кроха прячется в книге Питера Тиля «От нуля к единице» (хотя в этой книге множество намеков и информации между строк, так же как в легендарном курсе и его переводе на Хабре, спасибо zag2art).

Питер Тиль: Цель, которую я ставил перед собой, читая стэнфордский курс о стартапах и предпринимательстве, заключалась в том, чтобы донести все те знания о бизнесе, которые я приобрел за последние 15 лет в Кремниевой долине как инвестор и предприниматель, собрать их воедино. С книгой то же самое.

Надеюсь, благодаря этой статье и комментам хабрачитателей, положение дел относительно Palantir`а станет чуточку яснее.
(Есть многомиллиардный рынок, связанный с аналитикой и ИБ, а мы ничего про него не знаем.)

Читать дальше →

+31

@ph_piter 16 июл 2015 в 14:12

Замечания о распределенных системах для начинающих

14 мин

32K

Блог компании Издательский дом «Питер»Big Data * Алгоритмы * Анализ и проектирование систем * Распределённые системы *

Перевод

Здравствуйте все!

Пришло время рассказать вам о еще одной книге, которая вызвала у нас неподдельный интерес и серьезные дебаты.

Мы предположили, что и в сфере изучения алгоритмов для распределенных систем краткость — сестра таланта, поэтому проработка книги Уона Фоккинка «Распределенные алгоритмы. Понятный подход» является перспективным и благодарным делом, пусть даже объем книги — всего 248 страниц.

Однако, чтобы участвовать в опросе было интереснее, мы для начала приглашаем вас под кат, где находится перевод интереснейшей статьи Джеффа Ходжеса, описывающей самые разнообразные проблемы, связанные с разработкой распределенных систем.

Читать дальше →

+16

@Badoo 16 июл 2015 в 12:51

Видео докладов с конференции «Российские интернет-технологии 2015»

1 мин

6.2K

Блог компании BadooBig Data * Веб-разработка *

Рады поделиться с вами видео докладов с конференции «РИТ++». Отдельным постом выложим видео и слайды с LoveQA митапа.

1.«Реалтайм статистика скорости работы нативных и веб-приложений у реальных пользователей», Павел dpp Довбуш (Badoo).
Рассказали как сделана статистика и аналитика скорости работы (UX) приложений Badoo (Web, Mobile-web, iOS, Android, Windows). Про общие концепции и примеры, что и как измерять. Про то, как собирать данные со 100% пользователей проекта и выдержать нагрузку.
А также о том, как из OpenSource решений собрать систему сбора и визуализации статистики для своего проекта.
Бонус: выложили наше «real user monitoring» решение Jinba в OpenSource.

Читать дальше →

+12

@itur 16 июл 2015 в 11:38

«Разрывая ETL барьеры с помощью Spark Streaming» от Concur. Отчет о встрече

4 мин

9.7K

Big Data * Анализ и проектирование систем *

Из песочницы

Посетил сегодня встечу на тему «Breaking ETL barrier with Spark Streaming and Real Time Txn Volume Forecasting» и решил записать путевые заметки. Заметки получились немного циничные, но, надеюсь, интересные.

Встреча была организована компанией Concur, которая в основном работает на корпоративных клиентов, предоставляя им набор финансово-«туристических» услуг. Материл был интересный, уровень — легкий, обзор будет короткий.

Вкратце, смысл в том, чтобы заменить ETL на такое же примерно количество процессов, которые читают транзакционные логи и посылают их через Kafka в Spark Streaming, где они могут быть «лучше обработаны и проанализированны», и дальше сложены в OLAP (как и раньше). То есть это, по сути ETL, но real time, а не пакетный, и более программируемый.

Подробности

+10

@XaocCPS 15 июл 2015 в 07:15

Cortana как публичный сервис аналитики и другие анонсы Microsoft World Partner Conference

4 мин

6.2K

Блог компании MicrosoftBig Data * Microsoft Azure * Машинное обучение *

На Международной партнерской конференции, которая проходит в Орландо (Флорида, США), Microsoft продемонстрировала новые решения, которые позволят строить «умное облако» совместно с партнерами и создавать персонализированные технологии для каждого бизнеса. Участники конференции также обсудили инвестиции Microsoft в международные партнерские программы, направленные на трансформацию ИТ-индустрии.

Рекорд скорости с Azure и Cortana Analytics Suite

Набор аналитических инструментов Cortana Analytics Suite

На конференции был анонсирован набор аналитических инструментов Cortana, которые помогут компаниям использовать данные, чтобы принимать важные бизнес-решения. Ранее они использовались как облачные сервисы в виртуальном помощнике Microsoft. Теперь же в набор были добавлены инструменты для работы с большими данными, аналитические функции и технологии машинного обучения.

Читать дальше →

+8

@VasilyCherny 14 июл 2015 в 16:19

Сентимент анализ текста

6 мин

25K

Блог компании Brand AnalyticsБлог компании PalitrumLabBig Data * Data Mining * Семантические сети *

Туториал

Сентимент-анализ информационных потоков имеет большой потенциал применения для мониторинговых, аналитических и сигнальных систем, для систем документооборота и рекламных платформ, таргетированных по тематике веб-страниц.

Данный материал знакомит с понятием сентимент-анализа, основными методами определения тональности и новыми подходами в этой области.

Читать дальше →

+5

1 2 ...

187

188 189 ...