Как стать автором
Обновить
70.09

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

R и Python — достойные соперники?

Время на прочтение7 мин
Количество просмотров77K


Всем доброй пятницы, дорогие читатели!

В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?

Добро пожаловать под кат!
Читать дальше →

Опрос: Какие данные открывать налоговой службе?

Время на прочтение1 мин
Количество просмотров12K
В качестве вступления, я немного повторю текст которым сопровождаю все опросы.

Вполне возможно что многие из Вас знают про Совет по открытым данным, это такая рабочая группа при Правительственной комиссии по открытости в которой обсуждают и рекомендуют правительству открывать данные. Я не только вхожу в эту рабочую группу, но и являюсь заместителем её председателя и считаю важным чтобы деятельность совета помогала тем кто понимает какие данные и в какой форме нужны от органов власти.

Поэтому на регулярной основе мы проводим опросы разработчиков о том как и что нужно от конкретного органа власти.



На сей раз пришла пора Федеральной Налоговой Службы. Ранее эксперты совета встречались с коллегами из ФНС России и обсуждали те данные которые считали наиболее приоритетными. Но, безусловно, важнее что об этом думают конечные потребители.

Для тех кто ранее не сталкивался с данными ФНС, их можно найти у них на сайте в "разделе Открытые данные" и большая база данных это данные системы ФИАС доступные по адресу fias.nalog.ru

Читать дальше →

Поиск по геному с помощью Wolfram Language (Mathematica) и HadoopLink

Время на прочтение5 мин
Количество просмотров7.5K

Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать здесь.
Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.
Примечание переводчика: автор данной статьи под термином геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.
В моём предыдущем посте я описал, как писать алгоритмы MapReduce (вики) в Mathematica с помощью пакета HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм MapReduce.

Я уже писал раньше о некоторых занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем HadoopLink для создания геномной поисковой системы!
Читать дальше →

Сервис распознавания котов

Время на прочтение5 мин
Количество просмотров59K
Проблемой распознавания котов на изображениях нельзя пренебрегать. Как вариант, для её решения можно создать и обучить свой собственный классификатор, для чего потребуются десятки тысяч пушистых фотографий и несколько месяцев работы по подготовке набора данных и, собственно, само обучение. Жаль только, что готового классификатора, обученного именно на котов, на просторах сети найти не удалось.

Да и вообще, можно ли создать сервис, уверенно распознающий котов с учётом присущего последним стремления принять самую неожиданную позу? Давайте попробуем.


Читать дальше →

Шесть способов надежно защитить свою организацию от внешних и внутренних угроз

Время на прочтение4 мин
Количество просмотров5K
Sony, OPM, а недавно еще и MLB. Кто-нибудь знает, как защититься от кражи данных? Предлагается множество идей, начиная с отказа от современных систем и заканчивая шифровкой всех данных. Но, к сожалению, они непрактичны и нереалистичны.
Вот что мы действительно знаем о кибератаках. Согласно последнему отчету компании Verizon о нарушениях безопасности компаниям требуются месяцы, чтобы обнаружить сам факт кражи данных. В другом отчете о защите данных от Ponemon Institute говорится, что 71 % сотрудников сообщают о наличии у них доступа к данным, к которым у них не должно быть доступа. Более того, только 22 % сотрудников утверждают, что их организации способны предоставить им информацию о том, что случилось с потерянными данными, файлами и электронными письмами.

Что же будет дальше? Мы обречены? Что нужно делать?
Читать дальше →

Palantir, мафия PayPal, спецслужбы, мировое правительство

Время на прочтение8 мин
Количество просмотров72K
«Лучший способ избавиться от дракона — это иметь своего собственного»



На Хабре нет ни одного упоминания о Palantir`е, в русской Википедии об этом проекте нет статьи, Mithgol молчит — что-то идет не так. Или так.

А между тем Palantir стала второй крупнейшей частной компанией Кремниевой Долины с оценкой в 20 000 000 000$ (уступив Uber). Среди прочих заслуг Palantir`а — раскрытие крупных китайских разведывательных операций Ghostnet и Shadow Network.
Журналист: — В «Википедии» говорится, что вы входите в управляющий комитет Бильдербергского клуба. Правда ли это, и если да, чем вы там занимаетесь? Организуете тайное мировое господство?

Питер Тиль: — Это правда, хотя все не до такой степени тайно или секретно, чтобы я не мог вам рассказать. Суть в том, что ведется хороший диалог между разными политическими, финансовыми, медиа- и бизнес-лидерами Америки и Западной Европы. Никакого заговора нет. И это проблема нашего общества. Нет секретного плана. У наших лидеров нет секретного плана, как решить все наши проблемы. Возможно, секретные планы – это и плохо, но гораздо возмутительнее, по-моему, отсутствие плана в принципе.

Приходится собирать информацию о Palantir`е по крохам. И такая жирная кроха прячется в книге Питера Тиля «От нуля к единице» (хотя в этой книге множество намеков и информации между строк, так же как в легендарном курсе и его переводе на Хабре, спасибо zag2art).

Питер Тиль: Цель, которую я ставил перед собой, читая стэнфордский курс о стартапах и предпринимательстве, заключалась в том, чтобы донести все те знания о бизнесе, которые я приобрел за последние 15 лет в Кремниевой долине как инвестор и предприниматель, собрать их воедино. С книгой то же самое.

Надеюсь, благодаря этой статье и комментам хабрачитателей, положение дел относительно Palantir`а станет чуточку яснее.
(Есть многомиллиардный рынок, связанный с аналитикой и ИБ, а мы ничего про него не знаем.)
Читать дальше →

Замечания о распределенных системах для начинающих

Время на прочтение14 мин
Количество просмотров31K
Здравствуйте все!

Пришло время рассказать вам о еще одной книге, которая вызвала у нас неподдельный интерес и серьезные дебаты.

Мы предположили, что и в сфере изучения алгоритмов для распределенных систем краткость — сестра таланта, поэтому проработка книги Уона Фоккинка «Распределенные алгоритмы. Понятный подход» является перспективным и благодарным делом, пусть даже объем книги — всего 248 страниц.



Однако, чтобы участвовать в опросе было интереснее, мы для начала приглашаем вас под кат, где находится перевод интереснейшей статьи Джеффа Ходжеса, описывающей самые разнообразные проблемы, связанные с разработкой распределенных систем.
Читать дальше →

Видео докладов с конференции «Российские интернет-технологии 2015»

Время на прочтение1 мин
Количество просмотров6.2K
Рады поделиться с вами видео докладов с конференции «РИТ++». Отдельным постом выложим видео и слайды с LoveQA митапа.

1.«Реалтайм статистика скорости работы нативных и веб-приложений у реальных пользователей», Павел dpp Довбуш (Badoo).
Рассказали как сделана статистика и аналитика скорости работы (UX) приложений Badoo (Web, Mobile-web, iOS, Android, Windows). Про общие концепции и примеры, что и как измерять. Про то, как собирать данные со 100% пользователей проекта и выдержать нагрузку.
А также о том, как из OpenSource решений собрать систему сбора и визуализации статистики для своего проекта.
Бонус: выложили наше «real user monitoring» решение Jinba в OpenSource.


Читать дальше →

«Разрывая ETL барьеры с помощью Spark Streaming» от Concur. Отчет о встрече

Время на прочтение4 мин
Количество просмотров9.6K
Посетил сегодня встечу на тему «Breaking ETL barrier with Spark Streaming and Real Time Txn Volume Forecasting» и решил записать путевые заметки. Заметки получились немного циничные, но, надеюсь, интересные.



Встреча была организована компанией Concur, которая в основном работает на корпоративных клиентов, предоставляя им набор финансово-«туристических» услуг. Материл был интересный, уровень — легкий, обзор будет короткий.

Вкратце, смысл в том, чтобы заменить ETL на такое же примерно количество процессов, которые читают транзакционные логи и посылают их через Kafka в Spark Streaming, где они могут быть «лучше обработаны и проанализированны», и дальше сложены в OLAP (как и раньше). То есть это, по сути ETL, но real time, а не пакетный, и более программируемый.
Подробности

Cortana как публичный сервис аналитики и другие анонсы Microsoft World Partner Conference

Время на прочтение4 мин
Количество просмотров6.1K
На Международной партнерской конференции, которая проходит в Орландо (Флорида, США), Microsoft продемонстрировала новые решения, которые позволят строить «умное облако» совместно с партнерами и создавать персонализированные технологии для каждого бизнеса. Участники конференции также обсудили инвестиции Microsoft в международные партнерские программы, направленные на трансформацию ИТ-индустрии. 

Рекорд скорости с Azure и Cortana Analytics Suite



Набор аналитических инструментов Cortana Analytics Suite

На конференции был анонсирован набор аналитических инструментов Cortana, которые помогут компаниям использовать данные, чтобы принимать важные бизнес-решения. Ранее они использовались как облачные сервисы в виртуальном помощнике Microsoft. Теперь же в набор были добавлены инструменты для работы с  большими данными, аналитические функции и технологии машинного обучения.
Читать дальше →

Сентимент анализ текста

Время на прочтение6 мин
Количество просмотров24K
Сентимент-анализ информационных потоков имеет большой потенциал применения для мониторинговых, аналитических и сигнальных систем, для систем документооборота и рекламных платформ, таргетированных по тематике веб-страниц.

Данный материал знакомит с понятием сентимент-анализа, основными методами определения тональности и новыми подходами в этой области.


Читать дальше →

DataTalks #3: онлайн-опросы

Время на прочтение3 мин
Количество просмотров3.8K
23 июля состоится третья встреча сообщества DataTalks.

В этот раз речь пойдет о том, как правильно собирать данные при помощи онлайн-опросов. Мы обсудим возможности и ограничения этого метода, а также поделимся секретами и трендами из сферы исследований предпочтений пользователей.
Секретами проведения и обработки результатов онлайн-опросов поделятся представители компаний Wargaming, «Студия Сорокина и Кулинкович», а также заместитель декана по науке НИУ ВШЭ.

Подробную программу вы найдете под катом.


Читать дальше →

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

Время на прочтение3 мин
Количество просмотров20K
В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.


Читать дальше →

Ближайшие события

Реал-тайм процессинг данных в AWS Cloud. Часть 2

Время на прочтение5 мин
Количество просмотров4.6K
В первой части статьи мы описали одну из задач, с которой мы столкнулись при работе над публичным сервисом для хранения и анализа результатов биологических исследований. Были рассмотрены требования, предоставленные заказчиком, и несколько возможных вариантов имплементации на основе существующих продуктов.

image

Сегодня речь пойдет о решении, которое было воплощено.
Читать дальше →

Реал-тайм процессинг данных в AWS Cloud. Часть 1

Время на прочтение5 мин
Количество просмотров5.5K
Всем привет!

Сегодня хочется рассказать об одной из типичных задач в области Cloud Computing и Big Data и подходе к ее решению, найденному нами в TeamDev.

image

Мы столкнулись с проблематикой BigData при разработке публичного сервиса для одной из компаний, занимающихся хранением и анализом результатов биологических исследований. Целью заказчика на очередном этапе стала визуализиция в реальном времени определенных срезов таких данных.

Попробуем формализировать задачу.

Читать дальше →

Watson отправился на Уимблдон

Время на прочтение3 мин
Количество просмотров6K


Большой теннис, возможно, не такой зрелищный, как футбол (хотя с этим можно поспорить), но у этого спорта — миллионы поклонников. Соревнования профессионалов по большому теннису всегда привлекали болельщиков. Ну, а лучшие из лучших могут помериться силами на турнире Большого шлема — двухнедельном чемпионате, который уже начался.

Несмотря на то, что общие правила проведения чемпионата – традиция и не меняются, сейчас в игре задействовано множество современных технологий: «облака», аналитика, мобильные и социальные технологии, а также информационная безопасность. При этом кто-то должен вести и учет результатов, а также анализировать все происходящее на кортах. Этим и занимаются когнитивная система Watson и платформа InfoSphere Streams.
Читать дальше →

Бесплатная летняя школа по HPC в научных и инженерных задачах — заявки принимаются до 24 июля

Время на прочтение2 мин
Количество просмотров5K
С 17 по 24 августа в Университете Иннополис пройдет Шестая Летняя Школа по высокопроизводительным вычислениям. Соорганизатором мероприятия выступит МФТИ. Школу поддерживает Российский фонд фундаментальных исследований. В рамках мероприятия будут прочитаны обзорные лекции по актуальным проблемам механики деформируемых сред, а также их приложениям к инженерным задачам.

Список лекторов и лекций под катом:


Читать дальше →

Анализ звонков в колл-центры

Время на прочтение3 мин
Количество просмотров7.2K
Для проверки технологии я записал несколько обращений в разные колл-центры. Дальше они будут фигурировать под кодовыми названиями: water, mosenergo, rigla, transaero и worldclass.


Первым делом нужно разбить запись на реплики...

DSP на .Net под Windows. Джедайской Силы Пост

Время на прочтение5 мин
Количество просмотров12K
Всем привет!
В первой статье мы рассказали о нашей инфраструктуре в целом. Теперь пришло время сосредоточиться на конкретных продуктах. В этой статье речь пойдёт о DSP. Как многие знают, DSP (Demand Side Platform) — автоматизированная система покупки рекламы. Требования к системе жёсткие: она должна держать высокую нагрузку (тысячи запросов в секунду), быстро отвечать (до 50 мс, а то и меньше) и, самое главное, выбирать максимально подходящие объявления. Чаще всего такие проекты разрабатываются под Linux, мы же смогли создать по-настоящему высокопроизводительный сервис под Windows Server. Как этого добиться, и как это удалось нам? Об этом я и расскажу.

image
Читать дальше →

Иерархическая классификация сайтов на Python

Время на прочтение8 мин
Количество просмотров27K
Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.
logo
Получив таким образом более тысячи сегментов, мы поняли, что этот процесс нужно максимально автоматизировать и упростить, при этом иметь возможность мониторинга качества алгоритмов и предоставить аналитикам удобный интерфейс для работы с новым инструментом. Под катом я расскажу, как мы решаем эти задачи.
Читать дальше →

Вклад авторов