Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

ph_piter 24 июл 2015 в 08:20

R и Python — достойные соперники?

7 мин

77K

Блог компании Издательский дом «Питер»Big Data*Python*R*

Перевод

Всем доброй пятницы, дорогие читатели!

В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?

Добро пожаловать под кат!

Читать дальше →

+12

ibegtin 24 июл 2015 в 07:01

Опрос: Какие данные открывать налоговой службе?

1 мин

12K

Блог компании «Информационная культура»Открытые данные*Big Data*

В качестве вступления, я немного повторю текст которым сопровождаю все опросы.

Вполне возможно что многие из Вас знают про Совет по открытым данным, это такая рабочая группа при Правительственной комиссии по открытости в которой обсуждают и рекомендуют правительству открывать данные. Я не только вхожу в эту рабочую группу, но и являюсь заместителем её председателя и считаю важным чтобы деятельность совета помогала тем кто понимает какие данные и в какой форме нужны от органов власти.

Поэтому на регулярной основе мы проводим опросы разработчиков о том как и что нужно от конкретного органа власти.

На сей раз пришла пора Федеральной Налоговой Службы. Ранее эксперты совета встречались с коллегами из ФНС России и обсуждали те данные которые считали наиболее приоритетными. Но, безусловно, важнее что об этом думают конечные потребители.

Для тех кто ранее не сталкивался с данными ФНС, их можно найти у них на сайте в "разделе Открытые данные" и большая база данных это данные системы ФИАС доступные по адресу fias.nalog.ru

Читать дальше →

+13

KirillGuzenko 22 июл 2015 в 14:50

Поиск по геному с помощью Wolfram Language (Mathematica) и HadoopLink

5 мин

7.5K

Блог компании Wolfram ResearchBig Data*Hadoop*Высоконагруженные системы*Программирование*

Перевод

Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать здесь.

Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.

Примечание переводчика: автор данной статьи под термином геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.

В моём предыдущем посте я описал, как писать алгоритмы MapReduce (вики) в Mathematica с помощью пакета HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм MapReduce.

Я уже писал раньше о некоторых занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем HadoopLink для создания геномной поисковой системы!

Читать дальше →

+18

Lock_Stock 17 июл 2015 в 14:52

Сервис распознавания котов

5 мин

59K

Блог компании IBM BluemixBig Data*Python*Обработка изображений*

Туториал

Проблемой распознавания котов на изображениях нельзя пренебрегать. Как вариант, для её решения можно создать и обучить свой собственный классификатор, для чего потребуются десятки тысяч пушистых фотографий и несколько месяцев работы по подготовке набора данных и, собственно, само обучение. Жаль только, что готового классификатора, обученного именно на котов, на просторах сети найти не удалось.

Да и вообще, можно ли создать сервис, уверенно распознающий котов с учётом присущего последним стремления принять самую неожиданную позу? Давайте попробуем.

Читать дальше →

+92

Alexandra_Varonis 17 июл 2015 в 11:04

Шесть способов надежно защитить свою организацию от внешних и внутренних угроз

4 мин

5K

Блог компании Varonis SystemsBig Data*Информационная безопасность*

Recovery Mode

Перевод

Sony, OPM, а недавно еще и MLB. Кто-нибудь знает, как защититься от кражи данных? Предлагается множество идей, начиная с отказа от современных систем и заканчивая шифровкой всех данных. Но, к сожалению, они непрактичны и нереалистичны.
Вот что мы действительно знаем о кибератаках. Согласно последнему отчету компании Verizon о нарушениях безопасности компаниям требуются месяцы, чтобы обнаружить сам факт кражи данных. В другом отчете о защите данных от Ponemon Institute говорится, что 71 % сотрудников сообщают о наличии у них доступа к данным, к которым у них не должно быть доступа. Более того, только 22 % сотрудников утверждают, что их организации способны предоставить им информацию о том, что случилось с потерянными данными, файлами и электронными письмами.

Что же будет дальше? Мы обречены? Что нужно делать?

Читать дальше →

0

MagisterLudi 16 июл 2015 в 17:27

Palantir, мафия PayPal, спецслужбы, мировое правительство

8 мин

72K

Профессиональная литература*Информационная безопасность*Big Data*

«Лучший способ избавиться от дракона — это иметь своего собственного»

На Хабре нет ни одного упоминания о Palantir`е, в русской Википедии об этом проекте нет статьи, Mithgol молчит — что-то идет не так. Или так.

А между тем Palantir стала второй крупнейшей частной компанией Кремниевой Долины с оценкой в 20 000 000 000$ (уступив Uber). Среди прочих заслуг Palantir`а — раскрытие крупных китайских разведывательных операций Ghostnet и Shadow Network.

Журналист: — В «Википедии» говорится, что вы входите в управляющий комитет Бильдербергского клуба. Правда ли это, и если да, чем вы там занимаетесь? Организуете тайное мировое господство?

Питер Тиль: — Это правда, хотя все не до такой степени тайно или секретно, чтобы я не мог вам рассказать. Суть в том, что ведется хороший диалог между разными политическими, финансовыми, медиа- и бизнес-лидерами Америки и Западной Европы. Никакого заговора нет. И это проблема нашего общества. Нет секретного плана. У наших лидеров нет секретного плана, как решить все наши проблемы. Возможно, секретные планы – это и плохо, но гораздо возмутительнее, по-моему, отсутствие плана в принципе.

Приходится собирать информацию о Palantir`е по крохам. И такая жирная кроха прячется в книге Питера Тиля «От нуля к единице» (хотя в этой книге множество намеков и информации между строк, так же как в легендарном курсе и его переводе на Хабре, спасибо zag2art).

Питер Тиль: Цель, которую я ставил перед собой, читая стэнфордский курс о стартапах и предпринимательстве, заключалась в том, чтобы донести все те знания о бизнесе, которые я приобрел за последние 15 лет в Кремниевой долине как инвестор и предприниматель, собрать их воедино. С книгой то же самое.

Надеюсь, благодаря этой статье и комментам хабрачитателей, положение дел относительно Palantir`а станет чуточку яснее.
(Есть многомиллиардный рынок, связанный с аналитикой и ИБ, а мы ничего про него не знаем.)

Читать дальше →

+32

ph_piter 16 июл 2015 в 14:12

Замечания о распределенных системах для начинающих

14 мин

31K

Блог компании Издательский дом «Питер»Big Data*Алгоритмы*Анализ и проектирование систем*Распределённые системы*

Перевод

Здравствуйте все!

Пришло время рассказать вам о еще одной книге, которая вызвала у нас неподдельный интерес и серьезные дебаты.

Мы предположили, что и в сфере изучения алгоритмов для распределенных систем краткость — сестра таланта, поэтому проработка книги Уона Фоккинка «Распределенные алгоритмы. Понятный подход» является перспективным и благодарным делом, пусть даже объем книги — всего 248 страниц.

Однако, чтобы участвовать в опросе было интереснее, мы для начала приглашаем вас под кат, где находится перевод интереснейшей статьи Джеффа Ходжеса, описывающей самые разнообразные проблемы, связанные с разработкой распределенных систем.

Читать дальше →

+17

Badoo 16 июл 2015 в 12:51

Видео докладов с конференции «Российские интернет-технологии 2015»

1 мин

6.2K

Блог компании BadooBig Data*Веб-разработка*

Рады поделиться с вами видео докладов с конференции «РИТ++». Отдельным постом выложим видео и слайды с LoveQA митапа.

1.«Реалтайм статистика скорости работы нативных и веб-приложений у реальных пользователей», Павел dpp Довбуш (Badoo).
Рассказали как сделана статистика и аналитика скорости работы (UX) приложений Badoo (Web, Mobile-web, iOS, Android, Windows). Про общие концепции и примеры, что и как измерять. Про то, как собирать данные со 100% пользователей проекта и выдержать нагрузку.
А также о том, как из OpenSource решений собрать систему сбора и визуализации статистики для своего проекта.
Бонус: выложили наше «real user monitoring» решение Jinba в OpenSource.

Читать дальше →

+13

itur 16 июл 2015 в 11:38

«Разрывая ETL барьеры с помощью Spark Streaming» от Concur. Отчет о встрече

4 мин

9.6K

Big Data*Анализ и проектирование систем*

Из песочницы

Посетил сегодня встечу на тему «Breaking ETL barrier with Spark Streaming and Real Time Txn Volume Forecasting» и решил записать путевые заметки. Заметки получились немного циничные, но, надеюсь, интересные.

Встреча была организована компанией Concur, которая в основном работает на корпоративных клиентов, предоставляя им набор финансово-«туристических» услуг. Материл был интересный, уровень — легкий, обзор будет короткий.

Вкратце, смысл в том, чтобы заменить ETL на такое же примерно количество процессов, которые читают транзакционные логи и посылают их через Kafka в Spark Streaming, где они могут быть «лучше обработаны и проанализированны», и дальше сложены в OLAP (как и раньше). То есть это, по сути ETL, но real time, а не пакетный, и более программируемый.

Подробности

+11

XaocCPS 15 июл 2015 в 07:15

Cortana как публичный сервис аналитики и другие анонсы Microsoft World Partner Conference

4 мин

6.1K

Блог компании MicrosoftBig Data*Microsoft Azure*Машинное обучение*

На Международной партнерской конференции, которая проходит в Орландо (Флорида, США), Microsoft продемонстрировала новые решения, которые позволят строить «умное облако» совместно с партнерами и создавать персонализированные технологии для каждого бизнеса. Участники конференции также обсудили инвестиции Microsoft в международные партнерские программы, направленные на трансформацию ИТ-индустрии.

Рекорд скорости с Azure и Cortana Analytics Suite

Набор аналитических инструментов Cortana Analytics Suite

На конференции был анонсирован набор аналитических инструментов Cortana, которые помогут компаниям использовать данные, чтобы принимать важные бизнес-решения. Ранее они использовались как облачные сервисы в виртуальном помощнике Microsoft. Теперь же в набор были добавлены инструменты для работы с большими данными, аналитические функции и технологии машинного обучения.

Читать дальше →

+9

VasilyCherny 14 июл 2015 в 16:19

Сентимент анализ текста

6 мин

24K

Блог компании Brand AnalyticsБлог компании PalitrumLabBig Data*Data Mining*Семантические сети*

Туториал

Сентимент-анализ информационных потоков имеет большой потенциал применения для мониторинговых, аналитических и сигнальных систем, для систем документооборота и рекламных платформ, таргетированных по тематике веб-страниц.

Данный материал знакомит с понятием сентимент-анализа, основными методами определения тональности и новыми подходами в этой области.

Читать дальше →

+6

Wargaming 14 июл 2015 в 10:26

DataTalks #3: онлайн-опросы

3 мин

3.8K

Блог компании ex-WargamingBig Data*Открытые данные*

23 июля состоится третья встреча сообщества DataTalks.

В этот раз речь пойдет о том, как правильно собирать данные при помощи онлайн-опросов. Мы обсудим возможности и ограничения этого метода, а также поделимся секретами и трендами из сферы исследований предпочтений пользователей.
Секретами проведения и обработки результатов онлайн-опросов поделятся представители компаний Wargaming, «Студия Сорокина и Кулинкович», а также заместитель декана по науке НИУ ВШЭ.

Подробную программу вы найдете под катом.

Читать дальше →

+5

caveeagle 13 июл 2015 в 11:00

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

3 мин

20K

Big Data*Data Mining*R*Информационная безопасность*

В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.

Читать дальше →

+14

armiol 13 июл 2015 в 09:42

Реал-тайм процессинг данных в AWS Cloud. Часть 2

5 мин

4.6K

Amazon Web Services*Big Data*Анализ и проектирование систем*Высоконагруженные системы*

В первой части статьи мы описали одну из задач, с которой мы столкнулись при работе над публичным сервисом для хранения и анализа результатов биологических исследований. Были рассмотрены требования, предоставленные заказчиком, и несколько возможных вариантов имплементации на основе существующих продуктов.

Сегодня речь пойдет о решении, которое было воплощено.

Читать дальше →

+6

armiol 9 июл 2015 в 11:40

Реал-тайм процессинг данных в AWS Cloud. Часть 1

5 мин

5.5K

Высоконагруженные системы*Анализ и проектирование систем*Big Data*Amazon Web Services*

Всем привет!

Сегодня хочется рассказать об одной из типичных задач в области Cloud Computing и Big Data и подходе к ее решению, найденному нами в TeamDev.

Мы столкнулись с проблематикой BigData при разработке публичного сервиса для одной из компаний, занимающихся хранением и анализом результатов биологических исследований. Целью заказчика на очередном этапе стала визуализиция в реальном времени определенных срезов таких данных.

Попробуем формализировать задачу.

Читать дальше →

+5

marks 9 июл 2015 в 07:49

Watson отправился на Уимблдон

3 мин

6K

Блог компании IBMBig Data*

Большой теннис, возможно, не такой зрелищный, как футбол (хотя с этим можно поспорить), но у этого спорта — миллионы поклонников. Соревнования профессионалов по большому теннису всегда привлекали болельщиков. Ну, а лучшие из лучших могут помериться силами на турнире Большого шлема — двухнедельном чемпионате, который уже начался.

Несмотря на то, что общие правила проведения чемпионата – традиция и не меняются, сейчас в игре задействовано множество современных технологий: «облака», аналитика, мобильные и социальные технологии, а также информационная безопасность. При этом кто-то должен вести и учет результатов, а также анализировать все происходящее на кортах. Этим и занимаются когнитивная система Watson и платформа InfoSphere Streams.

Читать дальше →

+5

ilena 7 июл 2015 в 13:09

Бесплатная летняя школа по HPC в научных и инженерных задачах — заявки принимаются до 24 июля

2 мин

5K

Блог компании Innopolis UniversityBig Data*Высоконагруженные системы*

С 17 по 24 августа в Университете Иннополис пройдет Шестая Летняя Школа по высокопроизводительным вычислениям. Соорганизатором мероприятия выступит МФТИ. Школу поддерживает Российский фонд фундаментальных исследований. В рамках мероприятия будут прочитаны обзорные лекции по актуальным проблемам механики деформируемых сред, а также их приложениям к инженерным задачам.

Список лекторов и лекций под катом:

Читать дальше →

+4

alexanderkuk 7 июл 2015 в 12:30

Анализ звонков в колл-центры

3 мин

7.2K

Яндекс API*Data Mining*Big Data*

Для проверки технологии я записал несколько обращений в разные колл-центры. Дальше они будут фигурировать под кодовыми названиями: water, mosenergo, rigla, transaero и worldclass.

Первым делом нужно разбить запись на реплики...

+1

Alvaro 7 июл 2015 в 05:55

DSP на .Net под Windows. Джедайской Силы Пост

5 мин

12K

Блог компании Targetix.NET*Big Data*C#*

Всем привет!
В первой статье мы рассказали о нашей инфраструктуре в целом. Теперь пришло время сосредоточиться на конкретных продуктах. В этой статье речь пойдёт о DSP. Как многие знают, DSP (Demand Side Platform) — автоматизированная система покупки рекламы. Требования к системе жёсткие: она должна держать высокую нагрузку (тысячи запросов в секунду), быстро отвечать (до 50 мс, а то и меньше) и, самое главное, выбирать максимально подходящие объявления. Чаще всего такие проекты разрабатываются под Linux, мы же смогли создать по-настоящему высокопроизводительный сервис под Windows Server. Как этого добиться, и как это удалось нам? Об этом я и расскажу.

Читать дальше →

+8

ser0t0nin 2 июл 2015 в 15:09

Иерархическая классификация сайтов на Python

8 мин

27K

Блог компании DCA (Data-Centric Alliance)Big Data*Python*Машинное обучение*

Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.

Получив таким образом более тысячи сегментов, мы поняли, что этот процесс нужно максимально автоматизировать и упростить, при этом иметь возможность мониторинга качества алгоритмов и предоставить аналитикам удобный интерфейс для работы с новым инструментом. Под катом я расскажу, как мы решаем эти задачи.

Читать дальше →

+36

1 2 ...

176

177 178 ...