Pull to refresh
  • by relevance
  • by date
  • by rating

Глава InfoWatch Наталья Касперская: большие данные россиян должны принадлежать государству

Information Security *


Глава компании InfoWatch Наталья Касперская в своей беседе с ТАСС заявила, что по ее мнению большие данные россиян должны быть признаны собственностью государства.

«Мое мнение, что эти данные должны являться собственностью государства, потому что пользователи этими данными не обладают. Пользователь отпустил их в информационное пространство, и утекло все, что он там написал. Значит, это не их принадлежность», — приводит слова Касперской информационное агентство.
Читать дальше →
Total votes 35: ↑31 and ↓4 +27
Views 24K
Comments 140

Вебинар «Современные базы данных для аналитики: почему DWH лучше строить в облаке?» 18 июня от Mail.ru Group

VK corporate blog PostgreSQL *Cloud computing *Database Administration *Big Data *


Привет, друзья.

Хайп вокруг Big Data давно прошёл. Но потребность компаний в отказоустойчивой инфраструктуре для хранения и обработки больших данных стала даже острее. 18 июня мы приглашаем вас принять участие в вебинаре, на котором расскажем про аналитическую СУБД Arenadata DB на основе Greenplum.

Вы узнаете:

  • Как устроен Greenplum и для каких задач лучше использовать эту современную массивно-параллельную, изначально кластерную СУБД
  • Преимущества Greenplum в облаке по сравнению с BareMetal
  • Какие бизнес-задачи можно решать с помощью DWH, в основе которого лежит Greenplum
  • Как настроить и запустить Arenadata DB Cloud на базе Greenplum в облаке Mail.ru Group за пару минут

На вебинаре мы ответим на эти вопросы и расскажем про возможности Arenadata DB, которая теперь доступна в облаке Mail.ru Cloud Solutions

Вебинар пройдет 18 июня (четверг) в 17:00.

Регистрация обязательна, ссылка для подключения будет отправлена сразу после ее прохождения.
Подробнее о вебинаре
Total votes 11: ↑10 and ↓1 +9
Views 1.4K
Comments 1

«Большие данные: не хайп, а индустрия». Митап 1 марта

Southbridge corporate blog IT Infrastructure *Data Mining *Big Data *Data Engineering *


Приглашаем на митап «Большие данные: не хайп, а индустрия» в понедельник 1 марта. Спикеры из ITSumma и Слёрма представят доклады о Big Data, ответят на вопросы участников. Будем говорить о том, как получать и обрабатывать большие данные, какие выгоды и инсайты сможет получить бизнес при правильной работе с данными и какая обработка данных принесёт вред компании.

Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 846
Comments 0

Data-driven митап

X5 Group corporate blog Data Mining *Big Data *Development for e-commerce *Data Engineering *

X5 выходит на тропу митапов. 2 апреля приходите на онлайн #meetupХ5 по data-driven подходу в наших проектах. Обещаем – все только самое интересное и эксклюзивное от самых главных спецов Big Data X5. С соблюдением дистанции, но с широким виртуальным охватом спикеры Х5 не только поговорят о последних разработках Х5, но и ответят на ваши вопросы.

Читать далее
Total votes 4: ↑3 and ↓1 +2
Views 741
Comments 0

Mail.ru Group открыла новый набор на бесплатное обучение в Академию больших данных MADE

VK corporate blog Big Data *Studying in IT

За полтора года студенты Академии MADE смогут бесплатно освоить одну из востребованных специальностей – дата-аналитика, дата-инженера или специалиста по машинному обучению. Заявки принимаются по 31 июля на сайте Академии больших данных MADE.

Программа Академии больших данных MADE рассчитана на ИТ-специалистов с опытом от одного до трех лет, которые хотят построить карьеру в области работы с большими данными. Студенты Академии будут не только изучать теорию, но и решать реальные задачи из практики Mail.ru Group. Они научатся создавать модели машинного обучения для высоконагруженных сервисов, осуществлять прикладной анализ данных, обработку больших данных и естественного языка, работать с компьютерным зрением и распознаванием речи — и многому другому. 

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 1.2K
Comments 1

Оффер за 2 дня в X5: для Data Analyst/Data Scientist

X5 Group corporate blog Python *Data Mining *Big Data *Data Engineering *

Если ваш конёк — работа с большими данными, приглашаем на Weekend Offer в X5 Group. 

Мы сокращаем дистанцию до двух дней: 6-го июня интервью, 7-го июня оффер.

Откликнуться можно тут https://your.gms.tech/v/v6xoYc1w?tg=apply&s=tg

Читать далее
Total votes 9: ↑4 and ↓5 -1
Views 2.7K
Comments 0

X5 Технологии заплатят 1.000.000 руб. «джавистам»

Java *Personnel Management *
Recovery mode

Компания «X5 Group» проведет собственный ИТ-чемпионата среди профессионалов по Java-разработке. Финалистов ждет призовой фонд в 1.000.000 рублей, а также возможность получить предложение о работе от крупнейшего ретейлера России. ИТ-чемпионат пройдет 14 августа на технологической платформе All Cups.

Чемпионат для Java-разработчиков станет первым этапом турнира из серии DevMasters. Принять участие в нем смогут специалисты, знакомые с Java, Big Data и программным обеспечением логистики и ретейла. Команда «X5 Технологии» активно применяет продуктовый подход к разработке, практики CI/CD и DevOps, облачную инфраструктуру, модульное и интеграционное тестирование, поэтому участников ждут интересные прикладные задачи.  

Для участия в отборочном раунде разработчикам необходимо зарегистрироваться на платформе All Cups. Программа сформирует уникальный набор задач под каждого участника, а результаты заданий проверит независимая система оценки и в режиме онлайн сформирует личный рейтинг. 

По итогам чемпионата победители разделят призовой фонд 1.000.000 рублей и получат персональные предложения о работе в ИТ-команде «X5 Group». Компания планирует реализовать первый в истории массовый проект ИТ-рекрутинга и создать самое масштабное коммьюнити программистов в России.

Подробнее
Total votes 18: ↑5 and ↓13 -8
Views 7.1K
Comments 13

Прямые эфиры со спикерами из Data Science

МегаФон corporate blog Big Data *Machine learning *History of IT Data Engineering *

Привет!

На связи Team Leads МегаФона Big Data Ваня Горбань и Артём Глазунов. Мы решили провести серию voice chats со спикерами из DS-сообщества, а потом эти записи смонтировать в выпуски подкаста «Данные люди».

Это будут эфиры про данные и людей, которые с ними работают. Их истории и деятельность, как они к этому пришли и куда идут. В каждом выпуске приглашаем известных в сообществе Data Science и за его пределами и просто очень интересных людей поговорить об анализе данных.

Все voice chats будут проходить в тг-канале @bigdatapeople.

​Ближайшее расписание эфиров:

18 августа — Алексей Драль (Founder & CEO BigData Team)

24 августа — Рубен Ениколопов, (PhD, Ректор Российской Экономической Школы)

2 сентября — Юрий Кашницкий (Senior ML Scientist @ Elsevier, к.т.н., лидер открытого курса по машинному обучению mlcourse.ai)

Подслушать
Total votes 4: ↑3 and ↓1 +2
Views 420
Comments 0

Проект Mozilla Common Voice добавил 16 языков и 4,6 тыс. часов речи

Open source *Big Data *

В результате сбора данных база проекта была пополнена 16 новыми языками, в том числе казахским, баса, армянским, белорусским, урду и гуарани. Большее количество часов было отдано английскому (2600), руанде (2260) и немецкому (1040).

Проект Common Voice нацелен на накопление базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи можно использовать без ограничений в системах машинного обучения и в исследовательских проектах.

Читать далее
Total votes 12: ↑12 and ↓0 +12
Views 1.3K
Comments 1

В EPAM стартует Java Hiring Week

EPAM corporate blog IT career

Компания EPAM приглашает Java-разработчиков Middle+ принять участие в Java Hiring Week. Одна из причин принять участие в мероприятии — вам не нужно долго ждать решения. В течение 48 часов после интервью вам будет сделан оффер. Если вы примете его в течение суток, то получите бонус в размере одного оклада.

Кроме того, 27 сентября в 11:00 пройдёт Projects Webinar. Приглашение придёт вам после регистрации.

Читать далее
Total votes 6: ↑3 and ↓3 0
Views 1.7K
Comments 0

Microsoft выпустила математическую библиотеку, оптимизированную для работы в Облаке: Cloud Numerics

Microsoft corporate blog
На этой неделе Microsoft анонсировала выпуск нового продукта для Azure и платформы .Net — Microsoft Codename “Cloud Numerics” Lab. Это математическая библиотека способная параллельно обрабатывать большие объемы данных в облаке. Она также позволяет масштабировать вычислительные модели, реализованные на C# для Windows Azure.

Выпуск этой библиотеки явился плодом труда нескольких лет серьезной работы специалистов в области параллельных вычислений и вычислительной математики. Значительная часть этих работ была выполнена Российским подразделением Microsoft.

Эта библиотека предоставляет легкую в использовании модель программирования скрывающую сложность разработки распределенных алгоритмов, доступ к .NET библиотеке численных алгоритмов состоящих из широкого набора функций. От элементарных, до сложных статистических и функций линейной алгебры. Cloud Numerics также дает возможность запускать программы в Azure и получать доступ к неограниченным вычислительным мощностям в облаке.

Читать дальше →
Total votes 41: ↑33 and ↓8 +25
Views 7.8K
Comments 5

MapReduce 2.0. Какой он современный цифровой слон?

Big Data *Concurrent computing *


Если ты ИТшник, то нельзя просто так взять и выйти на работу 2-го января: пересмотреть 3-ий сезон битвы экстрасенсов или запись программы «Гордон» на НТВ (дело умственных способностей вкуса).
Нельзя потому, что у других сотрудников обязательно будут для тебя подарки: у секретарши закончился кофе, у МП — закончились дедлайны, а у администратора баз данных — амнезия память.
Оказалось, что инженеры из команды Hadoop тоже любят побаловать друг друга новогодними сюрпризами.

2008


2 января. Упуская подробное описание эмоционально-психологического состояния лиц, участвующих в описанных ниже событиях, сразу перейду к факту: поставлен таск MAPREDUCE-279 «Map-Reduce 2.0». Оставив шутки про число, обращу внимание, что до 1-ой стабильной версии Hadoop остается чуть менее 4 лет.

За это время проект Hadoop пройдет эволюцию из маленького инновационного снежка, запущенного в 2005, в большой снежный com ком, надвигающийся на ИТ, в 2012.
Ниже мы предпримем попытку разобраться, какое же значение январский таск MAPREDUCE-279 играл (и, уверен, еще сыграет в 2013) в эволюции платформы Hadoop.
...
Total votes 39: ↑33 and ↓6 +27
Views 25K
Comments 11

Изучаем Storm Framework. Часть I

Java *Concurrent computing *
Tutorial
В 2011 году Twitter открыл, под лицензией Eclipse Public License, проект распределенных вычислений Storm. Storm был создан в компании BackType и перешел к Twitter после покупки.

Storm это система ориентированная на распределенную обработку больших потоков данных, аналогичная Apache Hadoop, но в реальном времени.

Ключевые особенности Storm:
  • Масштабируемость. Задачи обработки распределяются по узлам кластера и потокам на каждом узле.
  • Гарантированная защита от потери данных.
  • Простота развертывания и спровождения.
  • Восстановление после сбоев. Если какой либо из обработчиков отказывает, задачи переадресуются на другие обработчики.
  • Возможность написания компонентов не только на Java. Простой Multilang protocol с использованием JSON объектов. Есть готовые адаптеры для языков Python, Ruby и Fancy.

В первой части рассматриваются базовые понятия и основы создания приложения c использованием Storm версии 0.8.2.
Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Views 35K
Comments 10

Изучаем Storm Framework. Часть II

Java *Concurrent computing *
Tutorial
В первой части рассматривались базовые понятия Storm.

Разные классы задач предъявляют различные требования к надежности. Одно дело пропустить пару записей при подсчете статистики посещений, где счет идет на сотни тысяч и особая точность не нужна. И совсем другое — потерять, например, информацию о платеже клиента.

Далее рассмотрим о механизмы защиты от потери данных, которые реализованы в Storm.
Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Views 12K
Comments 5

Изучаем Storm Framework. Часть III

Java *Concurrent computing *
Tutorial
Во второй части статьи рассказывалось о механизмах обнаружения ошибок в процессе обработки.

Обработка завершилась с ошибкой, что делать дальше? Вполне возможно, что потеряна связь с одним из узлов кластера или временно недоступна база данных. В этом случае, нельзя с уверенностью сказать, какие операции выполнились успешно, а какие — нет. Если все операции в цепочке повторно применимы (идемпотентны), например установка флага, то можно просто перезапустить обработку. Если нет, то на помощь приходят механизмы транзакций Storm.
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 8K
Comments 2

Искусственный интеллект и Почему мой компьютер меня не понимает?

Artificial Intelligence
Translation


Гектор Левекwiki утверждает, что его компьютер тупой. И ваш тоже. Siri и голосовой поиск Google умеют понимать заготовленные предложения. Например «Какие фильмы будут показывать неподалёку в 7 часов?» Но что насчёт вопроса «Может ли аллигатор пробежать стометровку с барьерами?» Такой вопрос никто раньше не задавал. Но любой взрослый может найти ответ на него (Нет. Аллигаторы не могут участвовать в беге с барьерами). Но если вы попытаетесь ввести этот вопрос в Google, то получите тонны информации о спортивной команде по лёгкой атлетике Florida Gators. Другие поисковые системы, такие как Wolfram Alpha, тоже не способны найти ответ на поставленный вопрос. Watson, компьютерная система выигравшая викторину «Jeopardy!», вряд ли покажет себя лучше.
Читать дальше →
Total votes 94: ↑87 and ↓7 +80
Views 84K
Comments 146

Архитектура BigData-инфраструктуры сервиса Pandorama и защита ее данных от сбоев

Veeam Software corporate blog System administration *Virtualization *Data recovery *Backup *

Если мантра Google звучит как “поиск всей информации в мире одним кликом”, то мантра молодого российского проекта Pandorama идет дальше: “найдем без клика всю интересную вам информацию”.



Приложение Pandorama предлагает своим пользователям “бесконечную” персонализированную ленту новостей, составленную на основе их личных информационных предпочтений, не требуя при этом от читателя работы с “тегами”, “категориями” или “лайками” друзей. Сначала нужно ответить на пару вопросов про несколько забавных панд, а потом нужно просто… читать предлагаемую ленту. Те новости, которые вы прочитали, будут автоматически анализироваться и обрабатываться системой, с тем, чтобы в дальнейшем такого рода новостей в ленте становилось все больше, а тех новостей, которые не вызвали у вас интереса – все меньше.



Pandorama

Pandorama уже объединяет более 40 тыс. пользователей по всему миру, и это число постоянно растет. В данной статье рассматривается BigData-инфраструктура этого проекта, функционирующая в режиме 24x7, механизмы обеспечения ее отказоустойчивости, и защита ее данных от сбоев, построенная с использованием Veeam Backup & Replication Cloud Edition.


Читать дальше →
Total votes 24: ↑21 and ↓3 +18
Views 9.9K
Comments 25

HBase, загрузка больших массивов данных через bulk load

Java *Big Data *Hadoop *
Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать дальше →
Total votes 10: ↑9 and ↓1 +8
Views 9.9K
Comments 5

ETL-процесс с использованием веб-сервисов в Integration Services 2012

Data Mining *Microsoft SQL Server *Big Data *
Tutorial

Запасаем впрок


Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.

ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).

SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.

Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.

Итак, рассмотрим тестовую задачу.

Задача



Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать дальше →
Total votes 6: ↑5 and ↓1 +4
Views 16K
Comments 3