Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Блог компании Alconost Big Data *GitHub


Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 5.2K
Комментарии 0

Вы не увидите эту рекламу в Instagram, потому что Facebook обиделся

Мессенджеры *Алгоритмы *Интернет-маркетинг Медийная реклама Будущее здесь

Такие компании, как Facebook, создают технологии не для вас, а для ваших данных. Они "пылесосят" все, что могут, из FB, Instagram и WhatsApp, чтобы сделать жизнь людей абсолютно прозрачной.

Конечно, это далеко уже не секрет, но большинство до сих пор не осознает масштабов происходящего. Ведь главные нюансы таятся в сложных и скрытых алгоритмах или же текстах, написанных мелким шрифтом, которые каждый второй тупо скроллит. То, как сегодня все устроено в интернете, показалось бы нам недопустимым в реальной жизни, проведи мы понятные аналогии. Но в виртуальном мире все продолжает работать "на ура", ничего не кажется нам абсурдным, ведь все скрыто.

Тем не менее, обнародовать то, что должно оставаться тайным, способны и собственные алгоритмы Facebook. Отголоски такого “палева” прослеживаются в рекламе, которую вы видите. Мы решили использовать те же самые инструменты и показать каждому, как работает большинство технологий. Для этого мы попытались купить рекламу в Instagram.

Доступ запрещен

Мы создали многовариантную таргетированную рекламу, которая должна была продемонстрировать пользователям, какие персональные данные о них собирает и продает Facebook. В объявлении генерировалась и отображалась информация о зрителе, которую использует рекламная платформа. Facebook был не в курсе нашей задумки.

Читать далее
Всего голосов 63: ↑58 и ↓5 +53
Просмотры 10K
Комментарии 3

Новый выпуск «Скринкастов» вместе с MADE: много Python'а

Блог компании VK Python *Программирование *Алгоритмы *

«Скринкасты» — короткие видеоролики по 15—20 минут, в которых мы вместе с разработчиками Mail.ru Group обсуждаем современные технологии. В новом выпуске мы познакомимся с Григорием Шовкоплясом, преподавателем дисциплины «Алгоритмы и структуры данных» в Академии больших данных MADE. Он расскажет, как решить задачу динамического программирования о наибольшей общей подпоследовательности так, чтобы написать код с первого раза.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 1.1K
Комментарии 0

Прими участие в data-хакатоне Future Skills на Архипелаге

Блог компании Университет 20.35

Быстрые изменения в отраслях экономики и в технологиях могут вызвать существенные изменения на рынках труда в ближайшие годы. Бизнес во всём мире может столкнуться с рисками, вызванными недостатком квалифицированных кадров. Университеты, не понимая реальные потребности рынка, могут ошибаться в объёме и качестве подготовки кадров и люди вынуждены заниматься переобучением и переподготовкой, не видя реальных потребностей.

1-2 июля 2021 г. ждем тебя на data-хакатоне Архипелага 2121, где предложим решить задачу по прогнозированию профессий будущего. Задача поставлена вузами, регионами России и Сингапуром в рамках международного конкурса цифровых решений Агентства стратегических инициатив – World AI&Data Challenge

Регистрация на data-хакатон

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 286
Комментарии 3

Вебинар «The A-Z of Data: Introduction to MLOps»

Python *Big Data *Машинное обучение *DevOps *Искусственный интеллект

Привет, друзья!

Команда Data Phoenix Events приглашает всех, 17 августа в 19:00, на первый вебинар из серии "The A-Z of Data", который будет посвящен MLOps. В рамках вводного вебинара "The A-Z of Data: Introduction to MLOps", мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Заинтригованы? Дальше ещё круче! Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 492
Комментарии 0

Citymobil Data Meetup

Блог компании Ситимобил Big Data *Data Engineering *

Ситимобил запускает митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.

Вместе с коллегами из Циан и Яндекс GO обсудим обработку геоданных, проведение экспериментов в продуктах, где пользователи могут быть объединены сетевым эффектом и многое другое.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 364
Комментарии 0

Citymobil Data Meetup #2

Блог компании Ситимобил Big Data *Data Engineering *

На митапе мы рассмотрим задачи оптимального планирования маршрутов, диспетчеризации и прогнозирования времени в пути с разных сторон. Поговорим о том, как применяются модели машинного обучения и динамическое программирование для решения этих задач, обсудим влияние внешних факторов. Таких, например, как пробки. А также поймём, как строить жизненный цикл подобных Data Science-решений, чтобы можно было эффективно их масштабировать и развивать под нагрузкой. В гости к Ситимобил придут коллеги из Optimate AI и Яндекс.Маршрутизации.

Ждём вас 12 августа в 18:00.  Регистрация

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 190
Комментарии 0

Windows — разбиваем один диск на два: ось и данные

Чулан
Доброго времени суток, уважаемые. Хочу разбить свой диск на три
Айн — для ОС
Цвай — для прграмм
Драй — для данных
Это сделано для того чтобы можно было без проблемм переустановить операционку.
Внимание вопрос: а стоит ли создавать отдельный диск для программ если их тоже придется переустановить вместе с виндой?
Или можно сделать так чтобы они заработали с новой виндой? И если диска будет два то сколько надо под винду с прогами? А если три? Спасибо за ответы.
Всего голосов 21: ↑3 и ↓18 -15
Просмотры 233
Комментарии 20

Визуализируем данные на JavaScript

JavaScript *
Перевод

Развитие компьютерной графики подталкивает нас к изобретению всё новых способов графического представления данных. Разрабатывались различные прикладные программы для визуализации данных на локальных компьютерах. Однако всё изменилось с развитием интернета: в нём содержатся колоссальные объёмы информации, которые нам постоянно хочется представить как-то удобнее, дружелюбнее, понятнее. Что же мы имеем на сегодняшний день?

Существует немалое число серверных библиотек и утилит, способных генерировать сложные графики. Однако я считаю, что такой подход не всегда оптимален. Если мы можем производить визуализацию на стороне клиента с помощью JavaScript, то почему бы нам не воспользоваться такой возможностью? Логика работы подобной связки проста: сервер генерирует данные, а клиент их визуализирует.

Разумеется, вы можете воспользоваться Flash, Silverlight или Java-апплетами, однако в этом обзоре я хотел бы вам показать библиотеки визуализации, написанные на чистом JavaScript.

Читать дальше →
Всего голосов 74: ↑72 и ↓2 +70
Просмотры 4.1K
Комментарии 27

Megaupload сохранит файлы еще на 2 недели

Копирайт
Данные на Megaupload не будут стерты еще как минимум 2 недели.

До этого говорилось что активы сайта были заморожены и не было возможности оплатить хостинг. В связи с этим 2 февраля должно было произойти удаление всех файлов с серверов для предоставления серверов других клиентам хостинга.

Хостинговая компания Carpathia любезно предоставила дополнительное время на какие-либо договоренности с правительством.

Власти сделали резервные копии некоторых из данных, которые должны быть использованы в качестве доказательств, но не все. Удаление всех данных на Megaupload затронет пользователей, которые воспользовались услугой для законных целей.

Хостинговая компания Carpathia сообщает, что они не могут вернуть пользователям их файлы. «Carpathia не имеет и никогда не имела доступа к данным на серверах Megaupload и не имеет механизма для возврата файлов, расположенных на их серверах.»
Carpathia просит всех не писать им по этому поводу т.к. ничего поделать они не могут

Будем надеяться что власти найдут решение, чтобы дать пользователям возможность извлечь свои данные, пока такая возможность еще есть.
Всего голосов 15: ↑10 и ↓5 +5
Просмотры 368
Комментарии 2

Строим карту популярности дней рождения с помощью Processing и VK API

ВКонтакте API *Processing *
Из песочницы

Вступление


Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.



Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.



Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.



То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.



Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.

Читать дальше →
Всего голосов 23: ↑18 и ↓5 +13
Просмотры 15K
Комментарии 22

Alibaba запускает производительный и энергоэффективный дата-центр

Блог компании ua-hosting.company


Компания AliCloud, подразделение китайской корпорации Alibaba, занимающееся облачными сервисами, объявила о намерении запустить в работу «зеленый» дата-центр AliCloud Qiandao Lake Data Center. Это уже восьмой дата-центр компании, и его назначение — расширить возможности сервисов Alibaba, обеспечивая нормальную их работу. Дата-центр было решено построить из-за роста количества новых пользователей и развития общей инфраструктуры Alibaba.

Интересно, что объект будет расположен на берегу озера Цяньдаоху, провинция Чжэцян, Китай. Озеро это искусственное, образовалось еще в 1959 году после строительства местной гидроэлектростанции. На озере расположено 1078 островов из-за чего оно получило такое название. Общая площадь озера равна 573 км², объём — 17,8 км³. Общая площадь островов составляет около 86 км². Цяньдаоху — туристическая достопримечательность, но теперь здесь будет и технологический объект, на который стоит посмотреть — это AliCloud Qiandao Lake Data Center.
Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 9.4K
Комментарии 4

Инфраструктура Amazon Web Services изнутри. Часть 1

Блог компании ua-hosting.company

Ряды серверов внутри дата-центра Amazon

После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.

С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центре, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.

Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры 20K
Комментарии 5

Инфраструктура Amazon Web Services изнутри. Часть 2

Блог компании ua-hosting.company Amazon Web Services *


У компании Amazon, а точнее, у ее облачного подразделения AWS — одна из наиболее быстро развивающихся, развернутых и совершенных инфраструктур. Как мы уже писали, не так давно компания открыла некоторые свои секреты, касающиеся принципов организации работы этой инфраструктуры. Во второй части — информация о том, где размещаются дата-центры, каким образом все это связано в одну систему, и как работает.

Сейчас в распоряжении Amazon Web Services — минимум 30 дата-центров, причем руководство планирует построить дополнительно 10 или 15 новых. Большинство дата-центров размещаются в северной Вирджинии, здесь за работу AWS отвечает примерно 20 дата-центров, общей мощностью примерно в 500 МВт. Но география инфраструктуры дата-центров AWS не ограничена только лишь Вирджинией. Сейчас три крупных кампуса ДЦ строится в Огайо, плюс облачные дата-центры работают еще в Ирландии, Бразилии, Китае, Японии, Австралии и Сингапуре.
Читать дальше →
Всего голосов 18: ↑13 и ↓5 +8
Просмотры 16K
Комментарии 4

Отправляемся в «Дата-центр»

Управление проектами *
image

В сторону хостинг-провайдера российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто – это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.5K
Комментарии 3

Big Data головного мозга

Big Data *Hadoop *

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.


image
Демонстрация Hadoop пользователям

Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Просмотры 86K
Комментарии 73

Онлайн-программа по анализу данных на Stepik.org

Блог компании Stepik.org Учебный процесс в IT
Осень 2016 года выдастся насыщенной: СПбАУ РАН не только перезапустит на Stepik.org уже во второй раз, но и даст старт новой онлайн-программе профессиональной переподготовки, на этот раз в сотрудничестве с Институтом биоинформатики, и посвящена она будет работе с данными.

Программа начнётся в октябре'16 и будет проходить без дедлайнов, поэтому присоединиться к ней можно в любой момент, а на обучение потратить именно столько времени, сколько позволяет ритм жизни: совсем необязательно не спать ночами и совмещать непростую работу с не менее сложной учебой.


Больше подробностей
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 19K
Комментарии 23

Генерация фиктивных данных с Mimesis: Часть I

Python *Django *
Из песочницы
image

Mimesis — это библиотека для языка программирования Python, которая помогает генерировать фиктивные данные для различных целей. Библиотека написана с использованием средств, включенных в стандартную библиотеку языка Python, потому не имеет никаких сторонних зависимостей. На данный момент библиотека поддерживает 30 языковых стандартов (в числе которых и русский) и более 20 классов-провайдеров, предоставляющих разного рода данные.


Возможность генерировать фиктивные, но в то же время валидные данные бывает очень полезна при разработке приложений, которые подразумевают работу с базой данных. Ручное заполнение базы данных представляется довольно затратным по времени и трудоемким процессом, который выполняется как минимум в 3 этапа — это:


  1. Сбор необходимой информации.
  2. Постобработка собранных данных.
  3. Программирования генераторов данных.

Эта непростая задача по-настоящему усложняется в тот момент, когда требуется сгенерировать не 10-15 пользователей, а 100-150 тысяч пользователей (или иного рода данные). В этой и двух последующих статьях мы постараемся обратить ваше внимание на инструмент, который в разы упрощает процесс генерации тестовых данных, начальной загрузки базы данных и тестирования в целом.

Читать дальше →
Всего голосов 46: ↑45 и ↓1 +44
Просмотры 28K
Комментарии 40

Восхождение дата-инженера

Блог компании Inoventica Services Администрирование баз данных *Хранение данных *Хранилища данных *Data Engineering *
Перевод
image

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?


Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Просмотры 16K
Комментарии 3