Как стать автором
Обновить

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Блог компании Alconost Big Data *GitHub *


Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 5.2K
Комментарии 0

Вы не увидите эту рекламу в Instagram, потому что Facebook обиделся

Мессенджеры *Алгоритмы *Интернет-маркетинг *Медийная реклама *Будущее здесь

Такие компании, как Facebook, создают технологии не для вас, а для ваших данных. Они "пылесосят" все, что могут, из FB, Instagram и WhatsApp, чтобы сделать жизнь людей абсолютно прозрачной.

Конечно, это далеко уже не секрет, но большинство до сих пор не осознает масштабов происходящего. Ведь главные нюансы таятся в сложных и скрытых алгоритмах или же текстах, написанных мелким шрифтом, которые каждый второй тупо скроллит. То, как сегодня все устроено в интернете, показалось бы нам недопустимым в реальной жизни, проведи мы понятные аналогии. Но в виртуальном мире все продолжает работать "на ура", ничего не кажется нам абсурдным, ведь все скрыто.

Тем не менее, обнародовать то, что должно оставаться тайным, способны и собственные алгоритмы Facebook. Отголоски такого “палева” прослеживаются в рекламе, которую вы видите. Мы решили использовать те же самые инструменты и показать каждому, как работает большинство технологий. Для этого мы попытались купить рекламу в Instagram.

Доступ запрещен

Мы создали многовариантную таргетированную рекламу, которая должна была продемонстрировать пользователям, какие персональные данные о них собирает и продает Facebook. В объявлении генерировалась и отображалась информация о зрителе, которую использует рекламная платформа. Facebook был не в курсе нашей задумки.

Читать далее
Всего голосов 63: ↑58 и ↓5 +53
Просмотры 10K
Комментарии 3

Новый выпуск «Скринкастов» вместе с MADE: много Python'а

Блог компании VK Python *Программирование *Алгоритмы *

«Скринкасты» — короткие видеоролики по 15—20 минут, в которых мы вместе с разработчиками Mail.ru Group обсуждаем современные технологии. В новом выпуске мы познакомимся с Григорием Шовкоплясом, преподавателем дисциплины «Алгоритмы и структуры данных» в Академии больших данных MADE. Он расскажет, как решить задачу динамического программирования о наибольшей общей подпоследовательности так, чтобы написать код с первого раза.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 1.2K
Комментарии 0

Прими участие в data-хакатоне Future Skills на Архипелаге

Блог компании Университет 20.35

Быстрые изменения в отраслях экономики и в технологиях могут вызвать существенные изменения на рынках труда в ближайшие годы. Бизнес во всём мире может столкнуться с рисками, вызванными недостатком квалифицированных кадров. Университеты, не понимая реальные потребности рынка, могут ошибаться в объёме и качестве подготовки кадров и люди вынуждены заниматься переобучением и переподготовкой, не видя реальных потребностей.

1-2 июля 2021 г. ждем тебя на data-хакатоне Архипелага 2121, где предложим решить задачу по прогнозированию профессий будущего. Задача поставлена вузами, регионами России и Сингапуром в рамках международного конкурса цифровых решений Агентства стратегических инициатив – World AI&Data Challenge

Регистрация на data-хакатон

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 314
Комментарии 3

Вебинар «The A-Z of Data: Introduction to MLOps»

Python *Big Data *Машинное обучение *DevOps *Искусственный интеллект

Привет, друзья!

Команда Data Phoenix Events приглашает всех, 17 августа в 19:00, на первый вебинар из серии "The A-Z of Data", который будет посвящен MLOps. В рамках вводного вебинара "The A-Z of Data: Introduction to MLOps", мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Заинтригованы? Дальше ещё круче! Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 725
Комментарии 0

Citymobil Data Meetup

Блог компании Ситимобил Big Data *Data Engineering *

Ситимобил запускает митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.

Вместе с коллегами из Циан и Яндекс GO обсудим обработку геоданных, проведение экспериментов в продуктах, где пользователи могут быть объединены сетевым эффектом и многое другое.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 627
Комментарии 0

Citymobil Data Meetup #2

Блог компании Ситимобил Big Data *Data Engineering *

На митапе мы рассмотрим задачи оптимального планирования маршрутов, диспетчеризации и прогнозирования времени в пути с разных сторон. Поговорим о том, как применяются модели машинного обучения и динамическое программирование для решения этих задач, обсудим влияние внешних факторов. Таких, например, как пробки. А также поймём, как строить жизненный цикл подобных Data Science-решений, чтобы можно было эффективно их масштабировать и развивать под нагрузкой. В гости к Ситимобил придут коллеги из Optimate AI и Яндекс.Маршрутизации.

Ждём вас 12 августа в 18:00.  Регистрация

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 399
Комментарии 0

EPAM приглашает на Data и DevOps Hiring Weeks

Блог компании EPAM DevOps *Data Engineering *

EPAM приглашает Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks. Мероприятие пройдёт с 6 по 20 декабря. Регистрация уже открыта! 

Читать далее
Всего голосов 8: ↑4 и ↓4 0
Просмотры 2.2K
Комментарии 3

Интенсив для повышения квалификации: как использовать Python для анализа данных

Блог компании Нетология Python *Big Data *

14 декабря в Нетологии пройдёт вебинар, посвященный анализу данных и тому, как использовать Python для работы с данными. Это вводное занятие для специалистов, которые хотят расширить знания: аналитиков, продакт-менеджеров или разработчиков, которые изучали другие языки программирования.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 1.9K
Комментарии 0

Вырастили салат в Нидерландах, не выходя из дома: российская команда вице-чемпион международного агротех-турнира

Блог компании Россельхозбанк Big Data *Научно-популярное Искусственный интеллект Data Engineering *

Российская объединенная команда Россельхозбанка, МФТИ и РГАУ-МСХА заняла второе место в финале международного сельскохозяйственного конкурса Autonomous Greenhouse Challenge, организованного Нидерландским Университетом WUR (Wageningen University & Research), опередив участников из Китая, Южной Кореи и стран Европы.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 941
Комментарии 0

Windows — разбиваем один диск на два: ось и данные

Чулан
Доброго времени суток, уважаемые. Хочу разбить свой диск на три
Айн — для ОС
Цвай — для прграмм
Драй — для данных
Это сделано для того чтобы можно было без проблемм переустановить операционку.
Внимание вопрос: а стоит ли создавать отдельный диск для программ если их тоже придется переустановить вместе с виндой?
Или можно сделать так чтобы они заработали с новой виндой? И если диска будет два то сколько надо под винду с прогами? А если три? Спасибо за ответы.
Всего голосов 21: ↑3 и ↓18 -15
Просмотры 275
Комментарии 20

Визуализируем данные на JavaScript

JavaScript *
Перевод

Развитие компьютерной графики подталкивает нас к изобретению всё новых способов графического представления данных. Разрабатывались различные прикладные программы для визуализации данных на локальных компьютерах. Однако всё изменилось с развитием интернета: в нём содержатся колоссальные объёмы информации, которые нам постоянно хочется представить как-то удобнее, дружелюбнее, понятнее. Что же мы имеем на сегодняшний день?

Существует немалое число серверных библиотек и утилит, способных генерировать сложные графики. Однако я считаю, что такой подход не всегда оптимален. Если мы можем производить визуализацию на стороне клиента с помощью JavaScript, то почему бы нам не воспользоваться такой возможностью? Логика работы подобной связки проста: сервер генерирует данные, а клиент их визуализирует.

Разумеется, вы можете воспользоваться Flash, Silverlight или Java-апплетами, однако в этом обзоре я хотел бы вам показать библиотеки визуализации, написанные на чистом JavaScript.

Читать дальше →
Всего голосов 74: ↑72 и ↓2 +70
Просмотры 4.2K
Комментарии 27

Megaupload сохранит файлы еще на 2 недели

Копирайт
Данные на Megaupload не будут стерты еще как минимум 2 недели.

До этого говорилось что активы сайта были заморожены и не было возможности оплатить хостинг. В связи с этим 2 февраля должно было произойти удаление всех файлов с серверов для предоставления серверов других клиентам хостинга.

Хостинговая компания Carpathia любезно предоставила дополнительное время на какие-либо договоренности с правительством.

Власти сделали резервные копии некоторых из данных, которые должны быть использованы в качестве доказательств, но не все. Удаление всех данных на Megaupload затронет пользователей, которые воспользовались услугой для законных целей.

Хостинговая компания Carpathia сообщает, что они не могут вернуть пользователям их файлы. «Carpathia не имеет и никогда не имела доступа к данным на серверах Megaupload и не имеет механизма для возврата файлов, расположенных на их серверах.»
Carpathia просит всех не писать им по этому поводу т.к. ничего поделать они не могут

Будем надеяться что власти найдут решение, чтобы дать пользователям возможность извлечь свои данные, пока такая возможность еще есть.
Всего голосов 15: ↑10 и ↓5 +5
Просмотры 368
Комментарии 2

Строим карту популярности дней рождения с помощью Processing и VK API

ВКонтакте API *Processing *
Из песочницы

Вступление


Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.



Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.



Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.



То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.



Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.

Читать дальше →
Всего голосов 23: ↑18 и ↓5 +13
Просмотры 16K
Комментарии 22

Alibaba запускает производительный и энергоэффективный дата-центр

Блог компании ua-hosting.company


Компания AliCloud, подразделение китайской корпорации Alibaba, занимающееся облачными сервисами, объявила о намерении запустить в работу «зеленый» дата-центр AliCloud Qiandao Lake Data Center. Это уже восьмой дата-центр компании, и его назначение — расширить возможности сервисов Alibaba, обеспечивая нормальную их работу. Дата-центр было решено построить из-за роста количества новых пользователей и развития общей инфраструктуры Alibaba.

Интересно, что объект будет расположен на берегу озера Цяньдаоху, провинция Чжэцян, Китай. Озеро это искусственное, образовалось еще в 1959 году после строительства местной гидроэлектростанции. На озере расположено 1078 островов из-за чего оно получило такое название. Общая площадь озера равна 573 км², объём — 17,8 км³. Общая площадь островов составляет около 86 км². Цяньдаоху — туристическая достопримечательность, но теперь здесь будет и технологический объект, на который стоит посмотреть — это AliCloud Qiandao Lake Data Center.
Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 9.6K
Комментарии 4

Инфраструктура Amazon Web Services изнутри. Часть 1

Блог компании ua-hosting.company

Ряды серверов внутри дата-центра Amazon

После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.

С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центре, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.

Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Просмотры 21K
Комментарии 5

Инфраструктура Amazon Web Services изнутри. Часть 2

Блог компании ua-hosting.company Amazon Web Services *


У компании Amazon, а точнее, у ее облачного подразделения AWS — одна из наиболее быстро развивающихся, развернутых и совершенных инфраструктур. Как мы уже писали, не так давно компания открыла некоторые свои секреты, касающиеся принципов организации работы этой инфраструктуры. Во второй части — информация о том, где размещаются дата-центры, каким образом все это связано в одну систему, и как работает.

Сейчас в распоряжении Amazon Web Services — минимум 30 дата-центров, причем руководство планирует построить дополнительно 10 или 15 новых. Большинство дата-центров размещаются в северной Вирджинии, здесь за работу AWS отвечает примерно 20 дата-центров, общей мощностью примерно в 500 МВт. Но география инфраструктуры дата-центров AWS не ограничена только лишь Вирджинией. Сейчас три крупных кампуса ДЦ строится в Огайо, плюс облачные дата-центры работают еще в Ирландии, Бразилии, Китае, Японии, Австралии и Сингапуре.
Читать дальше →
Всего голосов 18: ↑13 и ↓5 +8
Просмотры 16K
Комментарии 4

Отправляемся в «Дата-центр»

Управление проектами *
image

В сторону хостинг-провайдера российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто – это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.6K
Комментарии 3

Big Data головного мозга

Big Data *Hadoop *

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.


image
Демонстрация Hadoop пользователям

Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Просмотры 89K
Комментарии 73