Pull to refresh
  • by relevance
  • by date
  • by rating

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Alconost corporate blog Big Data *GitHub


Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 5.2K
Comments 0

Вы не увидите эту рекламу в Instagram, потому что Facebook обиделся

Instant Messaging *Algorithms *Internet marketing Display advertising The future is here

Такие компании, как Facebook, создают технологии не для вас, а для ваших данных. Они "пылесосят" все, что могут, из FB, Instagram и WhatsApp, чтобы сделать жизнь людей абсолютно прозрачной.

Конечно, это далеко уже не секрет, но большинство до сих пор не осознает масштабов происходящего. Ведь главные нюансы таятся в сложных и скрытых алгоритмах или же текстах, написанных мелким шрифтом, которые каждый второй тупо скроллит. То, как сегодня все устроено в интернете, показалось бы нам недопустимым в реальной жизни, проведи мы понятные аналогии. Но в виртуальном мире все продолжает работать "на ура", ничего не кажется нам абсурдным, ведь все скрыто.

Тем не менее, обнародовать то, что должно оставаться тайным, способны и собственные алгоритмы Facebook. Отголоски такого “палева” прослеживаются в рекламе, которую вы видите. Мы решили использовать те же самые инструменты и показать каждому, как работает большинство технологий. Для этого мы попытались купить рекламу в Instagram.

Доступ запрещен

Мы создали многовариантную таргетированную рекламу, которая должна была продемонстрировать пользователям, какие персональные данные о них собирает и продает Facebook. В объявлении генерировалась и отображалась информация о зрителе, которую использует рекламная платформа. Facebook был не в курсе нашей задумки.

Читать далее
Total votes 63: ↑58 and ↓5 +53
Views 10K
Comments 3

Новый выпуск «Скринкастов» вместе с MADE: много Python'а

VK corporate blog Python *Programming *Algorithms *

«Скринкасты» — короткие видеоролики по 15—20 минут, в которых мы вместе с разработчиками Mail.ru Group обсуждаем современные технологии. В новом выпуске мы познакомимся с Григорием Шовкоплясом, преподавателем дисциплины «Алгоритмы и структуры данных» в Академии больших данных MADE. Он расскажет, как решить задачу динамического программирования о наибольшей общей подпоследовательности так, чтобы написать код с первого раза.

Читать далее
Total votes 9: ↑9 and ↓0 +9
Views 1.1K
Comments 0

Прими участие в data-хакатоне Future Skills на Архипелаге

Университет 20.35 corporate blog

Быстрые изменения в отраслях экономики и в технологиях могут вызвать существенные изменения на рынках труда в ближайшие годы. Бизнес во всём мире может столкнуться с рисками, вызванными недостатком квалифицированных кадров. Университеты, не понимая реальные потребности рынка, могут ошибаться в объёме и качестве подготовки кадров и люди вынуждены заниматься переобучением и переподготовкой, не видя реальных потребностей.

1-2 июля 2021 г. ждем тебя на data-хакатоне Архипелага 2121, где предложим решить задачу по прогнозированию профессий будущего. Задача поставлена вузами, регионами России и Сингапуром в рамках международного конкурса цифровых решений Агентства стратегических инициатив – World AI&Data Challenge

Регистрация на data-хакатон

Читать далее
Total votes 4: ↑3 and ↓1 +2
Views 303
Comments 3

Вебинар «The A-Z of Data: Introduction to MLOps»

Python *Big Data *Machine learning *DevOps *Artificial Intelligence

Привет, друзья!

Команда Data Phoenix Events приглашает всех, 17 августа в 19:00, на первый вебинар из серии "The A-Z of Data", который будет посвящен MLOps. В рамках вводного вебинара "The A-Z of Data: Introduction to MLOps", мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Заинтригованы? Дальше ещё круче! Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Views 562
Comments 0

Citymobil Data Meetup

Ситимобил corporate blog Big Data *Data Engineering *

Ситимобил запускает митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.

Вместе с коллегами из Циан и Яндекс GO обсудим обработку геоданных, проведение экспериментов в продуктах, где пользователи могут быть объединены сетевым эффектом и многое другое.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 468
Comments 0

Citymobil Data Meetup #2

Ситимобил corporate blog Big Data *Data Engineering *

На митапе мы рассмотрим задачи оптимального планирования маршрутов, диспетчеризации и прогнозирования времени в пути с разных сторон. Поговорим о том, как применяются модели машинного обучения и динамическое программирование для решения этих задач, обсудим влияние внешних факторов. Таких, например, как пробки. А также поймём, как строить жизненный цикл подобных Data Science-решений, чтобы можно было эффективно их масштабировать и развивать под нагрузкой. В гости к Ситимобил придут коллеги из Optimate AI и Яндекс.Маршрутизации.

Ждём вас 12 августа в 18:00.  Регистрация

Читать далее
Total votes 8: ↑7 and ↓1 +6
Views 275
Comments 0

EPAM приглашает на Data и DevOps Hiring Weeks

EPAM corporate blog DevOps *Data Engineering *

EPAM приглашает Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks. Мероприятие пройдёт с 6 по 20 декабря. Регистрация уже открыта! 

Читать далее
Total votes 8: ↑4 and ↓4 0
Views 2K
Comments 3

Интенсив для повышения квалификации: как использовать Python для анализа данных

Нетология corporate blog Python *Big Data *

14 декабря в Нетологии пройдёт вебинар, посвященный анализу данных и тому, как использовать Python для работы с данными. Это вводное занятие для специалистов, которые хотят расширить знания: аналитиков, продакт-менеджеров или разработчиков, которые изучали другие языки программирования.

Читать далее
Total votes 6: ↑5 and ↓1 +4
Views 791
Comments 0

Windows — разбиваем один диск на два: ось и данные

Lumber room
Доброго времени суток, уважаемые. Хочу разбить свой диск на три
Айн — для ОС
Цвай — для прграмм
Драй — для данных
Это сделано для того чтобы можно было без проблемм переустановить операционку.
Внимание вопрос: а стоит ли создавать отдельный диск для программ если их тоже придется переустановить вместе с виндой?
Или можно сделать так чтобы они заработали с новой виндой? И если диска будет два то сколько надо под винду с прогами? А если три? Спасибо за ответы.
Total votes 21: ↑3 and ↓18 -15
Views 244
Comments 20

Визуализируем данные на JavaScript

JavaScript *
Translation

Развитие компьютерной графики подталкивает нас к изобретению всё новых способов графического представления данных. Разрабатывались различные прикладные программы для визуализации данных на локальных компьютерах. Однако всё изменилось с развитием интернета: в нём содержатся колоссальные объёмы информации, которые нам постоянно хочется представить как-то удобнее, дружелюбнее, понятнее. Что же мы имеем на сегодняшний день?

Существует немалое число серверных библиотек и утилит, способных генерировать сложные графики. Однако я считаю, что такой подход не всегда оптимален. Если мы можем производить визуализацию на стороне клиента с помощью JavaScript, то почему бы нам не воспользоваться такой возможностью? Логика работы подобной связки проста: сервер генерирует данные, а клиент их визуализирует.

Разумеется, вы можете воспользоваться Flash, Silverlight или Java-апплетами, однако в этом обзоре я хотел бы вам показать библиотеки визуализации, написанные на чистом JavaScript.

Читать дальше →
Total votes 74: ↑72 and ↓2 +70
Views 4.1K
Comments 27

Megaupload сохранит файлы еще на 2 недели

Copyright
Данные на Megaupload не будут стерты еще как минимум 2 недели.

До этого говорилось что активы сайта были заморожены и не было возможности оплатить хостинг. В связи с этим 2 февраля должно было произойти удаление всех файлов с серверов для предоставления серверов других клиентам хостинга.

Хостинговая компания Carpathia любезно предоставила дополнительное время на какие-либо договоренности с правительством.

Власти сделали резервные копии некоторых из данных, которые должны быть использованы в качестве доказательств, но не все. Удаление всех данных на Megaupload затронет пользователей, которые воспользовались услугой для законных целей.

Хостинговая компания Carpathia сообщает, что они не могут вернуть пользователям их файлы. «Carpathia не имеет и никогда не имела доступа к данным на серверах Megaupload и не имеет механизма для возврата файлов, расположенных на их серверах.»
Carpathia просит всех не писать им по этому поводу т.к. ничего поделать они не могут

Будем надеяться что власти найдут решение, чтобы дать пользователям возможность извлечь свои данные, пока такая возможность еще есть.
Total votes 15: ↑10 and ↓5 +5
Views 368
Comments 2

Строим карту популярности дней рождения с помощью Processing и VK API

VK API *Processing *
Sandbox

Вступление


Несколько дней назад в блоге The Daily Viz была опубликована запись, которая привлекла внимание широкой общественности как пример простой и эффективной визуализации данных.



Визуализация представляла собой карту популярности дней рождения, реализованную как теплокарта (heatmap) в виде календаря. По вертикали располагались числа, по горизонтали — месяцы, и, глядя в эту незамысловатую таблицу, мы могли по насыщенности оттенка судить о том, насколько популярен тот или иной день в году с точки зрения деторождения.



Через какое-то время автор визуализации опубликовал в том же блоге второй пост, извинившись за то, что ввел сообщество в заблуждение, не прокомментировав должным образом исходные данные, использованные в работе над изображением. Проблема была в том, что исходный сет данных не содержал информации о реальном числе родившихся в тот или иной день людей. Информация была дана в другом виде — на каком месте (rank) находится тот или иной день в «рейтинге» популярности дней рождения.



То есть, разница между первой и второй позицией в рейтинге могла быть колоссальной (скажем, в два раза), но отличались бы они все равно только на один тон. Иными словами, визуализация не отражала реальных данных из-за того, что сет содержал лишь производные данные.



Немного подумав над этой проблемой, я решил описать собственный пример создания такой визуализации от начала до конца — т. е. от сбора данных до, собственно, отрисовки изображения. Этот пример хорош тем, что он, с одной стороны, относительно прост, а с другой — является целостным завершенным проектом с определенным интересным результатом.

Читать дальше →
Total votes 23: ↑18 and ↓5 +13
Views 15K
Comments 22

Alibaba запускает производительный и энергоэффективный дата-центр

ua-hosting.company corporate blog


Компания AliCloud, подразделение китайской корпорации Alibaba, занимающееся облачными сервисами, объявила о намерении запустить в работу «зеленый» дата-центр AliCloud Qiandao Lake Data Center. Это уже восьмой дата-центр компании, и его назначение — расширить возможности сервисов Alibaba, обеспечивая нормальную их работу. Дата-центр было решено построить из-за роста количества новых пользователей и развития общей инфраструктуры Alibaba.

Интересно, что объект будет расположен на берегу озера Цяньдаоху, провинция Чжэцян, Китай. Озеро это искусственное, образовалось еще в 1959 году после строительства местной гидроэлектростанции. На озере расположено 1078 островов из-за чего оно получило такое название. Общая площадь озера равна 573 км², объём — 17,8 км³. Общая площадь островов составляет около 86 км². Цяньдаоху — туристическая достопримечательность, но теперь здесь будет и технологический объект, на который стоит посмотреть — это AliCloud Qiandao Lake Data Center.
Читать дальше →
Total votes 15: ↑13 and ↓2 +11
Views 9.5K
Comments 4

Инфраструктура Amazon Web Services изнутри. Часть 1

ua-hosting.company corporate blog

Ряды серверов внутри дата-центра Amazon

После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.

С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центре, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.

Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.
Читать дальше →
Total votes 17: ↑15 and ↓2 +13
Views 20K
Comments 5

Инфраструктура Amazon Web Services изнутри. Часть 2

ua-hosting.company corporate blog Amazon Web Services *


У компании Amazon, а точнее, у ее облачного подразделения AWS — одна из наиболее быстро развивающихся, развернутых и совершенных инфраструктур. Как мы уже писали, не так давно компания открыла некоторые свои секреты, касающиеся принципов организации работы этой инфраструктуры. Во второй части — информация о том, где размещаются дата-центры, каким образом все это связано в одну систему, и как работает.

Сейчас в распоряжении Amazon Web Services — минимум 30 дата-центров, причем руководство планирует построить дополнительно 10 или 15 новых. Большинство дата-центров размещаются в северной Вирджинии, здесь за работу AWS отвечает примерно 20 дата-центров, общей мощностью примерно в 500 МВт. Но география инфраструктуры дата-центров AWS не ограничена только лишь Вирджинией. Сейчас три крупных кампуса ДЦ строится в Огайо, плюс облачные дата-центры работают еще в Ирландии, Бразилии, Китае, Японии, Австралии и Сингапуре.
Читать дальше →
Total votes 18: ↑13 and ↓5 +8
Views 16K
Comments 4

Отправляемся в «Дата-центр»

Project management *
image

В сторону хостинг-провайдера российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто – это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Views 3.6K
Comments 3

Big Data головного мозга

Big Data *Hadoop *

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.


image
Демонстрация Hadoop пользователям

Читать дальше →
Total votes 41: ↑38 and ↓3 +35
Views 87K
Comments 73

Онлайн-программа по анализу данных на Stepik.org

Stepik.org corporate blog Studying in IT
Осень 2016 года выдастся насыщенной: СПбАУ РАН не только перезапустит на Stepik.org уже во второй раз, но и даст старт новой онлайн-программе профессиональной переподготовки, на этот раз в сотрудничестве с Институтом биоинформатики, и посвящена она будет работе с данными.

Программа начнётся в октябре'16 и будет проходить без дедлайнов, поэтому присоединиться к ней можно в любой момент, а на обучение потратить именно столько времени, сколько позволяет ритм жизни: совсем необязательно не спать ночами и совмещать непростую работу с не менее сложной учебой.


Больше подробностей
Total votes 12: ↑12 and ↓0 +12
Views 20K
Comments 23