Все потоки
Поиск
Написать публикацию
Обновить
96.8

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT-продажи»

Время на прочтение10 мин
Количество просмотров2.5K
Образовательный проект GeeksLab продолжает работу над мероприятиями и сегодня мы расскажем о конференциях, которые пройдут в марте в Одессе, а также поговорим о предстоящих ивентах и хакатонах.

5 марта – Al&BigData Lab.
Конференция «AI&BigData Lab» будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.
Основная цель проведения – это обмен опытом среди разработчиков по теме, которой сейчас интересуются многие, объединения сообщества для более эффективного развития проектов, а также создание и продвижение решений big data и искусственный интеллект в Украине. Мы планируем также заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе.

12 марта – Just Sell IT! Эффективные IT-продажи.
Ни для кого не секрет, что секрет как успешного стартапа, так и прибыльной аутсорсинговой компании не только в техническом выполнении проекта, а и в искусстве переговоров, эффективном email маркетинге, умении найти подход и заинтересовать своим продуктом и\или сервисом как отечественного, так и зарубежного заказчика. Будет два потока — для стартапов и для компаний, с устоявшейся системой продаж (много внимания уделим аутсорсингу).

Читать дальше →

За посетителями аэропорта Ньюарка будут следить светодиодные лампы

Время на прочтение4 мин
Количество просмотров7.2K
Имея головной офис в США, наша команда заинтересовалась новостями международного аэропорта Ньюарка. Ньюарка, расположенный в черте городов Ньюарк и Элизабет (Нью-Джерси) аэропорт, находится в 24 километрах к юго-западу от нью-йоркского района Мидтаун. Ньарка – второй по величине аэропорт после аэропорта Хьюстон Интерконтинентал авиакомпании Continental Airlines.

И сегодня посетители терминала B в международном аэропорте Ньюарк Либерти могут заметить яркое, чистое освещение, интерьер аэропорта недавно дополнен 171 светодиодной лампой. Но посетители, вероятнее всего, не будет понимать, что эти светильники являются основой системы, которая за ними наблюдает.

image
Читать дальше →

Как мы используем инфраструктуру обработки данных в Sports.ru и Tribuna.com?

Время на прочтение6 мин
Количество просмотров47K
Год назад мы отказались от всех публичных счетчиков в пользу закрытых сервисов и собственной инфраструктуры обработки данных. Собирая на Олимпиаде по 10 млн. хитов в сутки, мы нащупали предел доброты Google Analytics, за которым бесплатное обслуживание уже не возможно. Но теперь у нас есть свой лунапарк со сверткой и графиками, поэтому мы можем легко снизить интенсивность использования GA, сохранив за ним только аудиторские функции. О том, как мы собираем данные и как используем их в своей работе – в простыне с веселыми картинками внутри.

У нас нет такого помещения с мониторами и славными бородатыми парнями. Эта картинка найдена в Интернете и сделана в NOC Wallmart. Парни могут себе позволить )
Читать дальше →

Конференция по большим данным и искусственному интеллекту AI&BigData Lab

Время на прочтение2 мин
Количество просмотров7.1K


Проект GeeksLab приглашает всех 5 марта в Одессу на конференцию «AI&BigData Lab», которая будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.

Конференция пройдет в два потока, в рамках которых разработчики обсудят технические вопросы реализации и применения в реальных проектах различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о их функционале, а также показано, как они работают внутри.
Читать дальше →

Первое Февраля — День Помощи

Время на прочтение1 мин
Количество просмотров1.1K
image

Поздравляю всех с F1 — интернациональным днём помощи.

Не забывайте помогать в этот день друг другу и не другу не жалея сил, денег и подсказок.

Начало подготовки конференции AI&BigData Lab

Время на прочтение1 мин
Количество просмотров2.8K

За последние несколько месяцев команда проекта GeeksLab провела ряд конференций: «FOSS Sea» и "Happу New Front-End! О фронтенде по-новому!". Видеозаписи докладов первой конференции, которая была посвящена разработке бекенда на JavaScript и облачным технологиям, мы уже выложили, а видеозаписи второй готовим к публикации в ближайшее время.

Сегодня же мы приглашаем всех 5 марта в Одессу принять участие в нашей новой конференции, посвященной искусственному интеллекту и большим данным «AI&BigData Lab». В рамках конференции планируется осветить современные технологии обработки и анализа больших данных, а также показать их практическое применение в реальных проектах.

Мероприятие техническое, поэтому будет интересно в первую очередь разработчикам, тимлидам, проджект менеджерам и техническим директорам.

Программа конференции находится на стадии формирования. Чтобы стать докладчиком, необходимо подать заявку до 10 февраля, отправив тему доклада и её краткое описание Дмитрию Сподарцу по адресу: m31@rootuamedia.com или в скайп m31-rootua.
Читать дальше →

Распределение строк и доступ в СУБД Teradata (Primary Index)

Время на прочтение3 мин
Количество просмотров19K
Предыдущий пост: Что такое Teradata?

Как Teradata распределяет строки?

  • Teradata использует алгоритм хэширования для рандомного распределения строк таблицы между AMP-ами (преимущества: распределение одинаково, независимо от объема данных, и зависит от содержания строки, а не демографии данных)
  • Primary Index определяет, будут ли строки таблицы распределены равномерно или неравномерно между AMP-ами
  • Равномерное распределение строк таблицы ведет к равномерному распределению нагрузки
  • Каждый AMP отвечает только за свое подмножество строк каждой таблицы
  • Строки размещаются неупорядоченно (преимущества: не требуется поддержка сохранения порядка, порядок не зависит от любого представленного запроса)


Primary Key (PK) vs. Primary Index (PI)

Primary Key (первичный ключ) – это условность реляционной модели, которая однозначно определяет каждую строку.
Primary Index – это условность Teradata, которая определяет распределение строк и доступ.
Хорошо спроектированная база данных содержит таблицы, в которых PI такой же как и PK, а также таблицы, в которых PI определен в столбцах, отличных от PK, и может влиять на пути доступа.
Читать дальше →

Как живется Data Mining компании: задачи и исследования

Время на прочтение4 мин
Количество просмотров17K
Привет, Хабр!

Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.
Читать дальше →

Что такое Teradata?

Время на прочтение5 мин
Количество просмотров89K
Предисловие: По работе мне пришлось изучать устройство базы данных Teradata, и оказалось, что в интернете почти нет информации, особенно на русском языке. Поэтому я решила собрать в кучу всю доступную информацию.

Стремительное увеличение объемов носителей информации и удешевление стоимости хранения данных привело к появлению методов, способных обеспечить более быстрый доступ к необходимым данным – индексы, хранение данных в отсортированном виде и т.п. Эти методы вполне успешно справляются со своей задачей, однако возрастающая конкуренция в мире заставляет искать новые, более быстрые, способы доступа к информации. «Кто владеет информацией, тот владеет миром». Основной интерес вызывают базы данных с традиционной реляционной моделью данных, отвечающие требованиям ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, надежность) и предназначенные для аналитики Больших Данных (Big Data).

Teradata – это параллельная реляционная СУБД, которая работает на операционных системах:

  • MP-RAS UNIX
  • Microsoft Windows 2000/2003 Server
  • SuSE Linux

Разнообразие поддерживаемых ОС — одна из причин, почему Teradata имеет открытую архитектуру.
Читать дальше →

Параллельные и распределенные вычисления. Лекции от Яндекса для тех, кто хочет провести праздники с пользой

Время на прочтение3 мин
Количество просмотров80K
Праздничная неделя подходит к концу, но мы продолжаем публиковать лекции от Школы анализа данных Яндекса для тех, кто хочет провести время с пользой. Сегодня очередь курса, важность которого в наше время сложно переоценить – «Параллельные и распределенные вычисления».

Что внутри: знакомство с параллельными вычислениями и распределёнными системами обработки и хранения данных, а также выработка навыков практического использования соответствующих технологий. Курс состоит из четырех основных блоков: concurrence, параллельные вычисления, параллельная обработка больших массивов данных и распределенные вычисления.



Лекции читает Олег Викторович Сухорослов, старший научный сотрудник Центра грид-технологий и распределенных вычислений ИСА РАН. Доцент кафедры распределенных вычислений ФИВТ МФТИ. Кандидат технических наук.
Содержание и тезисы лекций

Machine Learning. Курс от Яндекса для тех, кто хочет провести новогодние каникулы с пользой

Время на прочтение8 мин
Количество просмотров267K
Новогодние каникулы – хорошее время не только для отдыха, но и для самообразования. Можно отвлечься от повседневных задач и посвятить несколько дней тому, чтобы научиться чему-нибудь новому, что будет помогать вам весь год (а может и не один). Поэтому мы решили в эти выходные опубликовать серию постов с лекциями курсов первого семестра Школы анализа данных.

Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.



Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
Содержание и видео всех лекций курса

Google Photon. Обработка данных со скоростью света*

Время на прочтение9 мин
Количество просмотров18K
Photon – масштабируемая, отказоустойчивая и географически распределенная система обработки потоковых данных в режиме реального времени. Система является внутренним продуктом Google и используется в Google Advertising System. Research paper [5], описывающие базовые принципы и архитектуру Photon, был представлен на научной конференции ACM SIGMOD в 2013 году.

В paper [5] заявлено, что пиковая нагрузка на систему может составлять миллионы событий в минуту со средней end-to-end задержкой менее 10 секунд.
* 'Скорость света' в заголовке — наглая ложь гипербола.


Читать дальше →

Dremel. Как Google считает в real-time?

Время на прочтение4 мин
Количество просмотров16K
Dremelмасштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа неизменяемых данных [4].

Авторы research paper [4] (среди которых, судя по всему, и наши соотечественники — Сергей Мельник и Андрей Губарев), в котором описываются базовые принципы и архитектура Dremel, заявляют, что система в силах:
  • выполнять агрегирующие запросы над боле чем над триллионом строк за секунды;
  • масштабируется на тысячи CPU;
  • предназначена для работы с петабайтами данных;
  • имеет тысячи пользователей внутри Google (дословно «at Google» [4]).

UPD1: ниже картинка-дежавю для внимательных читателей.


Читать дальше →

Ближайшие события

Spanner. NewSQL хранилище от Google

Время на прочтение4 мин
Количество просмотров26K
Spannerгеографически распределенная высокомасштабируемая мультиверсионная база данных с поддержкой распределенных транзакций. Хранилище было разработана инженерами Google для внутренних сервисов корпорации. Research paper [8], описывающий базовые принципы и архитектуру Spanner, был представлен на научной конференции 10th USENIX Symposium on Operating Systems Design and Implementation в 2012 году.

Spanner является эволюционным развитием NoSQL-предшественника – Google Bigtable. Сам же c Spanner относят к семейству NewSQL-решений. В research paper [8] заявляется, что дизайн Spanner позволяет системе масштабироваться на миллионы вычислительных узлов через сотни дата-центров и работать с триллионами строк данных.



Читать дальше →

Colossus. Распределенная файловая система от Google

Время на прочтение4 мин
Количество просмотров41K
Colossus (или GFS2) – это проприетарная распределенная файловая система от Google, запущенная на production-серверах в 2009 году. Colossus является эволюционным развитием GFS. Как и ее предшественник GFS, Colossus оптимизирована для работы с большими наборами данных, прекрасно масштабируется, является высокодоступной и отказоустойчивой системой, а также позволяет надежно хранить данные.

В то же время, Colossus решает часть задач, с которыми GFS не справлялась, и устраняет некоторые узкие места предшественника.

Читать дальше →

Быстрый выбор случайных значений из больших таблиц MySQL по условию

Время на прочтение2 мин
Количество просмотров45K
Задача выбора случайных строчек из таблицы довольно часто возникает перед разработчиками.
В случае, если используется СУБД MySQL, обычно она решается примерно следующим способом:

SELECT *
FROM users
WHERE role_id=5
ORDER BY rand()
LIMIT 10


Такой код работает крайне медленно для больших таблиц.
Если в запросе не нужно использовать WHERE или таблица небольшая, есть эффективные решения, например habrahabr.ru/post/54176 или habrahabr.ru/post/55864.
Но готовых решений для большой таблицы и необходимости фильтровать по условию, получая при каждом запросе новые значения, я не нашел, поэтому описание моего способа под катом.
Читать дальше →

В Екатеринбурге завершилась Cassandra Сonf

Время на прочтение4 мин
Количество просмотров3.4K
9 декабря в Екатеринбурге прошла первая в России конференция, посвященная NoSQL-системе Cassandra. Организаторами конференции выступили компании IT-People, СКБ Контур и DataStax. Поддержку мероприятию оказало Министерство транспорта и связи Свердловской области.

О конференции

Читать дальше →

Google Platform. 10+ лет

Время на прочтение5 мин
Количество просмотров17K
Хранение и обработка данных – задача, которую человечество с переменным успехом решает ни одну тысячу лет. Проблемы, связанные с решением этой задачи, связаны не только с физическим объемом данных (volume), но и со скоростью изменчивости этих данных (velocity) и многообразием (variety) источников данных – то, что аналитики Gartner в своих статьях [11, 12] обозначили как «3V».

Computer Science не так давно столкнулась с проблемой Больших Данных, решения которой от ИТ ждут частные компании, правительства, научное сообщество.

И в мире уже появилась компания, которая, с переменным успехом, справляется с проблемой Big Data вот уже 10 лет. По моему ощущению (т.к. чтобы заявить достоверно нужны открытые данные, которых в свободном доступе нет) ни одна коммерческая или некоммерческая организация не оперирует большим объемом данных, чем компания, о которой идет речь.

Именно эта компания являлась основным контрибьютором идей платформы Hadoop, а также многих компонентов экосистемы Hadoop, таких как HBase, Apache Giraph, Apache Drill.

Как Вы догадались, речь идет о Google.


Читать дальше →

Как передать зашифрованные параметры в DataStage

Время на прочтение5 мин
Количество просмотров2.8K
Не секрет, что зашифрованные параметры (т.е. имеющие тип Encrypted), используемые в IBM DataStage в версиях до 8.7 очень легко расшифровать. Эти зашифрованные параметры часто используются для передачи паролей, необходимых для соединения с базами данных.
При постороении корпоративных ODS (а в некоторых случаях даже и в случае хранилищ данных) имеет смысл создавать универсальные джобы — так называемые генерики, которые полностью конфигурируются извне и не содержат специфичной для каждой таблицы информации, а поэтому их можно использовать для многих ETL процессов. Особенно это необходимо при извлечении данных из баз данных источников (Extraction). В таком случае необходимо хранить в файлах конфигураии пароли для каждого источника данных. И вам приходится, прогибаясь под политики безопасности различных предприятий, делать вид, что это надежный алгоритм шифрования и хранить пароли к корпоративным данным в зашифрованном DataStage виде.
Но проблемы возникают, если вы захотите передать такие параметры в джоб. Какие проблемы и как их решать я и напишу в этой статье.
Читать дальше →

Новая версия HP Vertica: Кран № 7

Время на прочтение10 мин
Количество просмотров5.9K
image
В декабре 2013 года вышла новая, седьмая версия HP Vertica. В продолжении традиции большого строительства «не маленьких данных», версия получила название «Кран» (шестая версия называлась «Бульдозер»). В этой статье я опишу, что же изменилось в новой версии.

Работа с неструктурированными данными — Flex Zone


Самым главным шагом вверх по лестнице работы с большими данными в новой версии HP Vertica можно назвать появление поддержки прямой работы с неструктурированными данными CSV и JSON форматов. В шестой версии поддерживалась загрузка данных из CSV файлов и выполнение запросов к ним, как к внешним глобальным таблицам. Если данные файлов имели заранее неизвестную, плавающую структуру, то единственным способом загрузки и работы с такими данными в Vertica являлась их предварительная обработка во внешних приложениях, таких, как ETL инструменты.

Теперь Vertica умеет работать с неструктурированными данными так же просто, как и со структурированными. Выглядит это так:
image

HP Vertica Flex Zone — это специальная область хранения и обработки неструктурированных данных. В БД Vertica можно создавать flex таблицы, загружать в них данные из файлов с CSV и JSON форматами и выполнять к ним запросы, соединяя эти данные в запросах с реляционными таблицами Vertica. Загруженные данные в flex таблицах хранятся на нодах кластера сервера в специальном формате, но по тем же принципам, что и реляционные данные БД. Для них так же поддерживается сжатие, зеркалирование и сегментирование данных (распределение между нодами кластера). При таком хранении, неструктурированные данные при обработке используют все преимущества MPP архитектуры Vertica, работают в отказоустойчивой масштабируемой архитектуре и участвуют в резервном копировании.
Читать дальше →

Вклад авторов