alizar Apr 24 2016 at 19:02

ЦЕРН выложил в открытый доступ 300 ТБ данных, виртуальную машину Linux CERN 6 и инструменты для анализа

2 min

19K

Popular sciencePhysics

+25

Comments 34

TimsTims Apr 24 2016 at 20:22

> Студенты и школьники могут скачать эти данные
Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

> для меня, как координатора проекта хранения данных
Похоже, она решила таким образом сделать «бэкап», что если вдруг у неё что-то потеряется, можно попросить копию «у того школьника»

А если серьезно, то это большой шаг по открытию данных науки для каждого. Действительно из миллиардов людей — наверняка есть один тот-самый эйнштейн, который заметит нужную деталь и сделает открытия в науке

rPman Apr 24 2016 at 20:39

Если бы только винты, так как вычислительные мощности для анализа могут понадобиться гораздо мощнее.
Школьники? может тут ошибка перевода и речь идет о high school т.е. университеты?

TimsTims Apr 24 2016 at 20:50

Зато какая веская причина выпросить у родителей новый комп с 300тб на борту!)

Grox Apr 24 2016 at 22:04

Можно делать инкрементальную обработку. И часть данных кэшировать у себя.

TimsTims Apr 25 2016 at 10:04

Да, помимо знаний — Как всё это обработать и сохранить, надо еще оставить места в голове по теории физики, чтобы хотя бы знать что искать. А мне кажется, что гений физики — он так себе программист…

Grox Apr 25 2016 at 18:36

Так вы думаете в ЦЕРН все физики-программисты? Объеденяться нужно.

TimsTims Apr 26 2016 at 10:15

Я не про ЦЕРН, а про школьников, у которых нет 300тб и им надо научиться кэшировать результаты и освоить сложные программы по bigdata перед тем, Как начать изучение данных, используя науку

Grox Apr 26 2016 at 20:14

А я для примера. Школьник-программер + школьник-физик, вот уже и команда. Винтами по несколько ТБ школьников не удивишь. Кэшировать это совсем не сложно. Сложные программы освоить? Вы больше пугаете. Изучать данные можно и без науки. Это само по себе интересно.

mityada Apr 24 2016 at 22:08

В исходной статье (http://cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc) есть фраза
«The “derived datasets” on the other hand require a lot less computing power and can be readily analysed by university or high-school students, and CMS has provided a limited number of datasets in this format.»
То есть часть данных уже обработана и суперкомпьютер под столом иметь не обязательно.

High school это старшие классы средней школы, а не университет.

vkn Apr 24 2016 at 22:08

High school это как раз средняя школа.

SvyatoslavMC Apr 25 2016 at 09:11

В России средняя 5-9 класс, у нас аналог High school как раз 10-11 класс.

yea Apr 25 2016 at 09:17

«Средняя школа» в России — это общее название всего цикла обучения с первого по одиннадцатый класс. После девятого класса дают аттестат об основном образовании, а после одиннадцатого — о полном среднем.

Xaliuss Apr 26 2016 at 13:47

С 5 по 11 все таки, 1-4 начальное образование, по 9 класс частичное среднее.

artsnz Apr 24 2016 at 20:33

А почему такие старые данные? Почему не опубликовать свежие данные? с 2015 года например?

rPman Apr 24 2016 at 20:42

Вот аналогия, вы собрались с друзьями, создали компанию и собираете уникальные данные о сокровищах, зарытых пиратами… вы вложили в это дело огромные деньги (покупки артефактов, доступ и анализ библиотечных данных) и еще больше своего времени и сил… через некоторе время, не найдя в части этих данных ничего интересного, вы (не важно почему) подарить часть данных музею/библиотеке...

И тут из толпы выкрики — а почему так мало, — а почему такие старые данные!

artsnz Apr 24 2016 at 21:35

Насколько мне известно Церн — это не частная контора, а межгосударственный проект, который финансируется из бюджета тех самых государств — это раз, два оно работает на благо науки и человечества, а не ради коммерческих целей, и есть ли в церне коммерческая составляющая? Так почему не открывать данные в онлайне? Речь исключительно про колайдер, а не сторонние проекты церна типа интернетов и пр…

rPman Apr 24 2016 at 22:39

Пожалуйста, не принимайте мой комментарий как мое личное несогласие с халявой, естественно это не так — все (каждый в отдельности) мы любим халяву, пока недостаточно богаты/могущественны, чтобы обеспечить всем себя самостоятельно (процент таких людей очень и очень мал). Да, само собой все научные достижения должны быть общедоступны, ресурсы должны принадлежать народу, всем по потребностям и т.п… но я не обо этом хотел говорить

Межгосударственные отношения нужно рассматривать с позиции аналогии отношения обычных частных лиц в условиях абсолютной анархии без контроля сверху. И все не равны! Дал где то слабину и сосед откусит от тебя очередной кусок, или еще хуже, вас уже едят, но со скоростью, с которой вы готовы смириться… а если ошибешься, тебя начнут кушать с еще большей скоростью.

Пока ваши действия имеют отношение только к тому что происходит внутри вас, это одно дело, можете играть в коммунизм, показушную демократию или тоталитарный ад оруэла, но как только вы выходите на международную сцену, работают другие правила.

В проекте ЦЕРН участвуют далеко не все страны, и раздавать знания, способных изменить распределение сил, попросту опасно… это как вводить в шахматную партию джокера. И речь тут я думаю даже не в деньгах а в возможностях, которые могут появиться у ранее слабых не-участниках.
К сожалению эта система стремится к стабилизации, и ни о каком развитии говорить не получается.

CYBOPOB Apr 24 2016 at 20:52

Подозреваю что более новые данные еще находятся в обработке. Не отдавать же возможное открытие кому нибудь другому :-)

Orcus13 Apr 24 2016 at 22:25

Чтоб не украли научное открытие, видимо они над ними еще работают.
В астрономии фотографии выкладываются в общий доступ также с приличной задержкой.

mrxak Apr 26 2016 at 18:59

А пока идет Run 2 «свежих» данных и не будет. Они мало того, что сырые, так ещё и не структурированные. Скорее это защита от «псевдооткрытий». А структурировать их будут уже после. Если не в курсе, при работе коллайдера, пока задние детекторы ещё отрабатывают сигнал от столкновений, в переднем уже сталкиваются следующие частицы. Поэтому при работе это всё сваливается в этакую кучу, потом уже связывается по времени и превращается в те самые «сырые» данные. Где знают, что примерно хотят найти, обрабатывают быстрее, остальное остаётся на потом.

Скрытый текст

Специально взял из share, значит они и так уже где-то доступны. Это, скорее всего, дискретизированный уровень сигнала в каналах одного из детекторов.

pwrlnd Apr 24 2016 at 20:34

Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

TimsTims, никто не заставляет выкачивать все данные. Также особых вычислительных мощностей не требуется, так как это не симуляция, а уже готовые данные.

Vjatcheslav3345 Apr 25 2016 at 20:21

Вот и те кто думал что 300 кб хватит всем 1 тб и ноут представить себе не могли, как мы сейчас — суперкомп размером с пылинку.

Randl Apr 24 2016 at 21:03

kaggle?)

LeoPlus Apr 24 2016 at 21:21

Нука дайте-ка, щас я бозонов накопаю!

Old_Chroft Apr 24 2016 at 23:38

Жизнь такова, что в этой области науки еще и LeoPlus-ов накопать можно :-)
Существует масса проектов, (астрономы, генетики, физики) где наши глаза и знания во-первых, а во-вторых любознательность и вычислительные мощности позволя(ю)т найти много всего интересного.

icoz Apr 24 2016 at 21:27

Дали бы методику вычислений… Я бы перепроверил, действительно ли они нашли бозон Хиггса.
Доверяй, но проверяй!

LeoPlus Apr 24 2016 at 21:36

Хиггса нашли в 2012, а данные выложили за 2011, так что… :-)

icoz Apr 24 2016 at 21:37

Вот, черт! Они что-то скрывают!

veprbl Apr 24 2016 at 22:08

Открытие сделано по объединённому датасету 2011 + 2012 с приблизительно равными вкладами в статистику. Так что Хиггса в данных 2011 года вы можете искать вполне хорошо, только статистики будет чуть меньше.

Vjatcheslav3345 Apr 25 2016 at 06:15

А нельзя ли заливать их в проекты распределённых вычислений и хранить понемногу, дублированно на множестве компьютеров и обрабатывать как самостоятельно — по своим идеям, так и понемногу вычислять что то на общее благо.

Kyoki Apr 25 2016 at 07:01

Очень хорошо… Но лучше бы они прикрутили какой-нибудь апи к этим данным, пусть даже платный. Все-таки не у каждого университета есть возможность хранить по 300 Тб.

yea Apr 25 2016 at 08:50

А и не нужно хранить всё. Данные носят сессионный характер, можно обрабатывать их частями.

Vjatcheslav3345 Apr 25 2016 at 20:16

Можно даже свежий трафик обрабатывать с помощью апи и в распределёнке — только договориться с пользователями в соглашении, что новый трафик какое то небольшое время из за научных приоритетов будет обрабатываться шифрованным, а потом автоматом расшифровывается.

Dj0cker Apr 27 2016 at 08:30

а мне вот интересно кто первый в россии на раздачу торрент закинет)