Search
Write a publication
Pull to refresh

Comments 34

> Студенты и школьники могут скачать эти данные
Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

> для меня, как координатора проекта хранения данных
Похоже, она решила таким образом сделать «бэкап», что если вдруг у неё что-то потеряется, можно попросить копию «у того школьника»

А если серьезно, то это большой шаг по открытию данных науки для каждого. Действительно из миллиардов людей — наверняка есть один тот-самый эйнштейн, который заметит нужную деталь и сделает открытия в науке

Если бы только винты, так как вычислительные мощности для анализа могут понадобиться гораздо мощнее.
Школьники? может тут ошибка перевода и речь идет о high school т.е. университеты?

Зато какая веская причина выпросить у родителей новый комп с 300тб на борту!)
Можно делать инкрементальную обработку. И часть данных кэшировать у себя.
Да, помимо знаний — Как всё это обработать и сохранить, надо еще оставить места в голове по теории физики, чтобы хотя бы знать что искать. А мне кажется, что гений физики — он так себе программист…
Так вы думаете в ЦЕРН все физики-программисты? Объеденяться нужно.
Я не про ЦЕРН, а про школьников, у которых нет 300тб и им надо научиться кэшировать результаты и освоить сложные программы по bigdata перед тем, Как начать изучение данных, используя науку
А я для примера. Школьник-программер + школьник-физик, вот уже и команда. Винтами по несколько ТБ школьников не удивишь. Кэшировать это совсем не сложно. Сложные программы освоить? Вы больше пугаете. Изучать данные можно и без науки. Это само по себе интересно.
В исходной статье (http://cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc) есть фраза
«The “derived datasets” on the other hand require a lot less computing power and can be readily analysed by university or high-school students, and CMS has provided a limited number of datasets in this format.»
То есть часть данных уже обработана и суперкомпьютер под столом иметь не обязательно.

High school это старшие классы средней школы, а не университет.
High school это как раз средняя школа.
В России средняя 5-9 класс, у нас аналог High school как раз 10-11 класс.
«Средняя школа» в России — это общее название всего цикла обучения с первого по одиннадцатый класс. После девятого класса дают аттестат об основном образовании, а после одиннадцатого — о полном среднем.
С 5 по 11 все таки, 1-4 начальное образование, по 9 класс частичное среднее.
А почему такие старые данные? Почему не опубликовать свежие данные? с 2015 года например?

Вот аналогия, вы собрались с друзьями, создали компанию и собираете уникальные данные о сокровищах, зарытых пиратами… вы вложили в это дело огромные деньги (покупки артефактов, доступ и анализ библиотечных данных) и еще больше своего времени и сил… через некоторе время, не найдя в части этих данных ничего интересного, вы (не важно почему) подарить часть данных музею/библиотеке...


И тут из толпы выкрики — а почему так мало, — а почему такие старые данные!

Насколько мне известно Церн — это не частная контора, а межгосударственный проект, который финансируется из бюджета тех самых государств — это раз, два оно работает на благо науки и человечества, а не ради коммерческих целей, и есть ли в церне коммерческая составляющая? Так почему не открывать данные в онлайне? Речь исключительно про колайдер, а не сторонние проекты церна типа интернетов и пр…

Пожалуйста, не принимайте мой комментарий как мое личное несогласие с халявой, естественно это не так — все (каждый в отдельности) мы любим халяву, пока недостаточно богаты/могущественны, чтобы обеспечить всем себя самостоятельно (процент таких людей очень и очень мал). Да, само собой все научные достижения должны быть общедоступны, ресурсы должны принадлежать народу, всем по потребностям и т.п… но я не обо этом хотел говорить


Межгосударственные отношения нужно рассматривать с позиции аналогии отношения обычных частных лиц в условиях абсолютной анархии без контроля сверху. И все не равны! Дал где то слабину и сосед откусит от тебя очередной кусок, или еще хуже, вас уже едят, но со скоростью, с которой вы готовы смириться… а если ошибешься, тебя начнут кушать с еще большей скоростью.


Пока ваши действия имеют отношение только к тому что происходит внутри вас, это одно дело, можете играть в коммунизм, показушную демократию или тоталитарный ад оруэла, но как только вы выходите на международную сцену, работают другие правила.


В проекте ЦЕРН участвуют далеко не все страны, и раздавать знания, способных изменить распределение сил, попросту опасно… это как вводить в шахматную партию джокера. И речь тут я думаю даже не в деньгах а в возможностях, которые могут появиться у ранее слабых не-участниках.
К сожалению эта система стремится к стабилизации, и ни о каком развитии говорить не получается.

Подозреваю что более новые данные еще находятся в обработке. Не отдавать же возможное открытие кому нибудь другому :-)
Чтоб не украли научное открытие, видимо они над ними еще работают.
В астрономии фотографии выкладываются в общий доступ также с приличной задержкой.
А пока идет Run 2 «свежих» данных и не будет. Они мало того, что сырые, так ещё и не структурированные. Скорее это защита от «псевдооткрытий». А структурировать их будут уже после. Если не в курсе, при работе коллайдера, пока задние детекторы ещё отрабатывают сигнал от столкновений, в переднем уже сталкиваются следующие частицы. Поэтому при работе это всё сваливается в этакую кучу, потом уже связывается по времени и превращается в те самые «сырые» данные. Где знают, что примерно хотят найти, обрабатывают быстрее, остальное остаётся на потом.
Скрытый текст

Специально взял из share, значит они и так уже где-то доступны. Это, скорее всего, дискретизированный уровень сигнала в каналах одного из детекторов.
Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

TimsTims, никто не заставляет выкачивать все данные. Также особых вычислительных мощностей не требуется, так как это не симуляция, а уже готовые данные.
Вот и те кто думал что 300 кб хватит всем 1 тб и ноут представить себе не могли, как мы сейчас — суперкомп размером с пылинку.
Жизнь такова, что в этой области науки еще и LeoPlus-ов накопать можно :-)
Существует масса проектов, (астрономы, генетики, физики) где наши глаза и знания во-первых, а во-вторых любознательность и вычислительные мощности позволя(ю)т найти много всего интересного.
Дали бы методику вычислений… Я бы перепроверил, действительно ли они нашли бозон Хиггса.
Доверяй, но проверяй!
Хиггса нашли в 2012, а данные выложили за 2011, так что… :-)
Вот, черт! Они что-то скрывают!
Открытие сделано по объединённому датасету 2011 + 2012 с приблизительно равными вкладами в статистику. Так что Хиггса в данных 2011 года вы можете искать вполне хорошо, только статистики будет чуть меньше.
А нельзя ли заливать их в проекты распределённых вычислений и хранить понемногу, дублированно на множестве компьютеров и обрабатывать как самостоятельно — по своим идеям, так и понемногу вычислять что то на общее благо.
Очень хорошо… Но лучше бы они прикрутили какой-нибудь апи к этим данным, пусть даже платный. Все-таки не у каждого университета есть возможность хранить по 300 Тб.
А и не нужно хранить всё. Данные носят сессионный характер, можно обрабатывать их частями.
Можно даже свежий трафик обрабатывать с помощью апи и в распределёнке — только договориться с пользователями в соглашении, что новый трафик какое то небольшое время из за научных приоритетов будет обрабатываться шифрованным, а потом автоматом расшифровывается.
а мне вот интересно кто первый в россии на раздачу торрент закинет)
Sign up to leave a comment.

Other news