Смотрим сколкьо тратит денег Intel на проведение конкурса:
1) сотни (если не тысячи) человеко-часов на:
а) организацию — сервера поставить, настроить, и следить за ними
б) рекламу
в) проведения — неужели Вы думаете на форуме будет молчание стоять — вся тысяча участвников будет задавать вопросы, и на них будут отвечать достаточно квалифицированные специалисты (иначе карма компании упадет)
2) призы (малая часть по сравнению с 1) )
3) содержание самих серверов.
Что получает:
1) + к карме за проведения мероприятия
2) Список людей которые обладают хорошим понимаием распределенных систем, работы Intel процессоров и инструментов Intel для повышения производительности. Некоторые из этих людей возможно захотят поменять работу на «компанию-лидер на рынке».
По-моему все честно — люди получают фан, опыт, возможность опробовать себя (изначально то для студентов конкурс) во высоконагруженных задачах (да и не многие професионалы имеют возможность решать такие задачи, даже если они им интересны), компания получает конакты людей для рекрутинга.
Посмотрите на Kaggle — там как раз то что Вы описали проходит — компания выдвигает свою реальную задачу, и предлагает решить ее за деньги. Три лучших решения получают призы — а их решения попадают в компанию. И замечу что все там довольны — даже те кто не победил могут увидеть как победители решили и использовать этот опыт и свои наработки что бы найти лучше работу / получить PhD / или лучше победить в следующем конкурсе.
Опять же из моего понимания — I-140 (Labor certification) требует максимум 6 месяцев (если не подавать на Premium processing — где две-три недели).
А вот загвоздка — I-485 (Adjustment of Status) — это зависит от группы и может занимать годы.
см. «Possible Delays in Filing Due to Lack of Visa Numbers» в www.murthy.com/2011/10/17/how-long-will-it-take-to-get-a-green-card/:
So, a person may have an approved labor certification, and even an approved I-140, but not be able to move forward to the I-485 stage. This problem is severe for people from all countries in the employment-based, third preference (EB3) category, and for those from India and China in EB2. Following labor certification approval, the employer can file the I-140 petition and even obtain its approval without regard to visa number availability. The case will stall at that point, however, until visa numbers are available for the individual's employment-based category so that the I-485 can be filed. This delay could be a few weeks, a few months, or in many cases, a few years or longer.
От этого черновика до закона оно пройдет через 100 рук и каждая внесет логичную для них поправку — и ожидать от конечного документа логичности уже будет сложно. Посмотрите на текущие имииграционные законы — они ж тоже когда-то начинали как логичный черновик.
А какой объем данных обычно у Вас при решении реальных задач? И пробовали ли Вы использовать boostrapping с дереьвями принятия решений для оценки разброса (variance\confidence interval) предсказаний?
Действительно, Leo Breinman пришел в RandomForest, а Jerry Friedman к TreeNet (Gradient Boosted Decision Trees) по причине неустойчивости CART алгоритма и слишком сильной дискретизации при решении задачи регрессии (хотя, конечно можно в каждом leaf строить регрессию для создания smooth predictions).
Однако, у CART алгоритма есть такая же возможнсть оценить влияние переменных (фич) на результат. И в избравлении от неустойчивости очень помогает использование surrogates и competitors.
Хотя, конечно, анасамбли деревьев позволяют использовать соврешенно другую машинерию — в том числе Dependency Plots — которая показывает частную производную по переменной полученной функции (см. как влияет изменения переменной на конечный prediction). Так же для Random Forest есть множество интересных post-processing техник — Parallel Coordinates, Proximity matrices которые позволяют глубже взглянуть на имеющиеся данные.
Так а сами признаки есть? Если нет — то тут будет сложно что-то решить :)
Если же есть — то это ничем не отличается от обычной классификации — у вас есть признаки и классы — вы обучаете классификатор (к примеру дерево принятия решения) и получаете вашу зависимости классов от признаков. Другой вопрос — что при обратной задаче существует неоднозначность интерпретации — из серии человек в категории высокого риска потому что: у него возраст меньше 18 или больше 65, но это решать нужно используя какие-то доменные знания и возможно модифицируя переменные, к примеру создавая переменные вида «18<=возраст<=65?» в зависимости что получилось при построении классификатора и какой именно вид связи Вам нужен.
Вообще для оценки сложности любой data mining модели (в том числе при построении деревьев принятия решения) — лучше использовать тесовую выборку (или кросс-валидацию). В этом случае как только пойдет переобучение тестовая выборка это покажет и можно остановить обучение.
Однако, алгоритмы CART и оригинальный Random Forest, например, предпологает строить модель «до упора» — пока есть сплиты (конечно с заданными минимальнми размерами листьев). После чего, в CART используется так называемый pruning — удаления вершин из дерева на основе сложности (complexity) вершины и насколько эта вершина уменьшает энтропию (i.e. node improvement). В RandomForest же просто используються полные деревья — и усредненеием голосов убирается возможное переобучение, так как каждое дерево построено на случайной подвыборке данных.
Как раз этот пример скорее в пользу модульности изначально — делали соц. сеть, при этом каждый кусок функционала был реализован в отдельном модуле: пользователи+авторизация отедльно, социальность отдельно, магазин отдельно, еще 9 разделов в 9 отдельных модулях.
Выкатывали по частям, слушали пользователей и узнали что те 9 модулей и социальность не нужны — просто их в настройках отрубили (может еще темплейты пореадктировали) и вуаля — остался инет-магазин.
А если все изначально в одном месиве написать — где нельзя разобрать где начинается магазин и заканчивает лента друзей — то тогда потребуется итерация только на то что бы вытащить функционал инет-магазина.
А завтра окажется, что магазин стал популярным, и пользователи назад хотят ленту — так как хотят видеть что их друзья купили — и оп, надо поднимать старый код и вытаскивать куски социальности. Вместо того что бы просто врубить модуль социальности обратно — подкрутить то что может отсатло (если API других модулей поменялись) и вкрутить обратно темплейты.
Вот что думает один из core developerов Django по поводу CBV: lukeplant.me.uk/blog/posts/djangos-cbvs-were-a-mistake/.
И это не только его мнение, классы сложны в поддержке и понимании. А сила Pythonа в том, что код легко понимается с одного взгляда.
Использую Salford Predictive Miner (http://salford-systems.com/) — в основном TreeNet engine, хотя CART удобен для того, что бы анализировать значимость предикторов, выбирать производные предикторы и тд.
Сбор данных и их обработку — Python.
Сейчас из-за ML-class начал разбираться с Matlab — встроенные быстрые матричные операции там действительно потрясают, да и в принципе визуализации удобнее чем подключать что-то к Python.
Естественно всё кладется в личную кладь и говорится что это личные вещи нужные для работы. Декларацию не нужно было заполнять (Украина). Таким образом провёз в рюкзаке два ноутбука, нетбук, букридер и фотик.
Спасибо за статью.
Нету ли какой-то информации какой тест они использовали для выбора программистов?
Может надо его проводить перед приемом на учёбу\работу?
Если уж исходить из такой точки зрения, то вы переворачиваете страницу календаря, и со скоростью света, отраженный от страницы свет попадает в ваш глаз, и там ещё медленнее происходят неизвестные науки процессы, и только тогда вы говорите себе: «Ба, да у моей любимой бабули сегодня днюха!!!».
Так что, опять же информация попала не мгновенно. Как ниже написано — информация материальна, если исходить из физики (блог собственно которой это и есть). Конечно, можно придумать множество гипотез, как может выглядеть мир, где информация на первом месте и тд и тп. Но пока что в физике рулит мнение, что мир материален — а значит и информация, это всего лишь вид материи, который наш мозг воспринимает как какую-то информацию.
Однако как «квантовое запутывание» выходит из этой картины — именно это и имелось в виде автором, под удивительным фактом — ведь это не просто мета-физическое рассуждение о построении мира, это подтвержденный многими учеными факт. Однако под ним, как мне известно, ещё нету никакой научной теории — будь то «информация не материальна» или «фотоны это спец вещества прилетевшие из другой вселенные» или «два фотона находятся на одной струне».
Ну если я правильно понимаю, то снять можно с любой не рельефной поверхности — линолеум, бумага, стекло, пластмасса, железо, дерево, крашенные поверхности. Проблема скорее, что нужно в течении суток снимать.
Более сложными методами, снимают и с тканей и даже человеческого тела (но в течении малого времени — меньше часа)
Вот цитата отсюда (если мне не верите): Формирование потожировых следов рук и возможность их выявления порошками во многом зависят от свойств следовоспринимающей поверхности, главным образом от ее рельефа и способности впитывать влагу. Чем мельче рельеф поверхности, чем более она гладкая, тем более четко отражаются детали строения папиллярного узора. Поэтому для образования потожировых следов рук наиболее благоприятными являются поверхности, близкие к зеркальным стекло, лакированное дерево и т.п. На шероховатых поверхностях детали папиллярного узора отображаются хуже или не отображаются совсем, если величина отдельных точек рельефа поверхности превышает высоту валиков папиллярных линий.
Ну для ноутбука, по идее хватит снять отпечатки пальцев с этого самого ноутбука. Для этого можно использовать — растолченный грифель (проявляет отпечаток) + скотч (снимает проявленный). Дальше, либо сам скотч с фоном, либо его скан и распечатка — прикладывается к девайсу.
Из Capital One FAQ:
1) сотни (если не тысячи) человеко-часов на:
а) организацию — сервера поставить, настроить, и следить за ними
б) рекламу
в) проведения — неужели Вы думаете на форуме будет молчание стоять — вся тысяча участвников будет задавать вопросы, и на них будут отвечать достаточно квалифицированные специалисты (иначе карма компании упадет)
2) призы (малая часть по сравнению с 1) )
3) содержание самих серверов.
Что получает:
1) + к карме за проведения мероприятия
2) Список людей которые обладают хорошим понимаием распределенных систем, работы Intel процессоров и инструментов Intel для повышения производительности. Некоторые из этих людей возможно захотят поменять работу на «компанию-лидер на рынке».
По-моему все честно — люди получают фан, опыт, возможность опробовать себя (изначально то для студентов конкурс) во высоконагруженных задачах (да и не многие професионалы имеют возможность решать такие задачи, даже если они им интересны), компания получает конакты людей для рекрутинга.
Посмотрите на Kaggle — там как раз то что Вы описали проходит — компания выдвигает свою реальную задачу, и предлагает решить ее за деньги. Три лучших решения получают призы — а их решения попадают в компанию. И замечу что все там довольны — даже те кто не победил могут увидеть как победители решили и использовать этот опыт и свои наработки что бы найти лучше работу / получить PhD / или лучше победить в следующем конкурсе.
А вот загвоздка — I-485 (Adjustment of Status) — это зависит от группы и может занимать годы.
см. «Possible Delays in Filing Due to Lack of Visa Numbers» в www.murthy.com/2011/10/17/how-long-will-it-take-to-get-a-green-card/:
So, a person may have an approved labor certification, and even an approved I-140, but not be able to move forward to the I-485 stage. This problem is severe for people from all countries in the employment-based, third preference (EB3) category, and for those from India and China in EB2. Following labor certification approval, the employer can file the I-140 petition and even obtain its approval without regard to visa number availability. The case will stall at that point, however, until visa numbers are available for the individual's employment-based category so that the I-485 can be filed. This delay could be a few weeks, a few months, or in many cases, a few years or longer.
По тому что я находил, менять работу можно при условии похожей должности в новой компании и только через 6 мес. после подачи на грин.карту:
www.immihelp.com/greencard/adjustmentofstatus/changing-employer.html
Однако, у CART алгоритма есть такая же возможнсть оценить влияние переменных (фич) на результат. И в избравлении от неустойчивости очень помогает использование surrogates и competitors.
Хотя, конечно, анасамбли деревьев позволяют использовать соврешенно другую машинерию — в том числе Dependency Plots — которая показывает частную производную по переменной полученной функции (см. как влияет изменения переменной на конечный prediction). Так же для Random Forest есть множество интересных post-processing техник — Parallel Coordinates, Proximity matrices которые позволяют глубже взглянуть на имеющиеся данные.
Если же есть — то это ничем не отличается от обычной классификации — у вас есть признаки и классы — вы обучаете классификатор (к примеру дерево принятия решения) и получаете вашу зависимости классов от признаков. Другой вопрос — что при обратной задаче существует неоднозначность интерпретации — из серии человек в категории высокого риска потому что: у него возраст меньше 18 или больше 65, но это решать нужно используя какие-то доменные знания и возможно модифицируя переменные, к примеру создавая переменные вида «18<=возраст<=65?» в зависимости что получилось при построении классификатора и какой именно вид связи Вам нужен.
Однако, алгоритмы CART и оригинальный Random Forest, например, предпологает строить модель «до упора» — пока есть сплиты (конечно с заданными минимальнми размерами листьев). После чего, в CART используется так называемый pruning — удаления вершин из дерева на основе сложности (complexity) вершины и насколько эта вершина уменьшает энтропию (i.e. node improvement). В RandomForest же просто используються полные деревья — и усредненеием голосов убирается возможное переобучение, так как каждое дерево построено на случайной подвыборке данных.
Выкатывали по частям, слушали пользователей и узнали что те 9 модулей и социальность не нужны — просто их в настройках отрубили (может еще темплейты пореадктировали) и вуаля — остался инет-магазин.
А если все изначально в одном месиве написать — где нельзя разобрать где начинается магазин и заканчивает лента друзей — то тогда потребуется итерация только на то что бы вытащить функционал инет-магазина.
А завтра окажется, что магазин стал популярным, и пользователи назад хотят ленту — так как хотят видеть что их друзья купили — и оп, надо поднимать старый код и вытаскивать куски социальности. Вместо того что бы просто врубить модуль социальности обратно — подкрутить то что может отсатло (если API других модулей поменялись) и вкрутить обратно темплейты.
И это не только его мнение, классы сложны в поддержке и понимании. А сила Pythonа в том, что код легко понимается с одного взгляда.
Сбор данных и их обработку — Python.
Сейчас из-за ML-class начал разбираться с Matlab — встроенные быстрые матричные операции там действительно потрясают, да и в принципе визуализации удобнее чем подключать что-то к Python.
Нету ли какой-то информации какой тест они использовали для выбора программистов?
Может надо его проводить перед приемом на учёбу\работу?
Так что, опять же информация попала не мгновенно. Как ниже написано — информация материальна, если исходить из физики (блог собственно которой это и есть). Конечно, можно придумать множество гипотез, как может выглядеть мир, где информация на первом месте и тд и тп. Но пока что в физике рулит мнение, что мир материален — а значит и информация, это всего лишь вид материи, который наш мозг воспринимает как какую-то информацию.
Однако как «квантовое запутывание» выходит из этой картины — именно это и имелось в виде автором, под удивительным фактом — ведь это не просто мета-физическое рассуждение о построении мира, это подтвержденный многими учеными факт. Однако под ним, как мне известно, ещё нету никакой научной теории — будь то «информация не материальна» или «фотоны это спец вещества прилетевшие из другой вселенные» или «два фотона находятся на одной струне».
Более сложными методами, снимают и с тканей и даже человеческого тела (но в течении малого времени — меньше часа)
Вот цитата отсюда (если мне не верите):
Формирование потожировых следов рук и возможность их выявления порошками во многом зависят от свойств следовоспринимающей поверхности, главным образом от ее рельефа и способности впитывать влагу. Чем мельче рельеф поверхности, чем более она гладкая, тем более четко отражаются детали строения папиллярного узора. Поэтому для образования потожировых следов рук наиболее благоприятными являются поверхности, близкие к зеркальным стекло, лакированное дерево и т.п. На шероховатых поверхностях детали папиллярного узора отображаются хуже или не отображаются совсем, если величина отдельных точек рельефа поверхности превышает высоту валиков папиллярных линий.
Метод снятия отпечатков из CSI (хотя простой ввод в гугл даёт тоже самое).