Comments / Profile of ilblackdragon / Habr

Илья Полосухин@ilblackdragon

User

Subscribers

ilblackdragon Nov 21 2013 at 04:43

Вроде Capital One дает платить карточкой без комиссии.
Из Capital One FAQ:

 Capital One does not charge a fee for using your credit card for foreign currency transactions.

Ускорь свой код и найди иголку в стоге сена

ilblackdragon May 14 2013 at 02:01

Смотрим сколкьо тратит денег Intel на проведение конкурса:
1) сотни (если не тысячи) человеко-часов на:
а) организацию — сервера поставить, настроить, и следить за ними
б) рекламу
в) проведения — неужели Вы думаете на форуме будет молчание стоять — вся тысяча участвников будет задавать вопросы, и на них будут отвечать достаточно квалифицированные специалисты (иначе карма компании упадет)

2) призы (малая часть по сравнению с 1) )
3) содержание самих серверов.

Что получает:
1) + к карме за проведения мероприятия
2) Список людей которые обладают хорошим понимаием распределенных систем, работы Intel процессоров и инструментов Intel для повышения производительности. Некоторые из этих людей возможно захотят поменять работу на «компанию-лидер на рынке».

По-моему все честно — люди получают фан, опыт, возможность опробовать себя (изначально то для студентов конкурс) во высоконагруженных задачах (да и не многие професионалы имеют возможность решать такие задачи, даже если они им интересны), компания получает конакты людей для рекрутинга.

Посмотрите на Kaggle — там как раз то что Вы описали проходит — компания выдвигает свою реальную задачу, и предлагает решить ее за деньги. Три лучших решения получают призы — а их решения попадают в компанию. И замечу что все там довольны — даже те кто не победил могут увидеть как победители решили и использовать этот опыт и свои наработки что бы найти лучше работу / получить PhD / или лучше победить в следующем конкурсе.

Основные положения предстоящей иммиграционной реформы США

ilblackdragon Apr 16 2013 at 20:49

Опять же из моего понимания — I-140 (Labor certification) требует максимум 6 месяцев (если не подавать на Premium processing — где две-три недели).
А вот загвоздка — I-485 (Adjustment of Status) — это зависит от группы и может занимать годы.

см. «Possible Delays in Filing Due to Lack of Visa Numbers» в www.murthy.com/2011/10/17/how-long-will-it-take-to-get-a-green-card/:
So, a person may have an approved labor certification, and even an approved I-140, but not be able to move forward to the I-485 stage. This problem is severe for people from all countries in the employment-based, third preference (EB3) category, and for those from India and China in EB2. Following labor certification approval, the employer can file the I-140 petition and even obtain its approval without regard to visa number availability. The case will stall at that point, however, until visa numbers are available for the individual's employment-based category so that the I-485 can be filed. This delay could be a few weeks, a few months, or in many cases, a few years or longer.

Основные положения предстоящей иммиграционной реформы США

ilblackdragon Apr 16 2013 at 20:37

От этого черновика до закона оно пройдет через 100 рук и каждая внесет логичную для них поправку — и ожидать от конечного документа логичности уже будет сложно. Посмотрите на текущие имииграционные законы — они ж тоже когда-то начинали как логичный черновик.

Основные положения предстоящей иммиграционной реформы США

ilblackdragon Apr 16 2013 at 20:29

Можете дать какие-то ссылки на информацию, где бы было описано, что нельзя менять работодателя и позицию при ожидании?

По тому что я находил, менять работу можно при условии похожей должности в новой компании и только через 6 мес. после подачи на грин.карту:
www.immihelp.com/greencard/adjustmentofstatus/changing-employer.html

Энтропия и деревья принятия решений

ilblackdragon Mar 12 2013 at 02:14

А какой объем данных обычно у Вас при решении реальных задач? И пробовали ли Вы использовать boostrapping с дереьвями принятия решений для оценки разброса (variance\confidence interval) предсказаний?

Энтропия и деревья принятия решений

ilblackdragon Mar 12 2013 at 02:12

Действительно, Leo Breinman пришел в RandomForest, а Jerry Friedman к TreeNet (Gradient Boosted Decision Trees) по причине неустойчивости CART алгоритма и слишком сильной дискретизации при решении задачи регрессии (хотя, конечно можно в каждом leaf строить регрессию для создания smooth predictions).

Однако, у CART алгоритма есть такая же возможнсть оценить влияние переменных (фич) на результат. И в избравлении от неустойчивости очень помогает использование surrogates и competitors.

Хотя, конечно, анасамбли деревьев позволяют использовать соврешенно другую машинерию — в том числе Dependency Plots — которая показывает частную производную по переменной полученной функции (см. как влияет изменения переменной на конечный prediction). Так же для Random Forest есть множество интересных post-processing техник — Parallel Coordinates, Proximity matrices которые позволяют глубже взглянуть на имеющиеся данные.

Энтропия и деревья принятия решений

ilblackdragon Mar 12 2013 at 02:01

Так а сами признаки есть? Если нет — то тут будет сложно что-то решить :)

Если же есть — то это ничем не отличается от обычной классификации — у вас есть признаки и классы — вы обучаете классификатор (к примеру дерево принятия решения) и получаете вашу зависимости классов от признаков. Другой вопрос — что при обратной задаче существует неоднозначность интерпретации — из серии человек в категории высокого риска потому что: у него возраст меньше 18 или больше 65, но это решать нужно используя какие-то доменные знания и возможно модифицируя переменные, к примеру создавая переменные вида «18<=возраст<=65?» в зависимости что получилось при построении классификатора и какой именно вид связи Вам нужен.

Энтропия и деревья принятия решений

ilblackdragon Mar 12 2013 at 01:54

Вообще для оценки сложности любой data mining модели (в том числе при построении деревьев принятия решения) — лучше использовать тесовую выборку (или кросс-валидацию). В этом случае как только пойдет переобучение тестовая выборка это покажет и можно остановить обучение.

Однако, алгоритмы CART и оригинальный Random Forest, например, предпологает строить модель «до упора» — пока есть сплиты (конечно с заданными минимальнми размерами листьев). После чего, в CART используется так называемый pruning — удаления вершин из дерева на основе сложности (complexity) вершины и насколько эта вершина уменьшает энтропию (i.e. node improvement). В RandomForest же просто используються полные деревья — и усредненеием голосов убирается возможное переобучение, так как каждое дерево построено на случайной подвыборке данных.

Говнокод или суперархитектура? Сначала говнокод, а потом эволюционный рефакторинг!

ilblackdragon Mar 9 2013 at 07:27

Как раз этот пример скорее в пользу модульности изначально — делали соц. сеть, при этом каждый кусок функционала был реализован в отдельном модуле: пользователи+авторизация отедльно, социальность отдельно, магазин отдельно, еще 9 разделов в 9 отдельных модулях.

Выкатывали по частям, слушали пользователей и узнали что те 9 модулей и социальность не нужны — просто их в настройках отрубили (может еще темплейты пореадктировали) и вуаля — остался инет-магазин.

А если все изначально в одном месиве написать — где нельзя разобрать где начинается магазин и заканчивает лента друзей — то тогда потребуется итерация только на то что бы вытащить функционал инет-магазина.

А завтра окажется, что магазин стал популярным, и пользователи назад хотят ленту — так как хотят видеть что их друзья купили — и оп, надо поднимать старый код и вытаскивать куски социальности. Вместо того что бы просто врубить модуль социальности обратно — подкрутить то что может отсатло (если API других модулей поменялись) и вкрутить обратно темплейты.

Библиотека Jevix для Python

ilblackdragon Feb 7 2013 at 18:06

P.S. Уже вынесли в отдельный велосипед — github.com/ProstoKSI/html-cleaner

Упрощая жизнь c Django

ilblackdragon Jun 11 2012 at 15:52

Вот что думает один из core developerов Django по поводу CBV: lukeplant.me.uk/blog/posts/djangos-cbvs-were-a-mistake/.
И это не только его мнение, классы сложны в поддержке и понимании. А сила Pythonа в том, что код легко понимается с одного взгляда.

Какой инструмент вы используете для решения задач data mining?

ilblackdragon Nov 29 2011 at 12:44

Использую Salford Predictive Miner (http://salford-systems.com/) — в основном TreeNet engine, хотя CART удобен для того, что бы анализировать значимость предикторов, выбирать производные предикторы и тд.
Сбор данных и их обработку — Python.

Сейчас из-за ML-class начал разбираться с Matlab — встроенные быстрые матричные операции там действительно потрясают, да и в принципе визуализации удобнее чем подключать что-то к Python.

Живой обзор Samsung Galaxy Tab 10.1

ilblackdragon Jul 8 2011 at 02:37

Естественно всё кладется в личную кладь и говорится что это личные вещи нужные для работы. Декларацию не нужно было заполнять (Украина). Таким образом провёз в рюкзаке два ноутбука, нетбук, букридер и фотик.

О самой первой компании по производству ПО, и о самом крупном программном проекте в истории США

ilblackdragon Jun 26 2011 at 10:09

Спасибо за статью.
Нету ли какой-то информации какой тест они использовали для выбора программистов?
Может надо его проводить перед приемом на учёбу\работу?

О чём не знал Гордон Мур

ilblackdragon Jun 9 2011 at 19:29

Согласен. Хотел написать «научно доказанной теории» :)

О чём не знал Гордон Мур

ilblackdragon Jun 9 2011 at 18:55

Если уж исходить из такой точки зрения, то вы переворачиваете страницу календаря, и со скоростью света, отраженный от страницы свет попадает в ваш глаз, и там ещё медленнее происходят неизвестные науки процессы, и только тогда вы говорите себе: «Ба, да у моей любимой бабули сегодня днюха!!!».

Так что, опять же информация попала не мгновенно. Как ниже написано — информация материальна, если исходить из физики (блог собственно которой это и есть). Конечно, можно придумать множество гипотез, как может выглядеть мир, где информация на первом месте и тд и тп. Но пока что в физике рулит мнение, что мир материален — а значит и информация, это всего лишь вид материи, который наш мозг воспринимает как какую-то информацию.

Однако как «квантовое запутывание» выходит из этой картины — именно это и имелось в виде автором, под удивительным фактом — ведь это не просто мета-физическое рассуждение о построении мира, это подтвержденный многими учеными факт. Однако под ним, как мне известно, ещё нету никакой научной теории — будь то «информация не материальна» или «фотоны это спец вещества прилетевшие из другой вселенные» или «два фотона находятся на одной струне».

Есть ли у вас устройства со встроенным сканером отпечатков пальцев?

ilblackdragon Apr 9 2011 at 00:58

Ну если я правильно понимаю, то снять можно с любой не рельефной поверхности — линолеум, бумага, стекло, пластмасса, железо, дерево, крашенные поверхности. Проблема скорее, что нужно в течении суток снимать.
Более сложными методами, снимают и с тканей и даже человеческого тела (но в течении малого времени — меньше часа)

Вот цитата отсюда (если мне не верите):

Формирование потожировых следов рук и возможность их выявления порошками во многом зависят от свойств следовоспринимающей поверхности, главным образом от ее рельефа и способности впитывать влагу. Чем мельче рельеф поверхности, чем более она гладкая, тем более четко отражаются детали строения папиллярного узора. Поэтому для образования потожировых следов рук наиболее благоприятными являются поверхности, близкие к зеркальным стекло, лакированное дерево и т.п. На шероховатых поверхностях детали папиллярного узора отображаются хуже или не отображаются совсем, если величина отдельных точек рельефа поверхности превышает высоту валиков папиллярных линий.

Есть ли у вас устройства со встроенным сканером отпечатков пальцев?

ilblackdragon Apr 9 2011 at 00:45

Увы, сам не пробовал — никогда не было нужды.
Метод снятия отпечатков из CSI (хотя простой ввод в гугл даёт тоже самое).

Есть ли у вас устройства со встроенным сканером отпечатков пальцев?

ilblackdragon Apr 9 2011 at 00:23

Ну для ноутбука, по идее хватит снять отпечатки пальцев с этого самого ноутбука. Для этого можно использовать — растолченный грифель (проявляет отпечаток) + скотч (снимает проявленный). Дальше, либо сам скотч с фоном, либо его скан и распечатка — прикладывается к девайсу.

-1