Я навскидку вижу следующие гипотезы, объясняющие этот феномен:
1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)
2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.
Для random forest и extra trees от sklearn такой возможности нет, так что пришлось переложить подбор количества деревьев на hyperopt, который, похоже, за недостаточное количество попыток с задачей полностью не справился.
В отличие от градиентного бустинга, эти алгоритмы не переобучаются с ростом числа деревьев (каждое дерево строится независимо от прошлых результатов), поэтому подбирать, собственно, нечего. Надо просто брать разумно большое количество деревьев (с учетом технических возможностей), да и все.
>Так чем больше радиус, тем больше вариантов посадки. которая растёт в геометрической прогрессии. Более >того, выводить на экран миллион мест = захламлится экран. Лучше показывать несколько точек.
Всегда можно выбрать 2-3 оптимальных по какой-то метрике.
>А я бы нет :)
Вот поэтому я и предлагаю настройку этой опции для конкретного пользователя.
>Но ведь если вы видеет, что там пробка, почему бы не заказать машину к нужному месту. Заказываете такси >на «через 10 минут, вон к тому светофору» и идёте себе пешком.
Я обычно так и делаю (смотрю из другого приложения пробки и прикидываю, куда заказать). Но и то, о чем написано в этой статье — тоже можно делать вручную, а можно автоматизировать.
А радиус в 3 минуты пешком — это технологическое ограничение? Лично я бы в некоторых случаях охотно прошел больше. Типичная ситуация: от метро до следующего перекрестка глухая пробка, а дальше свободно. Мне комфортнее (и дешевле) прогуляться пешком до того перекрестка 5-7-10 минут и сесть в такси уже там.
И, кстати, даже если это не дает выигрыша по суммарному времени, но и проигрыша тоже — то мне все равно часто приятнее идти пешком, чем в пробке стоять. Так что хотел бы в будущем видеть возможность настройки таких параметров.
Во-первых, автор обходит стороной вопрос о памяти (точнее, пишет, что раньше ресурсы процессора и памяти были дорогими, и дальше пишет только про CPU). Постепенно память становится все более узким местом — она дешевеет гораздо медленнее (в последний год в некоторых сегментах вообще подорожала), а упереться в нехватку памяти — это сразу либо резкое замедление работы (если swap есть), либо падение приложения.
Во-вторых, он сравнивает 'median hours to solve problem', и это неправильно. В реальных проектах важно среднее, а не медиана — потому что среднее учитывает те 10-20% затянувшихся задач, которые в итоге и тормозят весь проект, а медиана — нет.
1. Запрос по большому набору критериев, результаты на одной станице. Например:
все туры во все безвизовые страны, продолжительностью 7-9 дней, с вылетом в пятницу вечером или субботу (на любой неделе), с питанием не меньше HB, с рейтингом гостиницы не меньше 4.0, до 15 тыс руб на человека.
2. Это вероятно не к вам как к агрегатору, но если есть возможность на это повлиять — было бы здорово указывать корректную информацию о наличии wifi в отеле. Сейчас например у вас у пяти наугад взятых турецких гостиниц написано «в номере нет, в лобби платно» — почти наверняка в реальной жизни все иначе, и мне перед бронированием приходилось это узнавать про каждую гостиницу вручную, читая отзывы.
В среднем 75% из них верят, что сверхинтеллект («машинный интеллект, серьёзно превосходящий возможности каждого человека в большинстве профессий») появится в течение 30 лет после появления ИИ человеческого уровня.
Вот эта часть меня удивляет больше всего. Что угодно могу представить, но не 30 лет застоя, когда уже достигнут человеческий уровень.
У такого применения кросс-валидации есть принципиальный недостаток. Оно игнорирует факт изменчивости рынка — в частности то, что паттерны не живут вечно. Когда мы проводим обучение скажем на данных за 2014 и 2016 годы, а тестирование на 2015 — получаем завышенную оценку качества предсказания. Более корректная методика — всегда проводить тестирование только на данных, более поздних относительно обучающего набора.
Я пробовал применять тактики типа «пообещаю себе, что поработаю всего 2 минуты, а там втянусь и буду работать и работать», «съем мороженое завтра, а сегодня возьму овощей, а на следующий день повторю», но постепенно уперся в то, что это самообман. Если я кого-то внутри себя уговариваю, что сажусь работать на 2 минуты, а сам надеюсь, что двумя минутами не ограничится — я этого кого-то каждый раз обманываю. Через некоторое время «он» перестает верить, и это перестает работать — «ага, знаем мы эти ваши две минуты».
В итоге пришел к тому, что вместо таких манипуляций лучше честно договариваться: мы работаем не 2 минуты, а полчаса, но через полчаса гарантированно прекратим эти мучения и пойдем есть мороженое.
Прогресс большой, но до «переводчики больше не нужны» еще далеко. Лично я субъективно качество машинного перевода с английского на русский оцениваю так:
1. Полный бред, ничего не понять, но иногда смешно.
2. Сильно напрягшись, можно уловить какую-то часть общего смысла
3. Можно понять, о чем речь, но все-таки проще читать англоязычный вариант, чем такой перевод.
4. Примерно одинаковые усилия нужны на чтение оригинала и перевода.
5. Перевод читается легче.
Как правило, хороший художественный перевод, сделанный профессиональным переводчиком-человеком, однозначно попадает в категорию 5. Любительский перевод технического текста (многие переводные статьи в блогах, например) — в категорию 4. А Google сейчас для меня перешел из категории 2 в 3, и пока это все.
В обоих случаях это защита от зависти. Там, где можно повлиять на ситуацию напрямую — все довольно просто, устраняется сама ситуация и не придется завидовать получившему больше, и потеря ресурсов оказывается приемлемой оплатой за избавление от зависти. Там, где повлиять нельзя, за счет отказа человек выводит себя за рамки ситуации — «раз так, я в эту вашу игру вообще не играю».
Не согласен насчет «кружок намертво привязан к преподавателю». Мы робототехнику преподаем втроем, сменяя друг друга — у этой схемы есть свои плюсы и минусы, но в целом она оказалась работоспособна.
Согласен насчет важности работы с эмоциями — вообще, преподаватель для детей помладше это фактически родительская роль, а вопросы передачи технических знаний оказываются на втором месте.
Ну и с возрастом у нас еще более противоречивая ситуация: пик интереса у 5-6 летних, для которых наша программа заведомо сложна, но им больше всех хочется попробовать. Возможно, стоит создавать отдельные группы для младших с более простой программой.
Есть какая-то связь с уровнем продавца, но не такая однозначная. У нас мелкий районный провайдер интернета принимает платежи без запроса 3D Secure, в отличие от например РЖД или Аэрофлота.
Со всем согласен, кроме вот этого признака «пришли ради заработка». На мой взгляд, это просто разные области интересов — кому-то ближе теоретическое, фундаментальное и абстрактное, кому-то — практическое воплощение в виде решений конкретных задач. Практические задачи чаще оказываются ближе к деньгам, но совсем не факт, что мотивация людей «инженерного склада» этим определяется.
А что у вас за специализация? Я понимаю, что эта статья о другом, но все-таки по-моему ключевой вопрос в том, как убедить потенциального работодателя, что ему нужно через все эти круги ада проходить ради работника не из ЕС да еще и без в/о. Лично мне было бы про эту сторону вашего опыта почитать — буду рад, если напишете статью об этом.
Тут в комментариях очень много написано о том, что нестандартность это хорошо, для творческого человека необходимо, что врачи могут шаблонно трактовать какой-то особый взгляд на мир как болезнь и т.п. У меня когда-то тоже было такое мнение, но по мере накопления жизненного опыта я стал меньше противопоставлять оригинальность и нормальность.
Теперь я вижу, что они не являются взаимоисключающими — это два качества, каждое из которых важно. Человек, обладающий обоими, может хорошо адаптироваться в обществе, находить взаимопонимание с «нормальными» людьми, но при этом быть нестандартным, изобретательным, видеть неочевидные аспекты и взаимосвязи там, где это имеет смысл.
Ладно базы на Луне — мы насморк толком не научились эффективно лечить. Но в информационном мире прогресс идет быстрее, чем в материальном, поэтому для задач, хорошо сводимых к вычислениям, недооценки сложности встречаются реже.
Для создания алгоритмов применяются эволюционные методы (например, генетическое программирование). В частности, есть примеры как раз успешного создания алгоритма сортировки массива. Но это относительно непопулярное ныне направление.
про не богатую — это шутка? 4-е место в мире по ВВП на душу населения однако.
1. Выдуманные имена (про это уже писали выше). Причем тут много вариантов может быть — не только боты. Кому-то может не нравиться паспортное имя, кто-то может скрываться от родных и знакомых, кто-то может вести двойную жизнь (один аккаунт в отношениях, другой — в активном поиске) и т.п. И вполне вероятно, что склонность писать выдуманное имя коррелирует одновременно с большей редкостью имени и с более одиноким статусом аккаунта. (Как предельный вариант — девушка, предлагающая интимные услуги за деньги и ищущая клиентов в соцсети, практически никогда не поставит в профиле настоящее имя и практически всегда будет 'в активном поиске' или около того.)
2. Влияние семьи. Обладатели редких имен могут быть представителями этнических меньшинств (про это в статье есть) со своими культурными особенностями. А могут быть детьми, выросшими в семье, где родители предпочитают давать редкие имена — чтобы дети выделялись, например. Возможно, родительское послание «выделяйся», столь явно переданное, тоже коррелирует с одиночеством.
В отличие от градиентного бустинга, эти алгоритмы не переобучаются с ростом числа деревьев (каждое дерево строится независимо от прошлых результатов), поэтому подбирать, собственно, нечего. Надо просто брать разумно большое количество деревьев (с учетом технических возможностей), да и все.
Всегда можно выбрать 2-3 оптимальных по какой-то метрике.
>А я бы нет :)
Вот поэтому я и предлагаю настройку этой опции для конкретного пользователя.
>Но ведь если вы видеет, что там пробка, почему бы не заказать машину к нужному месту. Заказываете такси >на «через 10 минут, вон к тому светофору» и идёте себе пешком.
Я обычно так и делаю (смотрю из другого приложения пробки и прикидываю, куда заказать). Но и то, о чем написано в этой статье — тоже можно делать вручную, а можно автоматизировать.
И, кстати, даже если это не дает выигрыша по суммарному времени, но и проигрыша тоже — то мне все равно часто приятнее идти пешком, чем в пробке стоять. Так что хотел бы в будущем видеть возможность настройки таких параметров.
Во-вторых, он сравнивает 'median hours to solve problem', и это неправильно. В реальных проектах важно среднее, а не медиана — потому что среднее учитывает те 10-20% затянувшихся задач, которые в итоге и тормозят весь проект, а медиана — нет.
1. Запрос по большому набору критериев, результаты на одной станице. Например:
все туры во все безвизовые страны, продолжительностью 7-9 дней, с вылетом в пятницу вечером или субботу (на любой неделе), с питанием не меньше HB, с рейтингом гостиницы не меньше 4.0, до 15 тыс руб на человека.
2. Это вероятно не к вам как к агрегатору, но если есть возможность на это повлиять — было бы здорово указывать корректную информацию о наличии wifi в отеле. Сейчас например у вас у пяти наугад взятых турецких гостиниц написано «в номере нет, в лобби платно» — почти наверняка в реальной жизни все иначе, и мне перед бронированием приходилось это узнавать про каждую гостиницу вручную, читая отзывы.
Вот эта часть меня удивляет больше всего. Что угодно могу представить, но не 30 лет застоя, когда уже достигнут человеческий уровень.
В итоге пришел к тому, что вместо таких манипуляций лучше честно договариваться: мы работаем не 2 минуты, а полчаса, но через полчаса гарантированно прекратим эти мучения и пойдем есть мороженое.
1. Полный бред, ничего не понять, но иногда смешно.
2. Сильно напрягшись, можно уловить какую-то часть общего смысла
3. Можно понять, о чем речь, но все-таки проще читать англоязычный вариант, чем такой перевод.
4. Примерно одинаковые усилия нужны на чтение оригинала и перевода.
5. Перевод читается легче.
Как правило, хороший художественный перевод, сделанный профессиональным переводчиком-человеком, однозначно попадает в категорию 5. Любительский перевод технического текста (многие переводные статьи в блогах, например) — в категорию 4. А Google сейчас для меня перешел из категории 2 в 3, и пока это все.
Согласен насчет важности работы с эмоциями — вообще, преподаватель для детей помладше это фактически родительская роль, а вопросы передачи технических знаний оказываются на втором месте.
Ну и с возрастом у нас еще более противоречивая ситуация: пик интереса у 5-6 летних, для которых наша программа заведомо сложна, но им больше всех хочется попробовать. Возможно, стоит создавать отдельные группы для младших с более простой программой.
Теперь я вижу, что они не являются взаимоисключающими — это два качества, каждое из которых важно. Человек, обладающий обоими, может хорошо адаптироваться в обществе, находить взаимопонимание с «нормальными» людьми, но при этом быть нестандартным, изобретательным, видеть неочевидные аспекты и взаимосвязи там, где это имеет смысл.