• В России впервые прошли соревнования беспилотных автомобилей, до финиша добрался только один
    0

    Меня в конце мая покатали. Очень у них все неплохо. Я бы сказал Yandex в топ 3 в мире.


    https://youtu.be/qemDPF-PFs4

  • Как я поступал в 18 университетов США
    +1

    Я думаю, что вам больше подойдут H1b, O1, L1.

  • Как я поступал в 18 университетов США
    +4

    Нормальный там бакалвариат, но сильные вузы США с точки зрения бакалавриата не выше МГУ, МФТИ и прочих сильных Российских вузов. Особенно если говорить про физику, математику.


    Поэтому учится в бакалавриате в хорошем вузе в России на бюджете, а в аспирантуре в хорошем американском вузе за счет принимающей стороны — это с финансовой и прочих точек зрения рабочий вариант. Более симпатичный, нежели за свой счет в бакалавриате в США.


    Аспирантура в США и правда хороша, мне понравилось. Хотя, конечно, там тоже непаханное поле неэффективностей и простора для улучшений.


    В Российской не учился, не знаю. Но сама идея хорошо двигать науку и в это же время зарабатывать деньги — выглядит малореалистично. Это была одна из причин почему мой выбор пал на американскую.

  • Как я поступал в 18 университетов США
    +7

    Я бы делал чуть по-другому.


    Учиться в бакалавриате в США не очень понятно зачем. Сложно поступить без оплаты. Если же поступать с оплатой из своего кармана, то дорого. При этом по качеству обучения бакалвриат в США — так себе. А вот аспирантура впереди планеты всей.


    Так что если было бы желание заниматься наукой, то поступать надо было бы в американскую аспирантуру, причем делать, начиная со 2 курса бакалавриата. Магистрский диплом не дает никаких преимуществ при поступлении в аспирантру, так что идти в Беларуси туда не надо было бы. И заниматься экзменами TOEFL, GRE + всеми этими essey нужно было бы на 2-3 курсе бакалавриата.


    Во время обучения в бакалавриате я бы подавал бы на стажировки в различные компании Google, Facebook и т.п.


    Это и деньги и знания и строчки в резюме.


    Rebryk как раз на днях выпустил интервью Вике Бородиной о своих интернатурах. На фоне того, что он рассказывает, и тех дверях, что это открывает бакалавриат в США выглядит блекло.


    https://www.youtube.com/watch?v=WNhHDgfnb9o

  • Британские спутниковые снимки 2: как все было на самом деле
  • Необразованная молодёжь. Ответ бизнеса
    +1

    Так и есть. Но вот мои одногруппники, которые привыкли жить на $25k в год в аспирантуре считали за счастье, когда им предлагали $40-60, или же были эпизоды, когда они озвучивали $100k, а работодатель им в ответ: "Ну у тебя же опыта работы нет, поэтому мы тебе будем платить вот столько-то, зато дадим laptop и ты у нас многому научишься и вообще наша контора не такая как все" и они на это покупались.


    Но у них у всех было общее, что наглости было маловато, и то, что они не желали сутками учиться, закрывая дыры в знаниях, а хотели как-то чтобы их наняли исключительно с тем, что у них было после окончания вуза.

  • Необразованная молодёжь. Ответ бизнеса
    +3

    Наброшу, как человек с зашкаливающим ЧСВ.


    Сразу после выпуска с универа по специальности физика, то есть имея 0 лет стажа, начал искать работу в Data Science. Вакансии с окладом меньше $10,000 грязными в месяц я не рассматривал, ибо не смешно.


    Как ни странно, работу я нашел, правда на галере, и даже текст на эту тему написал на хабр.


    Одногруппники, которые искали похожего типа позиции так сильно борзометр подручивать не стали и рассматривали гораздо менее высокооплачиваемые позиции, которые они и получили в итоге.


    Это я к тому, что дерзость и прочее ЧСВ это не всегда плохо, а скорее даже хорошо, ибо рынок все выровняет и кому-то прийдется поднимать зарплаты работникам, а кому-то понижать свои зарплатные ожидания до адекватного уровня и начинать активно заниматься самообучением.


    Через 8 месяцев я поменял работу, во-первых, потому что работать на галерах — это не мое, а во-вторых, потому что выяснилось, что $10,000 грязными в месяц — это сильно ниже рынка для моего набора навыков. Не последнюю роль сыграло то, что контора использовала MatLab, что среди Data Science в 99% случаев будет рассматриваться, как устаревшая технология, а очень хотелось качать скилы в чем-то более модном, молодежном, эффективном и востребованном.


    Но в целом, этот комментарий, конечно, наброс, потому что у меня дело происходило в Кремниевой долине, а тут своя специфика.

  • Материалы летней школы Deep|Bayes по байесовским методам в глубинном обучении
    +1

    А какие есть школы в США такого же уровня по смежной тематике?

  • OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению
    0

    Я думаю, что 11 классники с физмат школ по уровню математики потянут. За все школы не скажу, но то, что нам давали в ФМЛ 239 должно хватить и на курс и на то, чтобы в топ Kaggle уйти.

  • Лекция Владимира Игловикова на тренировке Яндекса по машинному обучению
    +2

    Крест ставить ни в коем случае не надо! Дорогу осилит идущий.


    Каждое свое публичное выступление я затачиваю под какое-то послание. Когда лекции в универе читал мне хотелось, чтобы мои студенты мало того, чтобы поняли и запомнили ту физику, что я им рассказываю, так еще и поняли, что физика, да и наука вообще — это круто и интересно.


    Когда я выступаю перед англоязычной аудиторией я стараюсь рассказывать больше по технической части, это приводит к расширению сети знакомых, которым эта тема интересна, ну и работу, конечно, чуть проще искать, если светишь лицом среди правильной аудитории и говоришь по делу.


    Данное же вступление в Yandex имело своей целью убедить аудиторию, что в весь этот ML / DL порог вхождения гораздо ниже, чем может показаться после прочтения всех тех блог постов в которых маректологи жонглируют красивыми словами про искусственный интеллект.


    Так вот, в DL мало железа не бывают, и, чтобы быстро итерировать, а это необходимое условие, для ухода в топ, наверно, лучше что-то помощнее.


    Но если стоит вопрос:"Как начать решать задачи в DL?", то 960M — это нормально.


    И не надо забывать про всяческие программы и бонусы, которые иногда падают от Google Cloud и AWS.


    А если есть немного лишних денег, то за 99 евро на Hetzner можно арендовать машину c GTX 1080.


    P.S. Послание, кстати, зашло. После того выступления Александр Буслаев решил попробовать соревнования по компьютерному зрению и за прошедшие два месяца достиг очень впечатляющих результатов. Так что, как минимум одного человека я убедил.

  • Лекция Владимира Игловикова на тренировке Яндекса по машинному обучению
    +3

    Пару недель назад у меня таки дошли руки написать более развернутую, при этом менее техническую, версию событий связанных с этой задачей, но с политотой и байками: "Британские спутниковые снимки 2: как все было на самом деле"

  • Британские спутниковые снимки 2: как все было на самом деле
    0

    Я и сам толком не знаю. Единственная задча с которой я сталкивался для плотно упакованных объектов — это задача про подсчет морских котиков, а в июне я как раз в отпуске в Питере был, так что на задачу смотрел по диагонали и обчитаться литературой на эту тему не успел.


    Можно попробовать посмотреть выступление Кости Лопухина в Yandex, он рассказывает про свой подход и упоминает решения других участников.


    Или, более фундаментальный вариант — присоединится к слаку ods.ai и спросить в профильном канале #deep_learning, наверняка кто-то по работе или по науке с этим сталкивался.

  • Британские спутниковые снимки 2: как все было на самом деле
    0
    • Количество эпох.
    • Другая реализация. В Faster RCNN море параметров. Такое ощущение, что в реализации от MXNet все мелкие детали лучше выверены.

    Но прямого сравнения я не делал, возможно, при правильной тренировке и одинаковых параметрах обе реализации показали бы одинаковую точность.


    На последней задаче которую я решал, попробовал PyTorch. Пока очень нравится. Порог вхождения чуть выше, чем в Keras, но внятная документация, удобно осуществляется Data Parallelization, удобно сделан batch generator, сильно подкупает. Очень всем рекомендую.

  • Британские спутниковые снимки 2: как все было на самом деле
    +1

    Спасибо. Меня это действительно искренне радует.

  • Британские спутниковые снимки 2: как все было на самом деле
    0

    Спасибо. Поправил.

  • Британские спутниковые снимки 2: как все было на самом деле
    +1

    Немного офтопик, но вчера наша команда взяла седьмое место в задаче Planet: Understanding the Amazon from Space


    Там как раз спутниковые снимки. На тему нашего решения тоже будет блог пост, правда не сейчас, а чуть позже. Другое дело, что там не было никакой драмы, а было много нейронных сетей, которые склеили в ансамбль. Так что текст будет технический.

  • Британские спутниковые снимки 2: как все было на самом деле
    +2

    Когда я думал над названием, была мысль не называть снимки спутниковыми, но с одной стороны cтатья позиционируется как нетехническая, а с другой, очень хотелось не потерять связь с первой частью, в которой как раз спутниковые снимки и были.


    Но это дейтствительно аэрофотосъемка. Удивительно, что вы первый, кто указал на эту неточность.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Можно было делать valid. Про размазывание crop2d с кропом в один пиксель после конволюций c same — это я спросоня написал :)


    Но valid неудобно именно по соображениям, что написал Костя — надо думать про размеры, что замедляет скорость итераций.


    Очень хотелось проверить, что будет на краях, если вместо same использовать reflection padding и как это скажется на краевых эффектах, но руки не дошли.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    +2

    Я пробовал делать так, как описано в оригинальной статье, где они начинают с 512x512 и добавляют crop2d после каждого конволюционного блока и на выходе получают 388x388.


    В чем логика выбора размера кропа я не разбилася, но кропают они там очень агрессивно.


    И, так делать не надо. Работает плохо. Все более поздние работы, которые основаны на этой архитектуре поступают по другому. Более адекватный и менее ресурсоемкий вариант — забить, как Марко и сделал по ссылке, которую вы указали. А предсказывать с перехлестом, который позволяют вычислительные ресурсы.


    Наверное можно, размазать наш crop2d на 16 пикселей на весь encoding block (16 crop2d, которые кропают по одному пикселю), но было лень. Хотя в следующий раз я, возможно, озадачусь. Это позволит слегка уменьшить число вычислений.


    Хотя вычислять все-таки можно. Например, на картинке которую вы указали используется 5x5 conv, то есть 2 пикселя по краям после этой свертки убиваются и их можно кропнуть.


    При написании этого поста, мне было лень рисовать нашу сеть, но при подготове текста на Kaggle cepera_ang все-таки ее изобразил. То, что мы по фaкту использовали, выглядит так:


    image

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Когда мы добиваем нулями по краям края плывут. Тут можно говорить про то, что они меняют распределение. (Где-то мне попадалось Andrew Karpathy на эту тему переживал)


    Интуитивно, если использовать свертки 3x3 — то каждый раз, один краевой пиксель портится => 16 сверток => 16 пикселей пролетает. Этой логикой мы и руководствовались. При напсиании поста на kaggle хотелось добавить структуры к повествованию, так что мы сделали то, до чего руки не доходили раньше — мы замерили это все и получилось вот так:


    image


    То есть да, 16 пикселей по краям — беда.


    Была идея применить reflection padding, вместо ZeroPadding, тем более, что он есть в Tensorflow, но опять же руки не дошли.


    На тему пикселей и receptive field => нам попадались статья, где как раз исследовалось, как точность убывает к краям. Там было много красивых слов, но по факту они просто замерили для какой-то архитектуры сети на каких-то данных, построили графики и этого хватило на статью.


    Списывать падение точности предсказания к краям только на zeropadding будет не правильно. Банально число путей добраться из любого пикселя на входе в любой пиксель на выходе как раз и будет функцией от того, как далеко этот выходной пиксель на выходе. Под это дело можно придумать много математики и написать что эта функция ни что иное как гауссиана, или еще что-нибудь.


    Но на практике достаточно прогнать сеть, посмотреть как точность на train убывает к краям и эти края перехлестывать или обрезать. Или и то и другое. Теории, лучше чем подсчитать число padded pixels на всем пути нет.


    Как усреднять перехлест — я бы делал через геометрическое среднее, на практике, обычно, хоть и не всегда, это работает лучше, чем арифметическое. Хотя тут можно много чего накрутить.

  • Спортивный анализ данных, или как стать специалистом по data science
    +2

    Kaggle — это не все, и даже и не рядом. Но это очень много. И с грамотным наставником или в сильном коллективе все это идет гораздо лучше — это факт.


    Про менторство понятно, у тебя в описании профиля написано. А вот в разрезе соревновательного машинного обучения. Не мог бы ты поделиться ссылкой на свой Kaggle profile?


    Вот если сейчас выяснится, что ты сам крут неимоверно на соревнованиях и рассуждаешь, обладая знаниями по ML, собранными и на работе, и в академической среде, и на соревнованиях — я думаю, что всем это будет очень интересно обсудить.


    Вот пока, с дивана, эта твоя реплика выглядит как:"Пастернака не читал, но осуждаю", что очень печально, тем более, что ты кого-то чему-то за деньги учишь.

  • Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit
    +3

    Классная статья, жаль не могу второй плюс поставить.


    Но есть вопрос: VW силен тем, что может быстро и может online, что позволяет рыботать на больших объемах данных.


    А вот если таких ограничений нет? И данных не так много — пара десятков миллионов записей и online обучение не требуется, какие есть альтернативы к VW, которые могут показать большую точность на том же типа данных?


    Банально, те же отзывы IMDB, точно так же почищенные данные, но вместо VW, использовать Tf-Idf + logistic regression, как соотносится точность модели?

  • Война машин: PVS-Studio vs TensorFlow
    0

    А вот это очень красиво и правильно. За это спасибо.


    Раз уж речь зашла про машинное обучение, У вас нет в планах проверить пакет xgboost ?

  • Похоже, я не предприниматель
    0

    Не по теме, просто навеяло постом.


    Пару месяцев назад интервьюировался в стартап под названием Osaro.


    Они пытаются работать над алгоритмом, который позволит программировать универсальных роботов, типа того, что разрабатывал автор поста, правда с добавление камер. Они пытются работать в направлении Reinforecement Learning, например, в режиме imitation learning, типа: наснимал с разных точек видео как на заводе похожие роботы машину собирают на конвеере, скормил программе, та обсмотрелась этих видео и можно руку + программа ставить на конвеер.


    Задача крайне интересная, но когда я на onsite интервью их долго распрашивал про все это дело с точки зрения бизнеса, что они хотят и что они умеют, увиливали в том смысле, что: "У нас есть пара пилотных проектов" и "Инвесторы в нас верят".


    В них, как в бизнес я не верю, а вот то, что их могут купить кто-то большой за их наработки — вполне. Жаль они пропали после onsite interview, ни да, ни нет.

  • Война машин: PVS-Studio vs TensorFlow
    –1

    Я стесняюсь спросить, а вы найденные недостатки собираетесь оформить в виде баг репортов на github?

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Лучше в слаке Open Data Science


    Причем там можно даже и не в личку писать, хотя и так, конечно, можно, а сразу в каналы:


    deep_learning, ml_beginners, kaggle_crackers, и т.д. Народу много, ответят по делу и быстро.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    +1

    Хорошой вопрос. Есть замечательная книжка Deep Learning. Под эту задачу, наверно, можно обчитаться статьями которые говорят про image segmentation.


    Но самое быстрое, это, наверно, просто взять какую-то задачу, и если нет ничего подходящего под рукой, то задача про морских львов, которую обсуждали выше, хорошо подойдет. Там и литература будет читаться, и код писаться и прийдут все необходимые данные под ту задачу, а часть из них можно будет перенести и на другие.


    Хотя если есть какие-то конкретные вопросы — я готов попытаться указать где почитать.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Однако. Thomas парень серьезный, но в DL заслуг за ним вроде не числится. Надо сунуться.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Она есть только у организаторов, так что мы никогда ее не увидим. Другое дело, что делать submissions можно и сейчас, так что оценить точность предсказаний на test можно.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    +2

    Если почитать форум после окончания каждого соревнования, то участники делятся идеями и трюками, которые они пробовали и там обычно очень много креатива.


    Конкретно c выбором random seed вот такой трюк, дает он мало, но когда борешься за пятый знак после запятой, что часто встречается на Kaggle, то вполне себе работает.


    Пусть есть данные, пусть есть задача бинарной классификации и пусть у нас положительных исходов в 100 раз больше, чем отрицательных. Путь мы хотим разбить данные на 5 folds. Делаем рандомно. Делаем крос валидацию, смотрим на mean предсказаний и std.


    std большое. Что получилось? Единичек мало и получилось что в каких-то фолдах их сильно меньше, чем в других.


    Собственно для решения этой проблемы и придумали stratified Kfold, то есть чтобы при разбиении распределение по классам в разных фолдах стало одинаковым.


    Проверяем, std предсказаний с разных фолдов стало меньше.


    Можно усугубить? Можно.


    Идея в том, что если в данных хватает outliers, то их может неравномерно раскидать по фолдам. Но мы не знаем какие именно ряды — это аутлаеры, да даже если бы и знали, просто дропать их сомнительное решение.


    И вот тут появляется трюк:


    Мы берем простую, быстро тренируемую модель, и в цикле делаем разбивку на startified folds с различными random_seeds, на каждой разбивке тренируем модель, смотрим на std, и выбираем тот random_seed, где std небольшой.


    Но, повторюсь, трюки вроде этого это там же где и технология stacking, то есть чисто под соревнования, да и то, далеко не под все. На работе так делать не надо.

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    0

    Под этот вопрос можной целый пост написать, но если в двух словах, все, как обычно, сводится к эффекту Даннинга — Крюгера


    Про Kaggle слышали все, а вот число тех, кто пробовал работать хоть над одной задачей, в районе одной десятой от одного процента от общего числа. И, наверно, многие бы хотели попробовать, но не смотря на то, что порог вхождения в Kaggle по знаниям достаточно низкий, требования по затрачиваемому времени и по железу многих отпугивают.


    Опять же среди коллектива есть мнение, что читать выжимку решения победителей и сделать такое же решение самому — это одно и то же, хотя, эти две вещи даже и не в одной вселенной.


    Плюс у всех мозги промыты стандартной пропагандой Долины, что твоя единственная цель в жизни: "bring value to the company", поэтому подсознательно все вне этого имеет сильно меньшую ценность. Что в общем тоже имеет под собой основу, от прототипа модели до production путь достаточно долгий.


    В общем среди тех, кто пробовал работать хоть над одной задачей Kaggle котируется — их просто очень мало. Есть надежда, что после того, как Google купил Kaggle у него поднимется статус и больше людей закатают рукава и начнут что-то пробовать, тем более, что в последнее время идут очень интересные задачи.


    Есть исключения, вроде компаний H2O или DataRobot, но в их бизнес модель каглеры замечательно вписываются, поэтому они народ из top 100 и нанимают и для них кагловые ачивки засчитываются.


    У тебя очень сильные посты про компьютерное зрание. Жаль посты плюсовать уже не могу, поставлю в карму.


    Ты сейчас работаешь над какой-нибудь задачей на Kaggle по этой тематике?

  • Kaggle: Британские спутниковые снимки. Как мы взяли третье место
    +3

    В top 100 на Kaggle с точки зрения ML очень серьезные люди, а он даже не в сотне, он в 30-ке.


    На предыдущем соревновании по image segmentation мы финишировали примерно одинаково (я 10, он 12), поэтому я предполагаю, что в это соревнование с точки зрения DL мы вошли примерно на одном уровне по знаниям, но судя по тому, что он делал все возможные submission каждый день я думаю, что он изначально нацеливался на победу, в то время как мне больше интересны знания, то есть он рассматривал эту задачу значительно более серьезно.


    На этой задаче вполне можно работать в одиночку если хватает domain knowledge и опыта работы с изображениями, что Евгений Некрасов, Дмитрий Цыбулевский и другие участники в топе и продемонстрировали.


    У нас ушло много времени, как на инженерные нюансы, так и на то, чтобы разобраться с тем, как работа со спутниковыми снимками отличается от обычных задач сегментации.


    Если не тратить на это время все можно делать гораздо быстрее, что, будем надеяться, я смогу продемонстрировать на какой-нибудь другой задаче сегментации.


    Суммируя — я думаю, что работал он сам, без поддержки. И тот факт, что он держится на первом месте на задаче про тюленей только укрепляет меня в этой мысли.

  • Открытый курс машинного обучения. Тема 6. Построение и отбор признаков
    0

    PCA неплохо работает.

  • Открытый курс машинного обучения. Тема 6. Построение и отбор признаков
    +1

    Еще интересный прием отбирать признаки через xgbfir, анализируя натренированную модель xgboost.

  • Как мы проводим собеседования в Pivotal
    +1

    Собеседовался на позицию Data Scientitst в офис Pivotal в Palo Alto. Onsite интервью было вполне типичным.


    • Презентация о каком-нибудь проекте связанным с данными.
    • Разговор за жизнь с Head Of Data Science
    • Задачки на ML алгоритмы с тремя членами команды на протяжении трех последующих часов.

    Задач на инвертирования деревьев и подсчета гномиков не было, это да. Но и поработать с командой весь день — такого не было. Может под другие позиции, а может ввели позже.


    Из неприятного — после oniste интервью обо мне забыли или положили про запас, работая с другими кандидатами — ни да, ни нет. Раз в неделю писал рекрутеру, а в ответ — вот прямо сейчас команда уже буквально обсуждает feedback после интервью и через пару дней будет ответ.


    Через месяц мне надоело — я написал и вежливо послал их в пешее эротическое путешествие и принял офер от другой конторы.

  • Нейронные сети: практическое применение
    +1

    Очень бы хотелось сравинить свой навык работы с нейронными сетями специалистов — то есть Наталью сотоварищи и любителей, то есть меня. MegaFace был в том году и это прекрасно, но на тот момент я о нем не знал и узнал о нем после их убедительной победы.


    Никто не знает, представители компании, часом, не участвуют в:



    Обе задачи достаточно инетерсные, а за вторую призерам дают миллион баксов в приз, что привлекает серьезных и не только участников. Ну и к 3D изображениям в медицине имеет наипримейшее отношение.

  • Финские школы: мифы в международной прессе, особенности контекста и новые технологии
    0

    Школы уровня питерского Физико-Математического Лицея 239 в Финляндии есть?

  • Как я сделал самый быстрый ресайз изображений. Часть 0
    +1

    Большое спасибо. Замечательный проект и замечательный пост. Пара вопросов.


    [1] cv2 умеет делать resize для картинок с большим количеством каналов > 3. PIL-SIMD так умеет или надо разрезать на куски по 3 слоя, менять размер, и склеивать обратно? (В задаче про спутниковые снимки на Kaggle приходится работать вплоть до 20 каналов.)


    [2] cv2 автоматически распараллеливает операцию resize. PIL-SIMD так умеет?


    [3] Рабоче-крестьянский вопрос — если забить на производительность, какой тип сверток субъективно обеспечивает наилучшее качество? Cubic?

  • Kaggle и Linux. Digit Recognizer for analysts (для начинающих аналитиков)
    0

    Спасибо, за подробное описание.


    Но по MNIST очень много туториалов расчитанных под читателей разного уровня.


    Я думаю, что туториалы по каким-то менее заезженным данным были бы более востребованы публикой.


    Например, хорошая задача про спутниковые изображения на Kaggle.com, которая проходит прямо сейчас — участникам предложено отмаркировать спутниковые снимки попиксельно, что дорога, что машина, что река, а что урожай.


    Задача похожа на классическое image segmentation, но обладает своей спецификой. Было бы замечательно получить туториал, который опишет, как подступится к этой задаче, а еще лучше, как получить достойный результат.


    image

  • Random Forest: прогулки по зимнему лесу
    0

    В 95% случаев на данных смешанного типа, с размером train set в диапазоне 10^4-10^7 ансамбли деревьев обойдут все остальные алгоритмы и часто с сильным отрывом. И ваша задача про армреслеров при наличии достаточного числа данных в эту категорию и попадает.


    Какие признаки использовать? Добавляйте все сколько фантазии / опыта хватит и выкидывайте все те, что не работают или "шумят".