Comments / Profile of molec / Habr

Александр @molec

User

ProfileArticles2PostsNewsComments129

Распознавание номеров. Практическое пособие. Часть 1

molec Jan 25 2019 at 06:24

Спасибо. Большую часть пунктов выполнял, но выборки, очевидно, не хватило.

Look

Распознавание номеров. Практическое пособие. Часть 1

molec Jan 24 2019 at 08:08

Молодцы, что довели решение до конца!
Можете дать совет, куда копать? Есть задача распознавать печатные цифры на произвольно (но без экстрима) изогнутом и повернутом листе бумаги. Шрифт один, букв нет, исходное соотношение сторон листа известно. Соответственно, вход может содержать довольно большие куски фона для листа, т.к. вырезается из исходного изображения лист вместе с фоном. Для простоты примем, что заломов нет. Вроде бы и простая задача, но сколько не мучил ssd сеть — точность находится на крайне низком уровне.
Какой понадобится объем обучающей выборки для каждого из 10 классов? Какую архитектуру лучше выбрать?

Look

Нейросети и философия языка

molec Jan 14 2019 at 14:54

Мне кажется, мозг работает скорее в бесконечномерной модели.

Например, ребенок узнает, что его папа работает пилотом. Слову пилот проставляется признак профессия, для начала хватит. Потом он узнает, что пилот управляет самолетом, проставляется признак, что он летает в небе. Потом он узнает, что у его отца есть коллеги — стюардесса и штурман, второй пилот. Чтобы дифференцировать эти профессии, проставляются флаги управляет самолетом, принимает решение и т.п. Потом он узнает про военных летчиков и уточняет, что гражданский пилот возит людей. Потом узнает, что есть еще гражданские пилоты, которые летают на транспортных самолетах и т.п. Т.е. он добавляет все новые и новые свойства к уже знакомому понятию. При этом, если у него есть дальний родственник шахтер, это слово долго будет оставаться просто профессией, без доп флагов. Т.е. в интересной человеку области осей будет больше, в неинтересной — меньше.

И в итоге жезненного опыта, учебы и работы между mssql и mysql в моей голове огромная дистанция, хотя большинство составляющих вектора для них одинаковы (и сами вектора длинные), а между сатином и атласом разницы толком нет, вектора короткие. Думаю, в голове моей девушки ситуация обратная :)

Look

О счастье разработчиков и где его найти

molec Jan 11 2019 at 15:05

Работал я в компании, где нормально платили, но счастья все равно как-то не видно было и людей искренне поздравляли с увольнением. Огромные душные кабинеты на 50, 100 и более человек, неопределенный процесс разработки с бесконечными переключениями задач, общий низкий профессионализм, перетасовки кадров, структуры и целей раз в полгода минимум. Вроде и переработок нет, и офис в целом не ад, с железом проблем в общем нет, и платят хорошо. Но вечный стресс, полное отсутствие ощущения сделанной работы и принесенной пользы, безумные метания вечноменяющегося руководства, бюрократическая волокита. И это убивает не хуже безденежья, текучка кадров такая, что отдел из 10 человек полностью обновляется года за полтора-два.

Look

Предсказываем время решения тикета с помощью машинного обучения

molec Dec 28 2018 at 08:34

Молодцы, что пробуете столько вариантов!
Разброс между трейном и тестом очень велик, что обычно говорит либо о перетрене, либо о плохом разбиении, либо о неподходящей модели/фичах.
По-моему, стекинг начали очень рано, моделям явно не хватает качественных предикторов. У задач нет оценочного времени исполнения, заявленного постановщиком? Оно наверняка резко бы улучшило модель. Нет информации о родительском проекте, сфере реализации, количестве затронутых проектом фич и т.п.?
Обычно в учебных проектах стараются сначала дать модели объективные данные, напрямую связанные с задачей, желательно в числовом виде. То, что использовали бы вы сами для построения простой модели на бумаге. И лишь потом дотюнивают уже неплохую модель категориальными фичами, one-hot encoding, мета информацией. И уже эти неплохие сами по себе модели стекают, чтобы получить последние доли процента точности.

Look

В погоне за лучшим

molec Dec 25 2018 at 14:49

Жестковато.
Люди после 3-6 месяцев не потянулись на выход?
Как по мне, в таком режиме можно выполнять только простейшие, разжованнейшие задачи. Возьми там, положи туда, умножь и сложи. И то возможны конфликты типов данных, проблемы масштаба, скорости работы и т.п.

Где-то читал, что достижимый результат для программиста — работать 5 часов в день, час через час, большинство либо работает меньше, либо не то чтобы программирует. Программирование != только написание кода, большая часть работы — его обдумывание, в т.ч. неявное. Плюс оформление, тесты, приемка, доработка ТЗ, доставка до прода.

Look

Рождественская история

molec Dec 13 2018 at 10:01

Ух. Если честно, я бы очень не хотел, чтобы аудио файл моих разговоров с врачом бесконтрольно вместе с его расшифровкой летал между кабинетом, клиникой и Вами. Я надеюсь, что данные обрабатываются максимально неперсонализированно, но вероятность проблем с конфиденциальностью сильно больше, чем если бы всего этого не было.

Зачем вообще хранятся историчные аудио, если уже есть их расшифровка? Производятся ли какие-то шаги, чтобы снизить возможный урон? Алгоритм разбора настолько тяжелый, что его совсем нереально запускать на АРМ врача?

Look

Я порчу разрабам жизни своими код ревью и больше так не хочу

molec Dec 12 2018 at 08:08

Где-то читал (и не ручаюсь за достоверность) про разницу в манере общения. У англоязычного человека есть посыл не лезть с непрошенными советами. Да, он замечает ошибки/тупость/наивность вопроса, но его научили не раздавать советы, которые от него не требовались. Если бы был запрос на это, он бы тоже все это подметил. И до кучи есть четкое понимание цели коммуникации. У нас же раздавать советы — это норма, а в одну коммуникацию впихивают все, включая психологическую помощь себе любимому за счет унижения собеседника.

Look

Как прогнозировать спрос и автоматизировать закупки с помощью machine learning: кейс Ozon

molec Dec 5 2018 at 11:25

А еще сюда же крайне изменчивая реакция на скидку, новинки и вывод позиций, взаимное влияние акций на товары-конкуренты и наоборот товары, дополняющие друг друга в корзине и т.п.
При этом, категория вполне предсказуема даже при значительных пертурбациях. Обладает недельной и годовой сезонностью, трендом, эластичностью к скидке и т.п.

Только плюсы к вашему комментарию.

Look

Как прогнозировать спрос и автоматизировать закупки с помощью machine learning: кейс Ozon

molec Dec 5 2018 at 07:46

Спасибо за статью.
А в каком разрезе собиралась ошибка? товар-день? А на какой горизонт? Очень, очень хороший mae.
Также хотелось бы узнать больше про то, как прогнозируете новинки, в т.ч. новые категории товаров. Насколько падает точность в период промоактивности.

Look

Понять статистику нам мешает наше нежелание меняться

molec Oct 30 2018 at 10:21

Порядка 7,6%.
В задаче интересен факт, что положительный результат теста повышает вероятность наличия болезни всего на 6,6%, с 1% до 7,6%. Т.е. статистически небольшие числа, думаю, их неплохо бы озвучивать в мед.учреждении при получении результата, чтоб люди не считали это приговором.
При этом точность метода более-менее удобоваримая — всего 9,6% ложноположительных и 20% ложноотрицательных.

Look

Первый в России робот-завод и при чём тут колбаса?

molec Oct 30 2018 at 09:54

Если прикинуть в лоб, то экономия на зп получается порядка 0,5мрд руб в год. Если окупаемость порядка 5 лет, то суммарно 2,5млрд руб, ~40 млн у.е. Плюс наверняка что-то можно наэкономить на более низких требованиях к освещенности, пожарной и прочей безопасности и т.п.
Открытый вопрос в том, сколько стоила вся дополнительная обвязка из роботов, софта, повышенных требований к поставщикам и т.д.

Look

Понять статистику нам мешает наше нежелание меняться

molec Oct 29 2018 at 16:28

А задача про рак точно дана правильно? Раскапывая отсутствие корня начал гуглить задачу. Оказалось, что 1% — это в классической формулировке вероятность болезни, а не ее диагностики. При постановке, что именно вероятность получить положительный результат равна 1%

вероятность того, что у 40-летней женщины найдут рак груди (1%)

, задача не имеет решения.

Хотя, может быть просто именно я неправильно понял постановку.

Look

Machine learning @ booking.com

molec Oct 26 2018 at 10:13

В ту же степь — отели на нашем черноморском берегу. Регулярно принимают бронирование, но в итоге номера нет, пристраивают куда придется. Нормальная для нашего юга ситуация — подтверждать бронирование только по звонку клиента. Нет звонка — нет подтверждения.
Это очень напрягает, по видимому, санкций от букинга они не боятся.

Look

Papers, please. Как нейросеть помогает нам проверять клиентов и ловить мошенников

molec Oct 25 2018 at 14:43

Спасибо за подробный ответ.
Правда хотелось бы узнать причину отказа от реальных данных. Может перестраховались.
Т.е. вся работа классификатора — это 1)паспорт РФ, 2) паспорт РБ, 3) права и т.д.?

Почему задал вопрос про семплы. По идее, большая часть работы НС — это и есть разнообразные повороты, работа со светом и цветом, нарезка исходного изображения. Т.о. труд по набивке базы повернутыми изображениями должен приносить мало пользы. А вот с фоном идея должна была сработать хорошо.

Look

Papers, please. Как нейросеть помогает нам проверять клиентов и ловить мошенников

molec Oct 25 2018 at 11:07

А что понимаете под точностью? Обычно еще в таких чувствительных областях разделяют ложнопозитивные и ложнонегативные ошибки. Лучше лишних несколько процентов прогнать через ручную верификацию, чем пропустить лишнего мошенника.
Можете объяснить, почему не могли использовать свою базу фото документов для обучения сети? У вас же есть разрешение на обработку этих данных. Мне кажется, генерированные семплы из нескольких реальных фото документов, сделанных небольшим числом камер — не лучший материал для обучения.

Look

Интересные задачки с технических собеседований

molec Oct 18 2018 at 11:43

Если кто-то зашел в комнату, сможет ли он об этом сказать остальным? Могут ли они хотя бы перестукиваться? Есть ли возможность делать отметки на стенах/полу/потолке в комнате? Или этого не нужно для решения?

Look

Интересные задачки с технических собеседований

molec Oct 17 2018 at 10:10

1 видит впереди 4 черных шапки. Четное. Говорит «белый» и случайно выживает.
Второй слышал, что 1 «сказал черный 0 раз». Т.е. он знает, что 1 увидел четное число черных шапок. Считает черные шапки сам — ага, 3, т.е. нечет. Он понимает, что лишняя черная шапка на нем, говорит «черный».
Третий слышал 1 раз, что говорили «черный». Значит перед предыдущим было нечетное число черных шапок. Пересчитывает — 2, четное. Значит, лишняя шапка на нет. Говорит «черный».
Четвертый слышал четное число раз слово «черный». Значит перед предыдущим было четное число черных шапок. Он видит только одну, Значит лишняя черная на нем. Говорит черный.
Пятый и шестой слышали «черный» нечетное число раз. Пересчитывают черные шапки — 1. Говорят белый.
Последний слышал «черный нечетное число раз, значит на нем черная шапка.

Итого, все выжили.

Look

Интересные задачки с технических собеседований

molec Oct 16 2018 at 15:05

Ваши расстрельные явно общительнее и запасливее моих :) С касанием с нужной стороны идея красивая, но если почти нельзя вертеться и все стоят достаточно далеко друг от друга, то только вариант по типу моего из второго спойлера. Хотя расписал как попало.

Look

Интересные задачки с технических собеседований

molec Oct 16 2018 at 13:50

абсолютно неспортивно и безынтересно

не согласен. Для Вас неспортивно и Вам безынтересно. А вот в реальных задачах подобные трюки выручают регулярно.

шапки 2

Тогда да.
Как рассуждал, решение ниже.
Первый считает число черных шапок впереди него.
Если черных нечетное число — он говорит черный, иначе — белый. Он может и умереть, но героем. Допустим — нечет и он сказал черный.
Каждый последующий запоминает выбор предыдущего. Если он видит перед собой тоже (не)четное число черных шапок, значит на нем белая, иначе — на нем дополнительная черная.
Итого, стратегия второго. Если первый сказал «черный», то если и он видит нечетное число шапок впереди, то на нем белая, иначе на нем черная.
Эта стратегия будет сохраняться, пока кто-нибудь не скажет «черный». Тогда стратегия инвертируется, видишь четное число — говоришь «черный». Инверсия будет каждый раз, когда кто-то говорит «черный».

Если формализовать, то правило такое. Первый говорит «черный», если видит впереди нечерное число черных шапок. Остальные говорят «черный», если [число черных увиденных шапок впереди]-[число черных шапок озвученных позади] нечетное.

Look

1 2 3 4

6 7