Как стать автором
Обновить
15
0

ML Engineer

Отправить сообщение

Нет, не слышал до этого.

Хочу в статью добавить ссылку на этот канал (со ссылкой на вас). Подскажите, вы не против?

Хочу добавить в статью вариант про graded reader со ссылкой на вас. Подскажите, вы не против?

Посмотрел одну серию - звучит очень толково, спасибо! Только ссылка на канал не работает, вот на одно из видео https://youtu.be/rOmPfzYvfxw

Отличные замечания, спасибо!

Лично мне адаптированные видео/тексты не так нравились (лучше я буду не понимать, страдать и пересматривать по несколько раз, зато как бы "настоящий" источник). Но это вопрос предпочтений. Знаю людей которым адаптированная версия лучше зайдет.

А можете привести какое нибудь доказательство? Пример гонки где робот побил человека?

Построить беспилотник который проезжает гоночную трассу не проблема. А вот побить профессионального гонщика пока невозможно. Хотя бы потому что у беспилотника примерное время реакции полсекунды-секунда, а у гонщика на порядок меньше.

Пока цель для индустрии - превзойти пьяных/переписывающихся за рулём/засыпающих водителей. Если это получится будет огромный прогресс, смертность на дорогах сейчас больше миллиона людей в год на планете.

С точки зрения упора на камеры да. Но у Теслы (как я помню) не end-to-end подход, а наоборот, очень много детекторов для каждой ситуации.

Наверное когда нибудь может, но сейчас беспилотники водят хуже средних водителей, до профессиональных гонщиков ещё очень далеко.

Привет!

Нет, видео не смотрел. Записывать такое видео не вижу особого смысла. Все что нужно для подготовки уже есть в доступе (например, те ссылки, что я привожу в статье).

Про то что сеньоры не могу сами пройти все собесы: наверное это нормально, так как:

  1. К собесам нужно долго готовится. Вряд-ли все сеньора постоянно находятся в процессе максимальной готовности

  1. Никто не ожидает, что кандидат ответить идеально на все вопросы. Задача быть лучше других притендентов на конкретную позицию :)

  2. Часть объяснения может быть в том, что в РФ сильная нехватка разработчиков, особенно сеньоров, которые сваливают в другие страны. Поэтому планка не высоко. Это чисто мои измышления, проверить их не могу.

Спасибо, поправил, что я имел в виду. В левой части просто определения матожидания и дисперсии.
m здесь - это количество событий x=1 в серии бросков длины N, поэтому меняется от 0 до N

Возможно я ошибаюсь, но мне кажется, что целевая переменная выбрана не лучшим образом. Количество просмотров в сутки быстро затухает, поэтому вы переоцениваете новые объявления. Лучше предсказывать кол-во просмотров за первые n дней (объявления созданные менее чем n дней назад не рассматривать). Если этих данных нет, то можно на основании общего графика затухания вычислять величину "ожидаемое число просмотров за все время". Чуть усложненная версия опираться на срезы в течении нескольких дней наблюдений.
Когда я недавно занимался похожей задачей (тоже объявления) bag of words на полем "title" давал даже лучше результат (возможно текст в описании более сложный и хуже поддаться разбору).
Вы пишите "рассматривать задачу классификации (отсюда и tf-idf)", подскажите почему?
Возможно вы знаете: tf-idf фиттится на тестовой, а не на всей выборке, а что делать с кросс-валидацией? Там же "тестовая" попадает в tf-idf.fit как это влияет? Видимо улучшает качество на кросс-валидации, но влияет ли это на подбор параметров и приминать ли это в расчёт? 
Если это действительно ошибка (совершается случайно), то вероятность употребления такого слова в правильном и искаженном написании рядом с положительными/отрицательными уже оцененными словами одинакова, следовательно при достаточно большом объеме твитов у слова и его искаженной версии будут одинаковые «числа».
Если же слово намеренно коверкается, скорее всего у него другое значение, следовательно вероятность встретиться с положительно/отрицательно оцененными словами разная для вариантов написания, таким образом и их оценка будет разная.
Данный метод как раз позволяет добавлять слова с ошибками и сленг в словарь (главное, чтобы такие слова встречались вместе с другими корректными, уже оцененными словами в одном твите).
ex: bro=-0.29
Выражения типа «Awesome bastards!» такой метод оценки может оценивать некорректно (скорее всего около нуля, так как присутствует одно сильно негативное и одно сильно положительное слово), хотя стоит заметить, что и человек испытывает сложности в оценки подобных выражений вырванных из контекста.
В любом случае данный метод предназначен для оценки в среднем большого количества информации, а не единичных твитов. Например, если в данном месяце вместе со словом «Obama» стали чаще встречаться позитивные/негативные слова, (в сравнении с предыдущем месяцем), то можно сделать вывод об положительном/отрицательном изменении рейтинга. Главное, что бы реальное изменение настроений было больше чем погрешность измерений.
Конечно дополнение данного метода возможностью распознавать словосочетания, а также отрицательные и вопросительные предложения, позволит повысить его точность и осмысленность.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность