Как стать автором
Обновить
52
0
Андрей @S_A

Пользователь

Отправить сообщение

(мечтательно) вот бы мог взяться за разметку датасета на 500 сэмплов.


но сначала фичи осмотреть следовало бы)

Мне видится, на вопрос "лучше никакая или хоть какая-то обратная связь" ответ дан верно. Но угол рассмотрения вопроса поставлен неверно.


ОС не нужна имхо, но имхо hr (!) неверно (!) описывают свои вакансии (!). и психотесты — дичь. равно как и формат резюме себя изжил. и тесты на собесах — дичь. итак.


чтобы понять, вольется ли кандидат как профессионал и как личность в команду необходимо иметь некоторую уникальную длинную анкету и некоторое длинное честное описание компании и вакансии (можно чтобы с ответами в том числе на вопросы кандидата), которое выдаётся после заполнение длинной всесосторонней анкеты. дальше можно договариваться о собесе — который должен проходить в формате совместного (!) решения реальной нужной нерешенной задачи (часа на два), то есть "вместе в разведку".


так снимаются все вопросы и открываются самые чёрные ящики. так как рынок труда это "рынок лимонов" с обеих сторон.


а фидбэк не дают по одной причине — проблемы соискателей нанимателей не волнуют, всё. а уж hr'ам это вообще невыгодно, иначе существующий конвейер найма кто-нибудь да похачит.

и вдогонку — возьму на заметку про эмбеддинги на основе предиктов. если хорошо заходят, "надо брать".

огонь, вопросов не осталось. успехов вобщем) если еще про трансформеры статью запилишь, про устройство и применение, будет круто)

Привет Илья! рад что ты решил постить на Хабр.


В принципе идея user2vec не сказать что новая, борьба с инфраструктурой конечно еще та история.


вопрос же по предикту следующего эмбеддинга что дальше-то? и вообще, вот получили вы хорошие представления, а далее куда они идут? декодируете обратно или ищете ближайших, или что?


ваши downstream не совсем раскрыты вобщем :) как пользователь lenta.ru заметил кстати изменения в рекламе, она стала релевантней контенту и релевантней моим предпочтениям. но это так, возможно квантовый эффект наблюдателя. вобщем пролей света немного.

судя по сайту эластика, это все платные фичи. интересно, но неинтересно. то есть интересно, но даже далеко не всем пользователям эластика.


был бы рад ошибиться

за 3 года всякие разные. все под NDA. вообще, не так уж сложно сообразить будучи в теме ds)


таблички, ряды, картинки и тексты — все это встречается не только в логистике. на них можно кучу задач ставить и решать. байесовские фреймворки, нейросетки, в основном. это помимо стандартных оптимизационных, которые наверное пришли в голову.


вообще лично мое мнение, в бизнесе самый топ — обладать более-менее неплохим цифровым двойником. с ним можно проектировать будущее.

вы пускали что-либо в прод, сделанное по готовым гайдам? обычно на реальных данных гайды не работают, надо погружаться в данные, в алгоритмы, в тонкости валидации, делать пайплайны и др.


бизнес может быть вообще небольшим, если он делает деньги с помощью моделей, там будет ds-специалист. я работал в небольшой логистической компании как data scientist (сейчас в другой industry), и скажу что работы всегда завались.

Определённо здоровский текст! спасибо! когда читаю подобное, даже (местами иногда) жалею что физфак не выбрал.

а, кстати, вы с этой статьёй незнакомы? весьма интересные выводы, в частности diversity hypothesis


https://distill.pub/2020/understanding-rl-vision/

выглядит недурно! вам бы в массы продвинуть решение. оформленные доки, апи, кейсы, демо, лэндинг, немного коммунити пользователей хотя бы — для развития… понимаю что это все дальше хобби-проекта, но концепция хороша

я в своих попытках скатился в kerneldensity. в план я сам не смог пока что)

нет, я только проию интерпретируемость писал. "язык общения с сеткой". и хотя бы для конкретной сетки его получать в процессе обучения. rl в проде — это не очень удивительно.

отличная идея насчет языка! дальше пошло немного фантастично.


что касается языка, сам думал, можно ли (задача проще), чтобы вместе с обучением сетки генерилась бы программа, которая бы объясняла предикт. (на R например). думаю тут halting problem, да и без него — лучшем объяснением предикта является сама сеть.


поэтому интерфейс общения с сетью надо отдельно где-то продумывать в лосс-функции. идея же, повторюсь, очень интересная. так как rl-сети никак кроме как симуляциями не интерпретируются.

А теперь сравните с UFC, боями без правил…

Извините что я тут вообще не шахматист, знаю как фигуры ходят и альфа-бетой по молодости баловался. UFC смотрю ещё реже чем шахматы играю.

Так вот как тот самый обыватель, разделяю точку зрения автора, что зрелищность шахматам сильно бы не помешала — не на уровне битвы личностей, а на уровне игры.
Если вы ставите модели диагноз… значит она достигла успехов! Чтобы вам был понятен принцип, изложу его так.

Да, смысл текстов — то есть сопоставление фактов из объектов, модель не делает. Она, будучи языковой, делает что-то такое:

Представьте себе человека, которому дали огромный объём текста на незнакомом ему языке. Он видит повторяющиеся конструкции из слов. Он ищет систему, которая позволяет, условно, восстанавливать наиболее вероятные пропущенные конструкции.

В итоге такая система начинает выдавать конструкции, которые имеют некоторое выравнивание с реальностью (физической, художественной или иной, заложенной в языке и корпусе текстов), если тексты реальные и осмысляются человеком: то есть человек в состоянии такое представить.

Под капотом основной ингредиент такой: способ учета контекста употребления слова.

Теперь о клинике. Клиническая картина обычно ставится как раз по (не)соответствию реально объективного и словесного описания. Поскольку корпус не состоит на 100% «здоровых» с точки зрения психиатрии текстов — нет гарантий «не бреда».

Но это не значит, что исследования в этой области надо закрыть)
Провокационный заголовок и КДПВ. Дальше только впустую потраченные время и энергия, которой можно было бы лучше вскипятить чайник — все лучше чем воду лить.
В небольшое дополнение. Есть еще вот такой вариант
pypi.org/project/bert-extractive-summarizer

В нём предложения векторизуются, кластеризуются, и суммаризируются по близости к центроидам кластеров.

Все нет. Описано 100500 способов как упростить жизнь HR при работе с резюме. По их hr-мнению, если этого не происходит, то кандидат теряет в шансе. А на самом деле теряет наниматель, связавшийся с таким HR.


Лучший продавец — тот который лучше других знает свой товар и ассортимент. Он продаст не все что угодно, а то что надо и все будут довольны. По аналогии, хороший HR который не тот, что час просмотрит 60 резюме, стриггиревшись на совпадение ключевых слов (для таких задач уже есть поисковые системы), а который найдёт что нужно, неважно сколько это резюме-минут займет.


Переверните метрики уже в сторону не себя, hr любимых, а в сторону качества сервиса для других сторон сделки.

Исправил опечатку и проверил что работает с PDF нормально. Про пути оставил из соображений сохранения оригинального кода. Но впредь обещаю себе больше не заниматься оптимизациями количества строк.

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность