Pull to refresh
12
0
Сергей Пономарёв @ServPonomarev

Пользователь

Send message

Хорошо написано, но, как въедливый программист, замечу - не рассмотрен ещё один вариант - мы ведём за ручку коллегу к границам его познания, и в итоге оказывается, что нас привели туда, куда хотели [не мы]. Как пережить эту боль?

Я бы сказал, что уровни иерархии следующие:

  1. прошито в ДНК. насекомые. никакого обучения в пределах жизни особи

  2. Обучение на собственных ошибках - простые животные

  3. Обучение на примерах - "Делай, как я" - животные, в основном - млекопитающие

  4. Обучение на примерах - "Думай, как я" - человек

Животинка запрограммирована повторять действия более успешных сородичей - так и учится, передавая опыт из поколения в поколение. Для того, что бы копировать поведение, нужно создать в своей голове модель вида "стимул-реакция". И обучиться, при каких стимулах применять соответствующую реакцию.

Человек, в отличие от животики, запрограммирован сделать в своей голове более сложную модель. Которая тоже вида "стимул-реакция", но модель прогнозирует реакцию другой особи в соответствующих условиях. Животное не прогнозирует реакцию другой особи, а смотрит на проявленную реакцию и запоминает её. Человек - именно старается спрогнозировать реакцию другой особи. Как результат - у человека в голове создаётся достаточно сложная модель, которая позволяет ему прогнозировать поведение других особей и через это - определять эффективные собственные действия. Осталось только применить эту модель к себе и осознать себя. Всё. Разум - готов. Ключевое тут - что создание этой модели - запрограммировано на наследственном уровне, а самосознание и разум - так, побочный эффект.

Есть более злой источник для рисования графов чем Википедия. FreeBase, советую посмотреть.
Ну, как Вам ответить. Мне не очень интересно обсуждать вопрос в ключе нужности/ненужности запятых (а в заголовке её может и не быть, зависит от того, на что делается акцент). И хабр не ВАК'овский журнал, так что от постов здесь лучше мне не станет.
Поэтому я отвечу в стиле «сперва добейся». Покажите рост качества на своих методах — я буду счастлив.
Если сеньора собеседуют так-же, как джуна, делать в такой конторе нечего. Им джун нужен, его и возьмут.А как должность называться будет — вторично.
А вот если посмотреть на вопрос в динамике?

Представьте — появились таблетки молодости, стоят, естественно, дорого. 1% населения Земли купил и омолодился, остальные 99% — не тянут.

Помоделируем логику бедняков, на которых таблеток не хватило. «Вася Пупкин — богатый, а теперь ещё и вечно молодой. Я — бедный. И богатым мне не стать, ибо место занято Васей. Более того, Вася теперь вечно молодой — так что своё место не освободит никогда. А значит, что и мои дети и внуки богатыми не станут, ибо Вася. Единственный выход оставить своим потомкам шансы на светлое будущее — убить Васю сейчас.»

2-3 тыщи лет кровищи и геноцида, и тогда да — выжившие смогут стать поголовно бессмертными и строить новое общество на новой морали.
Если сеть умеет обращаться к внешнему хранилищу данных, то её легко дообучить на работу с онтологиями. А онтологии как раз и дадут сети понятийный аппарат. Разумеется, если сеть будет в состоянии этим аппаратом воспользоваться.
Я отвечу — нет, совсем не тот уровень производительности. Или скорость, или качество.
Любопытно. То есть, можно подобрать такой коктейль препаратов, что бы генерировалось большое количество стволовых нейронов, специализируемых в регуляторные отделы (гипоталамус и другие). Тогда, гипоталамус, состоящий из большого числа новых клеток, начнёт функционировать как в более молодом организме — генерируя эпигенетические маркеры более молодого организма, за счёт чего и пойдёт общее омоложение.
То есть Вы ожидаете, что за 13-ть дней кто-то из читателей хабра способен пройти квалификацию конкурса? почему пишете сейчас, а не в марте-апреле, когда конкурс стартовал?
Ну, не знаю. Я как-то деньги сильно больше вербальной похвалы и переходящего знамени героя капиталистического труда люблю (хотя такое у меня и стоит на тумбочке)
Аттракцион невиданной щедрости. Учитывая, что другая компания даёт 1 Тб бесплатно и навсегда. И её название созвучно с Почтой России, как ни странно.
char *str = (char *)malloc(sizeof(char) * strlen(buffer));

И в чём проблема? Строка не обязательно должна заканчиваться нулём, если её длина известна и неизменна. Например, если мы меняем одни символы на другие, а потом сливаем результат в файл. Фиговатенько у автора с С.
1. Двухпроходовая обработка у меня сделана при поиске неполных дублей. Делать двухпроходовую классификацию нет необходимости — мы укладываемся и в один проход по вычислительным ресурсам. Плюс к этому, задача разделения словаря на слова общей лексики и «тематические» — отдельная задача, не имеющая 100% качества. Сделав так, как Вы говорите, мы сэкономим вычислительные ресурсы (такой проблемы нет), но зато добавим себе в контур обработки ошибок. Сделка невыгодная.

2.1 Необратимая потеря информации при лемматизации/стемминге не нужна, ведь ресурсов достаточно для обработки с полным словарём. При этом, морфология сама по себе является сильным признаком для определённого вида текстов.
2.2 Кто сказал, что мы зацикливаемся только на русском языке? У меня целый раздел посвящён генерации семантических ядер на других языках.

Да, это 4-ре разных терма.
Вопрос был не про это. Вопрос был — имеет ли смысл делать много вакансий с переформулировками, если в топе всё равно показывается по одной вакансии с работодателя? Ответ — имеет. Потому что для вакансии с большим числом переформулировок шансы оказаться вверху топа выше, чем для вакансии с малым числом переформулирок.
Ещё как работает. Из всего пула вакансий на одном работодателе выбирается самая релевантная. А порядок выдачи результатов поиска — по релевантности. То есть, работодатель, имеющих множество переформулированных вакансий, оказывается в поисковой выдаче выше того, у кого вакансий с переформулировками мало
Дополнение:
У вас на графиках чётко виден шум кластеризации. Поскольку вы делите слова по кластерам строго, то получается, что для слов, находящихся на границе кластеров попадание в конкретный кластер — суть случайное событие. Изменяя количество кластеров, вы изменяете границы, вблизи которых слова случайным образом привязываются к кластерам. Иногда это случайное разбиение даёт лучший результат, иногда — худший. Вот и шум.

Уверен, если при кластеризации задать другое семя генератора случайных чисел (или перемешать слова в другом порядке), то на том же количестве кластеров вы получите другие значения.

Решение в данном случае — бить слова на кластеры самостоятельно так, что бы слово имело отношение не к единственному кластеру, а к нескольким, с разными весами. Для задачи кластеризации разницы никакой нет, а вот шум вы уберете.
Любопытный результат.
Какой у Вас исходный размер словаря? Я полагаю, что 1-2 млн. слов (русский и английский с опечатками). Если бить такой словарь на 5 тысяч кластеров, то на кластер в среднем придётся по 400 слов. Но при этом, скорее всего, более половины из этих кластеров содержат в себе не более 5-ти слов — это редкие слова и несколько их вариантов с опечатками. Частотные слова, задающие общую лексику, наоборот, группируются в мощных кластерах.
Представим себе ситуацию, что мы бьём наш словарь на два миллиона кластеров, в каждом кластере — строго по слову. Такое разбиение даст 100% точность на тесте. И вообще, точность должна расти с падением числа слов на кластер вне зависимости от способа кластеризации. Что и наблюдаем.
Я полагаю, что при большом числе кластеров неявно решается задача исправления опечаток, аналогично этой:

Word: преключение Position in vocabulary: 124515

Word Cosine distance
— приключение 0.748698
преключения 0.726111
приключения 0.692828
приключеия 0.670168
прключение 0.666706
приключеня 0.663286
прключения 0.660438
приключени 0.659609

К сожалению, основной эффект, который Вы получили на А/В тестировании, пошёл не от алгоритма кластеризации, как такового, а от его эффекта — выбора только одной вакансии от фирмы.
Просто показывая самую релевантную, по мнению поискового алгоритма, вакансию на работодателя, Вы получили бы очень близкий эффект.
Проблемы с кластеризацией были видны на показанных Вами слайдах, в частности, мне запомнился кластер, содержащий юрисконсульта и работника склада.
реклама себя любимого, призовой фонд, строчка в резюме.
1
23 ...

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity