Хорошо написано, но, как въедливый программист, замечу - не рассмотрен ещё один вариант - мы ведём за ручку коллегу к границам его познания, и в итоге оказывается, что нас привели туда, куда хотели [не мы]. Как пережить эту боль?
прошито в ДНК. насекомые. никакого обучения в пределах жизни особи
Обучение на собственных ошибках - простые животные
Обучение на примерах - "Делай, как я" - животные, в основном - млекопитающие
Обучение на примерах - "Думай, как я" - человек
Животинка запрограммирована повторять действия более успешных сородичей - так и учится, передавая опыт из поколения в поколение. Для того, что бы копировать поведение, нужно создать в своей голове модель вида "стимул-реакция". И обучиться, при каких стимулах применять соответствующую реакцию.
Человек, в отличие от животики, запрограммирован сделать в своей голове более сложную модель. Которая тоже вида "стимул-реакция", но модель прогнозирует реакцию другой особи в соответствующих условиях. Животное не прогнозирует реакцию другой особи, а смотрит на проявленную реакцию и запоминает её. Человек - именно старается спрогнозировать реакцию другой особи. Как результат - у человека в голове создаётся достаточно сложная модель, которая позволяет ему прогнозировать поведение других особей и через это - определять эффективные собственные действия. Осталось только применить эту модель к себе и осознать себя. Всё. Разум - готов. Ключевое тут - что создание этой модели - запрограммировано на наследственном уровне, а самосознание и разум - так, побочный эффект.
Ну, как Вам ответить. Мне не очень интересно обсуждать вопрос в ключе нужности/ненужности запятых (а в заголовке её может и не быть, зависит от того, на что делается акцент). И хабр не ВАК'овский журнал, так что от постов здесь лучше мне не станет.
Поэтому я отвечу в стиле «сперва добейся». Покажите рост качества на своих методах — я буду счастлив.
Представьте — появились таблетки молодости, стоят, естественно, дорого. 1% населения Земли купил и омолодился, остальные 99% — не тянут.
Помоделируем логику бедняков, на которых таблеток не хватило. «Вася Пупкин — богатый, а теперь ещё и вечно молодой. Я — бедный. И богатым мне не стать, ибо место занято Васей. Более того, Вася теперь вечно молодой — так что своё место не освободит никогда. А значит, что и мои дети и внуки богатыми не станут, ибо Вася. Единственный выход оставить своим потомкам шансы на светлое будущее — убить Васю сейчас.»
2-3 тыщи лет кровищи и геноцида, и тогда да — выжившие смогут стать поголовно бессмертными и строить новое общество на новой морали.
Если сеть умеет обращаться к внешнему хранилищу данных, то её легко дообучить на работу с онтологиями. А онтологии как раз и дадут сети понятийный аппарат. Разумеется, если сеть будет в состоянии этим аппаратом воспользоваться.
Любопытно. То есть, можно подобрать такой коктейль препаратов, что бы генерировалось большое количество стволовых нейронов, специализируемых в регуляторные отделы (гипоталамус и другие). Тогда, гипоталамус, состоящий из большого числа новых клеток, начнёт функционировать как в более молодом организме — генерируя эпигенетические маркеры более молодого организма, за счёт чего и пойдёт общее омоложение.
То есть Вы ожидаете, что за 13-ть дней кто-то из читателей хабра способен пройти квалификацию конкурса? почему пишете сейчас, а не в марте-апреле, когда конкурс стартовал?
Ну, не знаю. Я как-то деньги сильно больше вербальной похвалы и переходящего знамени героя капиталистического труда люблю (хотя такое у меня и стоит на тумбочке)
И в чём проблема? Строка не обязательно должна заканчиваться нулём, если её длина известна и неизменна. Например, если мы меняем одни символы на другие, а потом сливаем результат в файл. Фиговатенько у автора с С.
1. Двухпроходовая обработка у меня сделана при поиске неполных дублей. Делать двухпроходовую классификацию нет необходимости — мы укладываемся и в один проход по вычислительным ресурсам. Плюс к этому, задача разделения словаря на слова общей лексики и «тематические» — отдельная задача, не имеющая 100% качества. Сделав так, как Вы говорите, мы сэкономим вычислительные ресурсы (такой проблемы нет), но зато добавим себе в контур обработки ошибок. Сделка невыгодная.
2.1 Необратимая потеря информации при лемматизации/стемминге не нужна, ведь ресурсов достаточно для обработки с полным словарём. При этом, морфология сама по себе является сильным признаком для определённого вида текстов.
2.2 Кто сказал, что мы зацикливаемся только на русском языке? У меня целый раздел посвящён генерации семантических ядер на других языках.
Вопрос был не про это. Вопрос был — имеет ли смысл делать много вакансий с переформулировками, если в топе всё равно показывается по одной вакансии с работодателя? Ответ — имеет. Потому что для вакансии с большим числом переформулировок шансы оказаться вверху топа выше, чем для вакансии с малым числом переформулирок.
Ещё как работает. Из всего пула вакансий на одном работодателе выбирается самая релевантная. А порядок выдачи результатов поиска — по релевантности. То есть, работодатель, имеющих множество переформулированных вакансий, оказывается в поисковой выдаче выше того, у кого вакансий с переформулировками мало
Дополнение:
У вас на графиках чётко виден шум кластеризации. Поскольку вы делите слова по кластерам строго, то получается, что для слов, находящихся на границе кластеров попадание в конкретный кластер — суть случайное событие. Изменяя количество кластеров, вы изменяете границы, вблизи которых слова случайным образом привязываются к кластерам. Иногда это случайное разбиение даёт лучший результат, иногда — худший. Вот и шум.
Уверен, если при кластеризации задать другое семя генератора случайных чисел (или перемешать слова в другом порядке), то на том же количестве кластеров вы получите другие значения.
Решение в данном случае — бить слова на кластеры самостоятельно так, что бы слово имело отношение не к единственному кластеру, а к нескольким, с разными весами. Для задачи кластеризации разницы никакой нет, а вот шум вы уберете.
Любопытный результат.
Какой у Вас исходный размер словаря? Я полагаю, что 1-2 млн. слов (русский и английский с опечатками). Если бить такой словарь на 5 тысяч кластеров, то на кластер в среднем придётся по 400 слов. Но при этом, скорее всего, более половины из этих кластеров содержат в себе не более 5-ти слов — это редкие слова и несколько их вариантов с опечатками. Частотные слова, задающие общую лексику, наоборот, группируются в мощных кластерах.
Представим себе ситуацию, что мы бьём наш словарь на два миллиона кластеров, в каждом кластере — строго по слову. Такое разбиение даст 100% точность на тесте. И вообще, точность должна расти с падением числа слов на кластер вне зависимости от способа кластеризации. Что и наблюдаем.
Я полагаю, что при большом числе кластеров неявно решается задача исправления опечаток, аналогично этой:
К сожалению, основной эффект, который Вы получили на А/В тестировании, пошёл не от алгоритма кластеризации, как такового, а от его эффекта — выбора только одной вакансии от фирмы.
Просто показывая самую релевантную, по мнению поискового алгоритма, вакансию на работодателя, Вы получили бы очень близкий эффект.
Проблемы с кластеризацией были видны на показанных Вами слайдах, в частности, мне запомнился кластер, содержащий юрисконсульта и работника склада.
Хорошо написано, но, как въедливый программист, замечу - не рассмотрен ещё один вариант - мы ведём за ручку коллегу к границам его познания, и в итоге оказывается, что нас привели туда, куда хотели [не мы]. Как пережить эту боль?
Я бы сказал, что уровни иерархии следующие:
прошито в ДНК. насекомые. никакого обучения в пределах жизни особи
Обучение на собственных ошибках - простые животные
Обучение на примерах - "Делай, как я" - животные, в основном - млекопитающие
Обучение на примерах - "Думай, как я" - человек
Животинка запрограммирована повторять действия более успешных сородичей - так и учится, передавая опыт из поколения в поколение. Для того, что бы копировать поведение, нужно создать в своей голове модель вида "стимул-реакция". И обучиться, при каких стимулах применять соответствующую реакцию.
Человек, в отличие от животики, запрограммирован сделать в своей голове более сложную модель. Которая тоже вида "стимул-реакция", но модель прогнозирует реакцию другой особи в соответствующих условиях. Животное не прогнозирует реакцию другой особи, а смотрит на проявленную реакцию и запоминает её. Человек - именно старается спрогнозировать реакцию другой особи. Как результат - у человека в голове создаётся достаточно сложная модель, которая позволяет ему прогнозировать поведение других особей и через это - определять эффективные собственные действия. Осталось только применить эту модель к себе и осознать себя. Всё. Разум - готов. Ключевое тут - что создание этой модели - запрограммировано на наследственном уровне, а самосознание и разум - так, побочный эффект.
Поэтому я отвечу в стиле «сперва добейся». Покажите рост качества на своих методах — я буду счастлив.
Представьте — появились таблетки молодости, стоят, естественно, дорого. 1% населения Земли купил и омолодился, остальные 99% — не тянут.
Помоделируем логику бедняков, на которых таблеток не хватило. «Вася Пупкин — богатый, а теперь ещё и вечно молодой. Я — бедный. И богатым мне не стать, ибо место занято Васей. Более того, Вася теперь вечно молодой — так что своё место не освободит никогда. А значит, что и мои дети и внуки богатыми не станут, ибо Вася. Единственный выход оставить своим потомкам шансы на светлое будущее — убить Васю сейчас.»
2-3 тыщи лет кровищи и геноцида, и тогда да — выжившие смогут стать поголовно бессмертными и строить новое общество на новой морали.
И в чём проблема? Строка не обязательно должна заканчиваться нулём, если её длина известна и неизменна. Например, если мы меняем одни символы на другие, а потом сливаем результат в файл. Фиговатенько у автора с С.
2.1 Необратимая потеря информации при лемматизации/стемминге не нужна, ведь ресурсов достаточно для обработки с полным словарём. При этом, морфология сама по себе является сильным признаком для определённого вида текстов.
2.2 Кто сказал, что мы зацикливаемся только на русском языке? У меня целый раздел посвящён генерации семантических ядер на других языках.
Да, это 4-ре разных терма.
У вас на графиках чётко виден шум кластеризации. Поскольку вы делите слова по кластерам строго, то получается, что для слов, находящихся на границе кластеров попадание в конкретный кластер — суть случайное событие. Изменяя количество кластеров, вы изменяете границы, вблизи которых слова случайным образом привязываются к кластерам. Иногда это случайное разбиение даёт лучший результат, иногда — худший. Вот и шум.
Уверен, если при кластеризации задать другое семя генератора случайных чисел (или перемешать слова в другом порядке), то на том же количестве кластеров вы получите другие значения.
Решение в данном случае — бить слова на кластеры самостоятельно так, что бы слово имело отношение не к единственному кластеру, а к нескольким, с разными весами. Для задачи кластеризации разницы никакой нет, а вот шум вы уберете.
Какой у Вас исходный размер словаря? Я полагаю, что 1-2 млн. слов (русский и английский с опечатками). Если бить такой словарь на 5 тысяч кластеров, то на кластер в среднем придётся по 400 слов. Но при этом, скорее всего, более половины из этих кластеров содержат в себе не более 5-ти слов — это редкие слова и несколько их вариантов с опечатками. Частотные слова, задающие общую лексику, наоборот, группируются в мощных кластерах.
Представим себе ситуацию, что мы бьём наш словарь на два миллиона кластеров, в каждом кластере — строго по слову. Такое разбиение даст 100% точность на тесте. И вообще, точность должна расти с падением числа слов на кластер вне зависимости от способа кластеризации. Что и наблюдаем.
Я полагаю, что при большом числе кластеров неявно решается задача исправления опечаток, аналогично этой:
Word: преключение Position in vocabulary: 124515
Word Cosine distance
— приключение 0.748698
преключения 0.726111
приключения 0.692828
приключеия 0.670168
прключение 0.666706
приключеня 0.663286
прключения 0.660438
приключени 0.659609
Просто показывая самую релевантную, по мнению поискового алгоритма, вакансию на работодателя, Вы получили бы очень близкий эффект.
Проблемы с кластеризацией были видны на показанных Вами слайдах, в частности, мне запомнился кластер, содержащий юрисконсульта и работника склада.