Комментарии / Профиль ServPonomarev / Хабр

Как стать автором

Сергей Пономарёв @ServPonomarev

Пользователь

Профиль Публикации 5Комментарии 484Закладки 5

Программирование — это про общение

ServPonomarev 24 авг 2022 в 08:53

Хорошо написано, но, как въедливый программист, замечу - не рассмотрен ещё один вариант - мы ведём за ручку коллегу к границам его познания, и в итоге оказывается, что нас привели туда, куда хотели [не мы]. Как пережить эту боль?

+3

Посмотреть

Иерархия разумности

ServPonomarev 20 апр 2022 в 10:40

Я бы сказал, что уровни иерархии следующие:

прошито в ДНК. насекомые. никакого обучения в пределах жизни особи
Обучение на собственных ошибках - простые животные
Обучение на примерах - "Делай, как я" - животные, в основном - млекопитающие
Обучение на примерах - "Думай, как я" - человек

Животинка запрограммирована повторять действия более успешных сородичей - так и учится, передавая опыт из поколения в поколение. Для того, что бы копировать поведение, нужно создать в своей голове модель вида "стимул-реакция". И обучиться, при каких стимулах применять соответствующую реакцию.

Человек, в отличие от животики, запрограммирован сделать в своей голове более сложную модель. Которая тоже вида "стимул-реакция", но модель прогнозирует реакцию другой особи в соответствующих условиях. Животное не прогнозирует реакцию другой особи, а смотрит на проявленную реакцию и запоминает её. Человек - именно старается спрогнозировать реакцию другой особи. Как результат - у человека в голове создаётся достаточно сложная модель, которая позволяет ему прогнозировать поведение других особей и через это - определять эффективные собственные действия. Осталось только применить эту модель к себе и осознать себя. Всё. Разум - готов. Ключевое тут - что создание этой модели - запрограммировано на наследственном уровне, а самосознание и разум - так, побочный эффект.

+1

Посмотреть

Повышаем качество классификации текстов подключив Википедию

ServPonomarev 1 апр 2019 в 15:07

Есть более злой источник для рисования графов чем Википедия. FreeBase, советую посмотреть.

0

Посмотреть

Повышаем качество классификации текстов подключив Википедию

ServPonomarev 1 апр 2019 в 14:16

Ну, как Вам ответить. Мне не очень интересно обсуждать вопрос в ключе нужности/ненужности запятых (а в заголовке её может и не быть, зависит от того, на что делается акцент). И хабр не ВАК'овский журнал, так что от постов здесь лучше мне не станет.
Поэтому я отвечу в стиле «сперва добейся». Покажите рост качества на своих методах — я буду счастлив.

0

Посмотреть

Хватит подозревать разрабов в самозванстве. Научитесь лучше собеседовать

ServPonomarev 26 сен 2018 в 17:17

Если сеньора собеседуют так-же, как джуна, делать в такой конторе нечего. Им джун нужен, его и возьмут.А как должность называться будет — вторично.

+24

Посмотреть

Технологии продления жизни изменят природу человека

ServPonomarev 26 сен 2018 в 10:59

А вот если посмотреть на вопрос в динамике?

Представьте — появились таблетки молодости, стоят, естественно, дорого. 1% населения Земли купил и омолодился, остальные 99% — не тянут.

Помоделируем логику бедняков, на которых таблеток не хватило. «Вася Пупкин — богатый, а теперь ещё и вечно молодой. Я — бедный. И богатым мне не стать, ибо место занято Васей. Более того, Вася теперь вечно молодой — так что своё место не освободит никогда. А значит, что и мои дети и внуки богатыми не станут, ибо Вася. Единственный выход оставить своим потомкам шансы на светлое будущее — убить Васю сейчас.»

2-3 тыщи лет кровищи и геноцида, и тогда да — выжившие смогут стать поголовно бессмертными и строить новое общество на новой морали.

0

Посмотреть

В поисках разума: можно ли сделать “универсальный” чат-бот с помощью нейронных сетей?

ServPonomarev 12 окт 2017 в 07:59

Если сеть умеет обращаться к внешнему хранилищу данных, то её легко дообучить на работу с онтологиями. А онтологии как раз и дадут сети понятийный аппарат. Разумеется, если сеть будет в состоянии этим аппаратом воспользоваться.

0

Посмотреть

Как Яндекс научил искусственный интеллект понимать смысл документов

ServPonomarev 23 авг 2017 в 16:04

Я отвечу — нет, совсем не тот уровень производительности. Или скорость, или качество.

0

Посмотреть

Нейрогенез: физиологические основы и перспективы регуляции в терапевтических целях

ServPonomarev 28 июл 2017 в 09:24

Любопытно. То есть, можно подобрать такой коктейль препаратов, что бы генерировалось большое количество стволовых нейронов, специализируемых в регуляторные отделы (гипоталамус и другие). Тогда, гипоталамус, состоящий из большого числа новых клеток, начнёт функционировать как в более молодом организме — генерируя эпигенетические маркеры более молодого организма, за счёт чего и пойдёт общее омоложение.

+1

Посмотреть

Что такое диалоговые системы, или Кое-что об Элизе

ServPonomarev 5 июн 2017 в 16:34

То есть Вы ожидаете, что за 13-ть дней кто-то из читателей хабра способен пройти квалификацию конкурса? почему пишете сейчас, а не в марте-апреле, когда конкурс стартовал?

+1

Посмотреть

«Пятничный формат»: Демотивация, или любовь [к работе] за деньги не купишь

ServPonomarev 28 апр 2017 в 09:35

Ну, не знаю. Я как-то деньги сильно больше вербальной похвалы и переходящего знамени героя капиталистического труда люблю (хотя такое у меня и стоит на тумбочке)

+5

Посмотреть

+32Гб на Яндекс.Диске навсегда

ServPonomarev 15 апр 2017 в 06:00

Аттракцион невиданной щедрости. Учитывая, что другая компания даёт 1 Тб бесплатно и навсегда. И её название созвучно с Почтой России, как ни странно.

-6

Посмотреть

Немного о строках в Си, или несколько вариантов оптимизировать неоптимизируемое

ServPonomarev 12 апр 2017 в 16:13

char *str = (char *)malloc(sizeof(char) * strlen(buffer));

И в чём проблема? Строка не обязательно должна заканчиваться нулём, если её длина известна и неизменна. Например, если мы меняем одни символы на другие, а потом сливаем результат в файл. Фиговатенько у автора с С.

+3

Посмотреть

Технологический стек классификации текстов на естественных языках

ServPonomarev 4 апр 2017 в 16:30

1. Двухпроходовая обработка у меня сделана при поиске неполных дублей. Делать двухпроходовую классификацию нет необходимости — мы укладываемся и в один проход по вычислительным ресурсам. Плюс к этому, задача разделения словаря на слова общей лексики и «тематические» — отдельная задача, не имеющая 100% качества. Сделав так, как Вы говорите, мы сэкономим вычислительные ресурсы (такой проблемы нет), но зато добавим себе в контур обработки ошибок. Сделка невыгодная.

2.1 Необратимая потеря информации при лемматизации/стемминге не нужна, ведь ресурсов достаточно для обработки с полным словарём. При этом, морфология сама по себе является сильным признаком для определённого вида текстов.
2.2 Кто сказал, что мы зацикливаемся только на русском языке? У меня целый раздел посвящён генерации семантических ядер на других языках.

Да, это 4-ре разных терма.

0

Посмотреть

У компании есть еще похожие вакансии

ServPonomarev 3 апр 2017 в 17:07

Вопрос был не про это. Вопрос был — имеет ли смысл делать много вакансий с переформулировками, если в топе всё равно показывается по одной вакансии с работодателя? Ответ — имеет. Потому что для вакансии с большим числом переформулировок шансы оказаться вверху топа выше, чем для вакансии с малым числом переформулирок.

0

Посмотреть

У компании есть еще похожие вакансии

ServPonomarev 3 апр 2017 в 15:21

Ещё как работает. Из всего пула вакансий на одном работодателе выбирается самая релевантная. А порядок выдачи результатов поиска — по релевантности. То есть, работодатель, имеющих множество переформулированных вакансий, оказывается в поисковой выдаче выше того, у кого вакансий с переформулировками мало

0

Посмотреть

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

ServPonomarev 3 апр 2017 в 09:29

Дополнение:
У вас на графиках чётко виден шум кластеризации. Поскольку вы делите слова по кластерам строго, то получается, что для слов, находящихся на границе кластеров попадание в конкретный кластер — суть случайное событие. Изменяя количество кластеров, вы изменяете границы, вблизи которых слова случайным образом привязываются к кластерам. Иногда это случайное разбиение даёт лучший результат, иногда — худший. Вот и шум.

Уверен, если при кластеризации задать другое семя генератора случайных чисел (или перемешать слова в другом порядке), то на том же количестве кластеров вы получите другие значения.

Решение в данном случае — бить слова на кластеры самостоятельно так, что бы слово имело отношение не к единственному кластеру, а к нескольким, с разными весами. Для задачи кластеризации разницы никакой нет, а вот шум вы уберете.

+2

Посмотреть

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

ServPonomarev 3 апр 2017 в 09:16

Любопытный результат.
Какой у Вас исходный размер словаря? Я полагаю, что 1-2 млн. слов (русский и английский с опечатками). Если бить такой словарь на 5 тысяч кластеров, то на кластер в среднем придётся по 400 слов. Но при этом, скорее всего, более половины из этих кластеров содержат в себе не более 5-ти слов — это редкие слова и несколько их вариантов с опечатками. Частотные слова, задающие общую лексику, наоборот, группируются в мощных кластерах.
Представим себе ситуацию, что мы бьём наш словарь на два миллиона кластеров, в каждом кластере — строго по слову. Такое разбиение даст 100% точность на тесте. И вообще, точность должна расти с падением числа слов на кластер вне зависимости от способа кластеризации. Что и наблюдаем.
Я полагаю, что при большом числе кластеров неявно решается задача исправления опечаток, аналогично этой:

Word: преключение Position in vocabulary: 124515

Word Cosine distance
— приключение 0.748698
преключения 0.726111
приключения 0.692828
приключеия 0.670168
прключение 0.666706
приключеня 0.663286
прключения 0.660438
приключени 0.659609

+2

Посмотреть

У компании есть еще похожие вакансии

ServPonomarev 31 мар 2017 в 15:49

К сожалению, основной эффект, который Вы получили на А/В тестировании, пошёл не от алгоритма кластеризации, как такового, а от его эффекта — выбора только одной вакансии от фирмы.
Просто показывая самую релевантную, по мнению поискового алгоритма, вакансию на работодателя, Вы получили бы очень близкий эффект.
Проблемы с кластеризацией были видны на показанных Вами слайдах, в частности, мне запомнился кластер, содержащий юрисконсульта и работника склада.

+1

Посмотреть

Соревнование mlbootcamp от mail.ru. Кратко о рецепте второго места

ServPonomarev 25 мар 2017 в 12:08

реклама себя любимого, призовой фонд, строчка в резюме.

+8

Посмотреть

1

2 3 ...