Comments / Profile of Ordscarrid / Habr

Data Scientist

Вариационные автоэнкодеры для системы рекомендаций

Ordscarrid Apr 3 2023 at 06:37

Здравствуйте, Александр! Очень похвально, что Вы пишете об использовании популярных инструментов в такой узкой и закрытой сфере как рекомендательные системы. Также радует, что Вы решили разбавить своё повествование необходимыми математическими нотациями.

Теперь мне хотелось бы сказать о тех зонах роста для Вас, как для автора статей, которые есть по моему субъективному мнению. Мне очень интересно направление рекомендательных систем и применения различных технологий в них, потому прошу Вас не воспринимать следующие рекомендации как попытку как-то вас задеть - я правда хочу, чтобы Ваши тексты имели более высокое качество.

Вычитка текста - да, все мы не идеальны, но текст бы воспринимался гораздо лучше, если бы он был вычитан на наличие опечаток, логичность и понятность повествования. К сожалению, у Вас в тексте есть небольшие проблемы со всеми упомянутыми моментами, к примеру:
- "...делая данные более компактными и сжатым..." - тут, очевидно, допущена небольшая опечатка;
- "Нейросеть автоэнкодера" - автокодировщики (автоэнкодеры) являются видом нейросетей, потому в данном случае логически корректнее было бы написать об "архитектуре автоэнкодера" или же просто об "автоэнкодере";
- "В сверточных нейронных сетях сверточные слои принимают большую по объему единицу данных и преобразует ее в более плотный и компактный вид. Затем новый формат используется для классификации других данных (например породы вашего любимого животного)." - в данном случае, Вы сообщаете, что нейросеть преобразует одни данные, а классифицируются иные данные. Тут проблема лежит на стыке логичности повествования и понятности повествования. О последней ещё скажу далее.
Добавление структуры в текст - к сожалению, Ваш текст не структурирован, что мешает воспринимать содержимое. На данный момент, абзацы включают в себя по несколько различных мыслей, что не даёт понять, какая мысль была главной в этом фрагменте текста. К примеру, в абзаце, начинающемся со слов "Нейросеть автоэнкодера...", Вы затрагиваете следующие темы:
1. Архитектура автоэнкодера
2. Принцип работы свёрточных нейронных сетей (и то, поверхностно)
3. Идея VAE (Вы в абзаце взаимозаменяете автоэнкодеры и VAE, что не есть хорошо)
Помимо этого, структура всего текста не совсем ясна. Предлагаю Вам в дальнейших текстах с помощью заголовков разделять текст на несколько логических частей, по типу "Вводное слово"/"Приветствие", затем "Описание связанных технологий", "Описание самой технологии", "Применение в рекомендательных системах".
Все предложенные мной темы были затронуты в Вашем повествовании, однако они сплетались в различных абзацах, заставляя читателей теряться в лабиринтах Вашей мысли.
Изменение подхода к описанию математики - судя по повествованию, Вы не слишком хотите погружаться в математику, давая своим читателям лишь представление об описываемом инструменте. Однако делаете Вы это несколько...сомнительно. Вы используете довольно большое количество специализированных математических терминов к ряду, не предлагая никаких пояснений, что довольно сильно бьёт по понятности текста.

"Первая часть уравнения ELBO рассматривает логистическую логарифмическую вероятность для объекта с учетом его скрытого представления (ошибки реконструкции)" - спасибо, "всё понятно".
У не искушённого математикой читателя может возникнуть ряд вопросов, к примеру: "Почему именно логистическую логарифмированную вероятность?" "Разве скрытое представление и ошибка реконструкции взаимозаменяемы? Зачем там скобки?"

Словом, предлагаю Вам либо подробнее раскрывать математику и упоминаемые сложные понятия, либо постараться их избегать - Вашей целевой аудиторией являются либо люди с хорошим математическим образованием, которые хотят понимать математику, либо люди с недостаточными математическими знаниями, желающие ухватить суть инструмента. Ваш подход отталкивает представителей обеих групп.
Добавление ссылок на дополнительные материалы - моя личная просьба. Вы рассказали об интересном применении непростого метода машинного обучения, это прекрасно. Однако куда копать, если есть желание ещё лучше разобраться в теме? Возможно, Вам бы стоило добавлять ссылки на некие книги, посты или научные статьи, чтобы читатели имели возможность ознакомиться с упоминаемыми вещами.

Кстати говоря, это же потенциально может помочь Вам улучшить подачу математики - просто добавляйте спойлеры с более подробным объяснением тех или иных тем или же добавляйте ссылки на статьи, где объяснён конкретный математический инструмент.

То же касается не только математики - к примеру, вместо объяснения принципов работы свёрточных нейронных сетей в абзаце про архитектуру автокодировщиков, Вы могли бы ставить гиперссылку на текст по теме.

Надеюсь, мой комментарий поможет Вам вывести свой навык написания текстов на новый уровень. Всего Вам хорошего.

С уважением,
О. Рид

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения

Ordscarrid Nov 13 2021 at 20:35

Начну с похвалы - по посту видно, что автор умеет видеть потенциальные применения машинного обучения в реальной жизни и уже знает о необходимости нормализации. Конец похвалы.

Откровенно говоря, на пост смотреть несколько больно.

"...В своих работах, независимые электоральные аналитики показывают..." - argumentum ad populum собственной персоной. К тому же, ответьте, пожалуйста, существуют ли НЕЗАВИСИМЫЕ аналитики? Любой человек зависит от тех, кто платит ему/ей деньги, а аналитики не из тех, кто работает на себя/развивает бизнес. Словом, зависимость хоть от кого-то да присутствует. Осталось проследить цепочку спонсирования и узнать, от кого на самом деле зависят "независимые" аналитики.
"Нормальная явка" - это нечто интересное. Обычно используют некие статистические показатели, чтобы показать, какая явка является "нормальной". Ну, мода там, медиана... Может, по квантилям пройдётесь. Словом, вариантов много. Но нет же, у Вас "нормальная" явка именно там, где результаты примерно равны. Хотя это решение ничем не обосновывается.
DBSCAN - почему именно такие параметры? Что есть "хороший результат" в случае с кластеризацией? Вам понравился кластер и поэтому Вы считаете данный результат "хорошим"? Тут уже включается субъективность. Вы бы хоть какие-то метрики кластера включили для подобия объективности (ну, туда попадает 90% точек, к примеру [хотя там дай Бог 20% - во всех остальных случаях были фальсификации?]).
KNeighboursRegressor вкупе с Вашим выбором участков с "нормальной явкой" приводит к просто невообразимо плохим последствиям. Значение голосования за ЕР, предсказанное KNN, будет НЕ ВЫШЕ наибольшего значения, которое было в местах с "нормальной явкой". Если у вас на "нормальном" участке максимум 400 человек проголосовало за ЕдРо, то KNN никогда не скажет, что хоть на каком-то участке проголосовали за ЕдРо 400+! Я уж молчу о том, что Вы не использовали параметр weights = 'distance' в KNN.
Наконец, НЕ ДОСТАТОЧНО использовать информацию о расположении участка, проценту за КПРФ и количестве проголосовавших. Вы как минимум не учитываете информацию о том, в каком регионе происходит дело. Есть условно Хакасия Коновалова. Если Коновалов - хороший руководитель, то рейтинг у КПРФ в Хакасии высокий. Рядом есть Красноярский край Усса, представителя ЕдРа. Если Усс - хороший руководитель (да, и от партии власти бывают такие), то в Красноярском крае у ЕдРа будет высокая поддержка. Однако инфрмацию о регионах Вы не учитываете. Более того, Вы можете ПОЛНОСТЬЮ убрать из своих данных регион с обоснованно высокой поддержкой ЕдРа. И тогда даже если у ЕдРа было на самом деле 60%, Вы впишете им условных 40%.
Вишенка на торте - посмотрите на предпоследний график. Видите забавный хвост слева? Он вызван тем, что автор пытается предсказать количество проголосовавших за ЕдРо с помощью KNN. На одном участке проголосовало условно 100 человек - из них 40 за ЕдРо, - на соседнем, в деревушке, проголосовало 10 человек - 6 за ЕдРо, 4 за КПРФ - этот участок посчитали аномальным и решили засунуть в модель. KNN смотрит, что на соседнем участке проголосовало 60 человек за ЕдРо и говорит: "В этой деревеньке, потому что она рядом, 60 же человек проголосовало за ЕдРо!" Отсюда и берётся хвост слева. То есть когда автор пытался в машинное обучение, он создал ужасного левиафана, КОТОРЫЙ КАК РАЗ ЯВНО И ФАЛЬСИФИЦИРУЕТ РЕЗУЛЬТАТЫ. Если кто-то попросит, повторю весь эксперимент и на конкретных примерах покажу, в каких участках способ автора приводит к ОТКРОВЕННЫМ ФАЛЬСИФИКАЦИЯМ.

P.s. если я не ошибаюсь, в Хабр (и сайты в целом) можно вставлять изображения Plotly, а не "скринить" их и вставлять картинчками. Теряется интерактивность, гражданин!

+26