Обновить
4K+
23
Ева Ванская@Jaylla

Data Scientist

1
Рейтинг
30
Подписчики
Отправить сообщение

ChatGPT сексист? Как гендерные маркеры в промпте влияют на решение задач

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5K

Громкий заголовок, но у меня есть пруфы. Все началось с персонального наблюдения. Я ML research engineer и, как многие из вас, активно использую AI не только для кодинга, но и для широкого спектра других задач: ищу релевантные статьи, анализирую open source-репозитории, составляю планы и так далее. Для разработки я выбираю Claude Code, а для анализа и сравнения статей часто прибегаю к GPT-5.4 Pro — спасибо оплаченной корпоративной подписке. С чатом я общаюсь на русском: так банально быстрее и точнее формулировки. Иногда проскальзывают «я-высказывания», например: «я уже попробовала такой и вот такой подход, их не надо включать в анализ». Поначалу я не видела в этом проблемы, но постепенно стала замечать, что в таких чатах ответы модели становятся как будто менее точными и детальными. Может, мне просто показалось? Но ощущение не исчезало, и в конце концов я решила провести небольшой ресерч.

Весь код выложен на GitHub, буду рада, если кто-то воспользуется им и продолжит исследование. Весь код тут, разбит на несколько Jupyter Notebook-ов.

Читать далее

Рекомендательные системы: проблемы и методы решения. Часть 2

Время на прочтение15 мин
Охват и читатели28K

Привет! Меня зовут Екатерина Ванская, и я занимаюсь data science в компании Prequel. В этой статье я продолжу обзор рекомендательных алгоритмов, которым мы начали в предыдущем моем материале

(вот ссылка на первую часть).

Область рекомендаций усложняется по мере расширения сферы ее применения, с каждым новым вызовом и нюансом использования. По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей.

Читать далее

Рекомендательные системы: проблемы и методы решения. Часть 1

Время на прочтение14 мин
Охват и читатели43K

Привет! Я хочу рассказать вам о рекомендательных алгоритмах. Мы в Prequel создаем фильтры и эффекты для редактирования фото и видео. Создаем давно, и постепенно этих эффектов стало очень много. А с ними и пользовательского контента. Мы захотели помочь с выбором из этого многообразия, для чего нам и понадобилась система рекомендаций. Если масштабы вашей системы такие, что пользователям сложно в ней ориентироваться, возможно, что рекомендации могут помочь и вам.

Задуманный систем оказался слишком объемным для одной статьи, поэтому мы разбили его на две части. Перед вами первая, она посвящена постановке задачи и базовым методам решения. В этой части мы разберем коллаборативные модели от матричного разложения (на примере ALS) до neural collaborative filtering. Кроме того, будет небольшой обзор метрик и техник борьбы с проблемой холодного старта.

Читать далее

Внимательно читаем одну статью по liveness detection (или не одну)

Время на прочтение9 мин
Охват и читатели5.6K
У меня сегодня формат похожий на «читаем статьи за вас» от ODS, только я взяла несколько связанных.

Отправной точкой служит статья под названием “Searching Central Difference Convolutional Networks for Face Anti-Spoofing” (2020 г) и мое желание посмотреть немного вглубь на историю методов, в ней использованных.

Я пройдусь по исходному тексту, изложу алгоритмы, углубляясь по ходу в упоминаемые темы.


Читать дальше →

Методы отбора фич

Время на прочтение10 мин
Охват и читатели95K
Эта статья — обзор, компиляция из нескольких источников, полный список которых я приведу в конце. Отбор фич (feature selection) — важная составляющая машинного обучения. Поэтому мне захотелось лучше разобраться со всевозможными его методами. Я получила большое удовольствие от поиска информации, чтения статей, просмотра лекций. И хочу поделиться этими материалами с вами. Я постаралась написать статью так, чтобы она требовала минимальных знаний в области и была доступна новичкам.
Читать дальше →

Первый опыт участия в kaggle-конкурсе и работа над ошибками

Время на прочтение5 мин
Охват и читатели15K
Хочу поделиться опытом своего первого участия в kaggle конкурсе (учебный Bag of Words). И хотя мне не удалось достичь поражающих воображение результатов, я расскажу о том, как искала и находила способы улучшить примеры “учебника” (для этого сами примеры тоже кратко опишу), а также остановлю внимание на разборе своих просчетов. Должна предупредить, что статья будет интересна прежде всего новичкам в области text mining. Тем не менее, большинство методов я описываю кратко и упрощенно, давая при этом ссылки на более точные определения, поскольку цель моя — обзор практики, а не теории. К сожалению, конкурс уже завершился, но прочитать материалы к нему все равно может быть полезно. Ссылка на код к статье тут.
Читать дальше →

Информация

В рейтинге
2 010-я
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирована
Активность