Comments / Profile of iivvaall / Habr

Алексей Иванов @iivvaall

data scientist, гештальт-терапевт

Profile Publications 4Comments 70Bookmarks 5

Дообучаем Llama 3.1 у себя дома

iivvaall Nov 7 at 13:42

Спасибо за статью. Начал погружаться в тему, нашел ее в гугле. Отличный starting point

Look

Исследование МПСУ: разработчики со временем теряют способность к эмпатии и становятся безэмоциональными

iivvaall Aug 13 at 15:40

Выглядит как чья-то дипломная работа. Ну или подготовка к ней. До диплома еще контрольной группы не хватает.

Look

В «Яндекс Маркете» появился новый инструмент для работы с брошенными корзинами

iivvaall May 25 at 11:47

Вот именно потому, что там очень много конкурентов, цена такая большая. У нас продажи это две трети людей. А кушать хотят все. И потому с трёх рублей продажи один уходит производителю а два продажникам и посредникам.

Look

Российские учёные разработали новый метод выявления кражи ИИ‑моделей

iivvaall May 21 at 22:02

В статье утверждается, что они придумали как сделать так, чтобы этот секретный отклик сохранялся при дообучении

Look

Tinder ушёл… да здравствует $hyoo_match

iivvaall Jun 6 2023 at 18:09

Неужели кто-то соглашается делать фото каждый день, да еще и самому с телефона. Отбирать на сайт знакомств привлекательные фотки довольно естественно.
Мертвые на сайте не только те, кто давно не заходил. Есть и те, кто просто пришел по-переписываться. Возможно есть смысл сразу матчить время для встречи. Во всяком случае я в бытность пребывания на сайте пришел примерно к такой стратегии: одна, максимум две фразы и сразу предложение встретиться. Какие серьезные отношения, если человек не может оторвать попу от дивана и дойти до кафешки.
Непонятно зачем для такого приложения собственная распределенная криптографическая база. Слишком много разноплановых инноваций для одного продукта.

Look

РКН предупредил о рисках дезинформации пользователей рекомендательными алгоритмами

iivvaall May 24 2023 at 20:18

Ну мне на медузе в глаза бросилось. Вижу, что феномен чуть шире. Спасибо

Look

РКН предупредил о рисках дезинформации пользователей рекомендательными алгоритмами

iivvaall May 24 2023 at 17:15

Интересно, что в последнем абзаце есть слово "якобы". Им медуза еще любит баловаться.

Лично меня тексты с таким словом настораживают. Если автор статьи имеет другое мнение по какому-то вопросу, почему бы его не развернуть, подкрепив какими-нибудь рациональными пояснениями. Вместо этого используется "якобы".

Это такое веяние моды? Почему был выбран именно такой способ подачи? Какой эффект он производит? На мой глаз, частое использование таких слов потихоньку подтачивает способность тестировать реальность.

Look

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

iivvaall Mar 13 2023 at 16:20

Да. Мой комент чисто про простые DS'овские вещи, которые можно сделать быстро. На все остальное надо уже какие-то предположения про предметную область делать;

Look

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

iivvaall Mar 13 2023 at 01:05

320 для finetuning'а трансформера может быть достаточно. При малом величине эффекта их может оказаться недостаточно для стат значимых выводов.

Для проверки статзначимости можно сделать stratified k fold валидацию и U-test Манна Уитни. Разбить датасет на 10 фолдов. Поочередно вынимать каждый из них для теста, обучать модель на оставшихся 9-ти (разбив на train и validate) и генерить тестовые предикты. После 10-ти итераций каждый элемент датасета побудет один раз в тесте и предикты будут для каждого элемента. Дальше их можно разбить по ground truth группам и проверить гипотезу, что скор в одной группе больше чем в другой против односторонней альтернативы.

Параллельно можно усреднить предикты этих 10 моделей для датасета из google forms, в котором 20 примеров и посчитать Манна Уитни на них. Возможно там будет статзначимость. Хотя, если процедура сбора датасета одна и та же, это вроде бы не принесет дополнительной информации.

Для проверки стат значимости оценки людей, можно усреднить показания этих 17(уже 30) человек на этих 20-ти текстах и посчитать критерий Манна Уитни. Для 17 человек скор можно считать непрерывным.

Look

Как создание бинарного классификатора открыло ящик Пандоры в стандартах владения английским языком

iivvaall Mar 12 2023 at 14:51

Здравствуйте. Интересная тема. Интересно, правда ли нейронки могут определять носителей или нет. После прочтения осталось неудовлетворенное любопытство и желание покритиковать методическую сторону.

20 и 17 и даже 160 это очень маленькие цифры. Если оперируете датасетами такого размера, очень важно аккуратно тестировать статзначимость проверяемых гипотез. На датасетах такого размера большие метрики могут получиться чисто случайно.
У всех приведенных метрик (precision, recall, f1, accuracy) baseline в виде рандомного классификатора с ходу не ясен. Он зависит от баланса классов в выборке, а recall у рандома вообще произволен. Для беглого чтения неплохо было бы привести ROC AUC
Для ответа на вопрос, может или нет ИИ делать такую классификацию в принципе, можно не смотреть на величину эффекта, важна лишь стат значимость. И очень важна методическая сторона сбора датасета. Важно, чтобы датасеты собирались единообразно. Например, если в native части будут новости, а в second language -- сочинения на тему как я провел лето, остается сомнение, может оно научилось отличать сочинения от газетных статей, а не то, что от него хотели. Во втором эксперименте вы явно говорите, что источники разные. В эксперименте с google forms вообще не говорите как собирался датасет.

Без прояснения методологии ваши выводы вызывают недоверие. Лично для меня Ваша статья на вопрос, может ли ии распознавать носителя, не отвечает. К сожалению. Вопрос очень интересны.

Look

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

iivvaall Mar 3 2023 at 15:33

От меня у вас нет ни стартов, ни финишей. Ну просто потому, что самокатов в нужное мне время просто нет. Без явного учета доступности, ваша модель это не увидит. Она будет свято верить, что все хорошо, ибо ожидание старта нулевое.

Look

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

iivvaall Mar 3 2023 at 15:15

А вы только старты рассматриваете? В прошлом сезоне активно пользовался самокатами. Рассматривал их в том числе как альтернативу маршрутки до метро. Езжу после часа пик. Вот не получается стартануть ни утром, и ни вечером. Утром все самокаты у метро, вечером у домов.

Look

Как я на психотерапию ходил. И этот опыт помог мне найти жену

iivvaall Feb 27 2023 at 13:54

Я про то, что одно другое полностью заменить не может. А вот обогатить друг друга да, очень даже.

Look

Как я на психотерапию ходил. И этот опыт помог мне найти жену

iivvaall Feb 27 2023 at 09:58

Во многих подходах эмпатия это необходимое условие помощи. Есть даже правило: если терапевт не может сохранить сочувствие клиенту, он должен отказаться от работы. Погружение в эмоциональные переживания идет (перенос и контрперенос). Умение регулировать свою погруженность в них это один из проф навыков терапевтов. А от выгорания спасает чувствительность к бессилию и правильный фокус. Изменить клиента против его воли невозможно. Можно лишь способствовать постепенному развитию его осознанности и ждать, когда он будет готов решить свои проблемы сам.

Look

Как я на психотерапию ходил. И этот опыт помог мне найти жену

iivvaall Feb 27 2023 at 09:47

Для терапевтов эмпатия это навык, который тупо нарабатывается. Причем отключаемый. Вне кабинета работать лениво.

Я не знаю лично ни одного терапевта, которые бы обсуждали клиентов на каких-то форумах. Интернет для этого слишком мутное пространство.

Look

Как я на психотерапию ходил. И этот опыт помог мне найти жену

iivvaall Feb 26 2023 at 17:00

Терапия и разговор с самим собой соотносятся как секс и мастурбация. Вроде про одно и то же, но это два разных занятия. Человек все-таки социален и для многих процессов нужен другой человек. То же отношение к себе. Первоначально это отношение к человеку его окружения, которое потом интериорезируется. В статье очень верно описано его изменение. Сначала это отношение терапевта к клиенту, которое впитывается таким же макаром, что и предыдущее.

Терапевт обязан быть искренним. Это один из критериев проф пригодности. И этой другой вопрос, когда Вы сможете поверить, что это действительно так. Наверно это произойдет, когда Вы сами рискнете быть искренним с ним и Вам удасться заметить, что он это выдерживает. Вы тоже. И вообще, мир и отношения не рухнули. Более того, вам от этого становится только лучше.

Хорошая терапия и правда предполагает супервизию. Терапевт ходит и обсуждает свою работу со старшим коллегой. Подробностей про клиентов там мало. Супервизия больше для поддержки самих терапевтов.

Look

Как не зарыться в задачах и выстроить работу в команде: наш опыт работы по scrum

iivvaall Nov 20 2021 at 01:44

Я менее категоричен: на мой глаз у нас адаптация скрама под наши реалии.

Мы пилим разные модельки для разных заказчиков. У нас нет единого продукта и, как следствие, канонического Product Owner'а. Есть начальник и его работа в этой статье осталась за кадром. Я не настолько в нее погружен, чтобы о ней писать. Например, здесь ни слова не сказано про то, откуда заказчики появляются.

Сам факт появления этой статьи говорит, что некоторый уровень Transparency у нас таки есть. Что и как мы делаем мы регулярно обсуждаем между собой и с заказчиками (Inspection). Про отсутcвие Adaptation не понял, откуда вывод.

C backlog'ом и правда есть некоторые проблемы. Он кажется пустоватым, а PBR в середине спринта часто выглядит скучным. Симптомом чего это является и как с этим обходится я пока не знаю.

Про Commitments. Команда ответвтенность за результаты спринта на себя берет. Я, как scrum master, за процессами присматриваю. Уровень фрустрации я оцениваю как повышенный, но надежда жива и вполне обоснованна. За последний год мы все-таки подрасли. Как в техническом, так и в организационном плане.

А c подучиться я полностью согласен. Это лишним не бывает :)

Look

Как отсеять хороших разработчиков при найме

iivvaall Sep 10 2021 at 12:07

Найти хорошего человека и правда сложно. Вот только описанные практики это немножко не про это.

Простенький кодинг на листочке, пара вопросов про архитектуру и минут через 30 собеседования становится понятно, что человека надо брать и оставшиеся 30 уходят на соблазнение. А что в работе прет. А вот у нас такие задачки есть, как они тебе? А вот еще такие.

Если человек жестко тупит, то через 30 минут тоже окончательно становится понятно, что это отказ. Было собеседование, когда на 40-ой минуте это озвучил.

А вот если кандидат попадает в категорию "есть за что зацепиться", "ну может быть, если лучше не найдем", тогда и начинаются и тестовые задания (Мы не практикуем. Возможно зря.), и звонки через пару недель и прочее.

Look

Правоохранительные органы попросили кафе и отели в центре Москвы 31 января отключить Wi-Fi

iivvaall Jan 31 2021 at 17:25

При этом нужно понимать, что весь ущерб возник только и исключительно из-за действий власти. Поступи они по закону — прекратив бороться с мирным митингом — никакого ущерба бы не было вообще.

Вот именно такая позиция мне противна. Во первых в моей картине мира митинг совсем не мирный. Если точнее, то митинг это сильное и очень АГРЕССИВНОЕ действие. Свою долю ответственности несут и власть, и организаторы протестов и те, кто выходит на улицы, причем, как я понимаю, никто из действующих лиц признавать эту ответственность публично не хочет.

Look

Правоохранительные органы попросили кафе и отели в центре Москвы 31 января отключить Wi-Fi

iivvaall Jan 31 2021 at 17:17

Мне не нравится отождествление людей, который из политических соображений оставляли плохие отзывы о ресторане с народом. Народ это что-то большее. Владелец Армении тоже часть народа

Look

2 3 4

Information

Specialization