Комментарии / Профиль Kwent / Хабр

Как стать автором

Алексеев Алексей @Kwent

Пользователь

Профиль Публикации 6Комментарии 286Закладки 103

Локализуем игру в слова с искусственным интеллектом

Kwent 14 дек 2022 в 18:28

Интересная игра, тренирующая ассоциативное мышление и умение строить связи.

Сперва мы учим машину долго и нудно выстраивать ассоциации, приближенные к человеческим, а потом учимся у той же машины ассоциативному мышлению, выглядит как преподаватель сперва учит студента, а потом просит объяснить предмет ему :)
Скорее это дрессировка на особенности нейросети, философский вопрос полезно ли это.
Так или иначе word2vec это скорее про контекст слов, то есть ближе к синонимам (точнее к словам, которые можно использовать в одном контексте), чем к ассоциациям. Например, ассоциацию тумбочка - тум-тум - африка люди смогут проследить, а эбмеддинги не очень.

Для улучшения могу порекомендовать взять эмбеддинги получше, так как нет привязки "посчитать на лету", можно скачать условные топ 10000 или предпосчитать, word2vec по меркам текущего развития позапрошлый век. Например, та же YaLM 100B яндекса уже с русским из коробки

+3

Посмотреть

Нейросеть рисует за меня?

Kwent 7 дек 2022 в 17:46

Да? А если художники скинутся на нейросеть, которая доказывает, что данная картинка была в матерьяле обучения? :)

Любая нейросеть это не про да или нет, а про вероятности, которые еще и не совсем классические вероятности. Максимум тут будет классическое "эксперт сказал что так".

Кроме того, там сильная потеря информации, миллионы картинок "сжимаются" с огромными потерями, мягко говоря, непредсказуемым алгоритмом в не интерпретируемые сущности, котят из фарша не восстановишь (С)

Большинство не перестанет рисовать, большинство начнет использовать нейросетевые заготовки, как автор в статье

+2

Посмотреть

Нейросеть рисует за меня?

Kwent 7 дек 2022 в 16:16

вполне можно ожидать каких-то юридических баталий

Маловероятно, доказать что конкретная картинка была в обучении крайне сложно (формально невозможно, только если авторы не признаются), а вот что еще именно эта картинка хоть как-то повлияла на именно этот арт, не смогут доказать даже авторы сети.

> то либо все вообще перестанут их юзать

Нейросети такая штука, что их как бы нельзя запретить. Допустим, мы можем запретить конкретный файл весов с хэшом Х, но они настолько избыточны что можно поменять буквально все веса чуть-чуть и качество практически не изменится, да и запретить обучить мне нейросеть никто не сможет

Тут скорее художники и юристы должны подстроиться, свои правила гнуть поздно

0

Посмотреть

PayPal вернула разработчикам Flipper Zero 74% денег от заблокированных $1,3 млн

Kwent 1 дек 2022 в 11:33

Чтобы во вселенной был баланс, на сцену выходит FTX

+21

Посмотреть

Similar images: API

Kwent 21 сен 2022 в 19:44

В векторное представление я перегоняю комбинацией нейронных сетей

То есть специальную сетку для получения векторов не тренируете, а берете готовые претрейны с обычной классификации вроде Imagenet? Вопрос да, откуда берутся эти сети

Про кейс - в том то и дело, что надо искать не те же часы, а похожие, грубо говоря эти не нравятся, а хочется "что-то вроде", внутри одного магазина, что-то вроде похожие товары, в случае одежды там сильно решает визуал, меты не всегда достаточно

0

Посмотреть

Similar images: API

Kwent 21 сен 2022 в 15:32

Спасибо за интересную статью, последнее время тоже играюсь в этом направлении

Причем сложность скорее научная, нежели инженерная.

А можно приоткрыть завесу реализации? Или там сильно ноу хау? У меня проблемы что не совсем понимаю как учить в плане разметки классов, или тут тоже одна картинка с аугментациями == один класс?

По поводу применимости -- такая штука, но несколько специфичная нужна магазинам, в частности одежды, "поиск похожих сумок и туфлей" там работает либо 1в1, либо вообще мимо, а свои отделы не все держат, в плане API им бы зашло, но у меня косвенные контакты, на покупателя не выведу :)

0

Посмотреть

Выгорание эволюционирует. Что такое «тихий уход» — новый тренд среди офисных сотрудников

Kwent 31 авг 2022 в 18:02

Конечно, реальные науки, у них даже свое название есть -- псевдонауки. Когда в них завезут фальсифицируемость, тогда и можно будет говорить)

+6

Посмотреть

Twitter теряет рядовых сотрудников, которые уходят из-за непонимания ситуации по сделке с Маском

Kwent 20 авг 2022 в 21:30

Ну если рассматривать теорию что это все для легальной большой продажи акций теслы, то у Маска все ок получилось)

+1

Посмотреть

Как мы намучились с рутиной и придумали фреймворк Piper для быстрого создания ML-проектов

Kwent 15 авг 2022 в 15:40

а как со всякими зависимостями разруливается? Или есть какой-то ограниченный набор что можно брать?

0

Посмотреть

Эффективное использование any и all в Python

Kwent 15 авг 2022 в 15:18

Тут в целом больше вопросов, чем ответов. Называем статью "Эффективное использование any и all в Python" и говорим, что выделить память на весь список дороже, чем создать генератор. Ну такое

+7

Посмотреть

Как мы намучились с рутиной и придумали фреймворк Piper для быстрого создания ML-проектов

Kwent 15 авг 2022 в 15:14

Написание подготовки данных и обучение модели в Jupyter - 21 день

Пишите 42, так прирост будет еще больше) если там именно написание, не анализ данных, не ресерч, а вот именно написание кода загрузчиков и обучения и это не ваш первый проект, то 1-2 дня в максимум. Некоторые соревнования идут меньше 21 дня, где и ресерч, и новые данные, а еще за это время крутые модели надо выкатить.
А если серьезно задача автоматизации подобных штук стоит сейчас остро, но пока не увидел киллер фич Piper

+4

Посмотреть

Data Science Pet Projects. FAQ

Kwent 11 авг 2022 в 16:17

Java — это инструмент, он никак не связан с идеями пет-проектов для начинающих. То есть вам либо нужны идеи пет-проектов (и уже второй вопрос реализации), либо задачи-тренажеры для изучения Java (и там уже не нужно тащить всю сложность реализации реальных проектов).

+2

Посмотреть

Чему HR-ам стоит поучиться у PornHub и голливудских продюсеров

Kwent 7 июл 2022 в 20:53

Идея, конечно, интересная, но кажется вы изобрели hh.ru и подобное. То есть такое уже есть -- вакансии в одном месте с фильтрами и т.д. Просто спрос явно выше, поэтому HRaм приходится искать прямые контакты. Вместо ответа ссылкой всегда можно задать один вопрос про вилку с вашей нижней границей, отличный фильтр, если честно :)

+4

Посмотреть

Почему идентификация лиц невозможна — так, как этого хочет заказчик?

Kwent 18 июн 2022 в 12:59

Там же сравнение не бинарное (да/нет), а пороговое, мы можем уменьшить ошибку "нашелся двойник" в ноль двигая порог, да мы получаем больше другую ошибку (на доли секунды дольше будет выбирать удачный кадр), но зато ошибкой "перепутало" можно пренебречь. Я не знаю как именно сделано в метро, но пока там такой проблемы нет - имхо еще мало людей это используют. А близнецы всегда проблема для распознавания лиц, тут ничего не поделаешь.

Тут опять есть предположение и равновероятности ошибок, на самом деле ситуация будет примерно такая: подавляющее большинство людей всегда без ошибок, а кто-то будет путаться через раз, вот он почти сразу забьет на это, а у остальных будет норм работать.

"Ошибка меньше процента" не узнать человека, а перепутать двух людей - одна миллионная (одно неправильное списание на миллион сравнений).

В общем, все действительно не просто, но с некоторыми весьма незначительными допущениями это уже норм работает. У меня, например, тройка тоже не каждый раз срабатывает)

0

Посмотреть

Почему идентификация лиц невозможна — так, как этого хочет заказчик?

Kwent 18 июн 2022 в 01:29

У меня все девайсы умеют в разблокировку по лицу, был в нескольких организациях где нормальный СКУД по лицу, даже преступников ловят, или это все не очень удачные? :)

0

Посмотреть

Почему идентификация лиц невозможна — так, как этого хочет заказчик?

Kwent 18 июн 2022 в 01:24

Все так, у вас только пара проблем:
1. Вы почему-то исходите из "равности всех лиц", а это не так, женщины с мужчинами путаются примерно никогда, и ваша база из 1000 человек превращается в две непересекающихся базы по 500, то есть ошибка между базами в разы меньше чем внутри, это просто пример, такие "разбиения" неявные, но сильно влияют на качество распознавания - у сетки путаются похожие лица, как и у людей.
2. Одна миллионная действительно хорошее и реальное приближение, однако дальнейшие выводы не совсем верные. Ну то есть они верные в вакууме, но в реальности ошибка значимо ниже. Вот, например, NIST FRVT занимаются как раз оценкой таких сравнений и ошибок, мы даже про это писали. Там ошибка (две фотки одного человека признаны разными людьми) сильно меньше процента при сравнении всех со всеми при допуске как раз той самой ошибки перепутать двух людей в одну миллионную.

А статья, конечно, была актуальна лет 5 назад, когда сети работали в таких задачах еще хуже людей.

+1

Посмотреть

Покоряем высоты для велонавигатора 2ГИС

Kwent 8 июн 2022 в 11:46

Отличная статья, интересные решения, приятно читается, спасибо, пишите еще :)

+9

Посмотреть

Как улучшить распознавание скелетов в MediaPipe

Kwent 11 мая 2022 в 17:19

Можно без спора мне рассказать что sota, а то в моем мире тоже пока yolov5)

0

Посмотреть

Почему GPU обманывают о своей нагрузке и как с этим бороться

Kwent 6 мая 2022 в 13:59

спасибо за DCGM, не знал, может есть еще под рукой что почитать или посмотреть про мониторинг и диагностику обучения/загрузки карт?

0

Посмотреть

Простой поиск дубликатов изображения

Kwent 4 мая 2022 в 17:24

Поиск копий изображения

Копия все-таки это 1в1, а не "похожее", сюда сети тащить не нужно, условный перцептивный хэш работает кратно быстрее. А для поиска похожих картинок решение не сильно заточено, а учитывая порог и не подразумевалось.

Статья как-то недоделана, что ли. То есть код есть и мб работает, но слова его не объясняют, они просто для веса.

с использованием потерь triplet

потеря "функции" тоже не говорит о "высоком техническом уровне статьи"

Ну и делать что-то в 2022 году на основе VGG такое себе, хотя бы resnet для приличия

+6

Посмотреть

3

4 5 ...