kesh1987 Jun 13 at 07:49

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Medium

9 min

11K

Artificial IntelligenceMachine learning * Go * Start-up developmentNatural Language Processing *

Case

+10

Comments 8

Javian Jun 13 at 08:03

Молочная гречневая и молочная рисовая каши наверное вообще не распознаются.

kesh1987 Jun 13 at 19:07

Честно — молочных каш в этом прогоне не было, гречка шла сырой крупой или кашей с овощами на воде. Сама «каша» распознаётся хорошо (RU дали 100% восстановимых). А вот калории поплывут: молоко и сахар после варки не видны, модель их додумывает — ровно тяжёлый случай из статьи. Добавлю молочные каши в бенчмарк, проверю.

Javian Jun 17 at 18:12

Молочный кисель в ту же коллекцию. Внешне не отличаются - "белый круг"

TakeshiDev Jun 13 at 08:20

То есть confidence — это не вероятность, а почти константа, которую модель приклеивает к ответу «на автомате». Она не несёт информации о том, права модель или нет: коррелирует не с правильностью, а в лучшем случае с тем, насколько уверенно модель звучит

Да, это в целом заложено в названии. Абсолютно бесполезный параметр на холодных ответах, которые больше всего подходят для задач с повторяемым результатом. Потому что сама нейронка бустит вероятности первых 3-4 вариантов, что приводит к тому что она практически всегда уверена в своих ответах. Он может быть полезен на теплых ответах, но стабильности там добиться гораздо сложнее и использование токенов будет больше в разы.

Dreams_and_magic Jun 13 at 10:43

Может, дать возможность юзеру самому описывать блюдо для увеличения точности алгоритма?

kesh1987 Jun 13 at 19:05

Поправить уже можно: после распознавания переименовать блюдо, добавить ингредиенты и подвигать граммовки — пересчитает. А вот подсказать текстом до съёмки пока нельзя — и это копеечная доработка, которая бьёт по двум слабым местам из статьи: невидимые ингредиенты («это лазанья») и вес порции. Спасибо, в роадмап.

Dron007 Jun 14 at 03:41

Такого рода приложения, наверное, в каких-то случаях полезны - ведётся строгая база, можно рисовать графики, мотивирует, всякие напоминалки можно делать, но я вот вышел на другой подход. В обычном 20$-вом ChatGPT в чате сначала просто задавал вопросы по правильному питанию, скормил ей свои данные, она подсчитала ИМТ, сказала, что можно немного убрать, заодно дала ещё ряд полезных советов. Потом я поискал программы типа вашей, но это ж очевидно бесплатная замануха и потом подсаживание на регулярную оплату. Попробовал в том же чате поскидывать ей фото еды, заодно наговаривая и описания (это еще проще, чем фото). Она выдавала довольно правдоподобные ответы. Для ряда продуктов я проверил калорийность. Но мне ж главное не просто калории, а именно персональные рекомендации в чате. Откуда бы ещё я узнал, что колбаса - не самый полезный, мягко говоря, продукт, хлеб с маслом - углеводы плюс жир, белка надо побольше, потому что при похудении в первую очередь могут мышцы страдать. А вот клубника - хоть и сладкая, наоборот низкокалорийный ("бесплатный") продукт в отличие от апельсинового сока, например. То есть я попутно общался с ней, уточнял всякие вещи, потом кидал ей фото с упаковки продуктов, выбирая цельнозерновой хлеб, например (довольно бесполезный продукт, надо сказать, и полно обманок с высокой калорийностью, сахаром, мукой высшего сорта). Попутно я упоминал ей о своём весе, получал фидбэк. То есть это уже полноценный, как там их зовут, "коуч"?

Главное, что за счёт единого чата она уже запомнила мои основные продукты, формат необходимого вывода (подсчёт калорий, отслеживание белка). Я как-то попросил оценить приём еды и она потом стала добавлять каждый раз эту 10-бальную оценку. Почему-то всегда максимум до 8 и считала это хорошим, а на 10 так и не понял что у неё надо есть. Порции по фото, конечно, примерно оценивает. Потом я купил весы, просто чтобы интуитивно понимать вес, иногда ей сообщал. Но главное, я не привязывался ко всей этой системе. Со временем уже запомнил на что надо обращать внимание, перестал ей кидать фото, какое-то время кидал текстом просто, уже заранее зная, что ответит. То есть она помогла выработать интуицию и понимание что полезно, что нет, где калорий много, как балансировать еду. Сейчас уже ей в чат не кидаю, но может будут еще вопросы какие-то. Результатами доволен, приближаюсь к верхней границе ИМТ (25), хотя там и было превышение может килограммов 5 всего. Но и прошло пара месяцев. Помимо калорийности много всего узнал о своём питании.

Reller Jun 18 at 19:19

Самое ценное тут это привязка таксономии ошибок к цене для пользователя. Recoverable против убивающих доверие. У нас на распознавании картинок так же, считаем по стоимости ошибки, а не по голой accuracy. Одна и та же цифра точности может значить и норм продукт, и провал, всё решает, какие именно промахи попали в неисправимые.

Про судью на той же модели соглашусь, но риск не в случайном шуме. Он в скоррелированной слепоте. Судья делит провалы с распознавателем и штампует ровно те ошибки, которые распознаватель и делает. Дешёвая страховка, подсыпать в прогон заранее известные злые пары, гречка против пельменей. Если судья их не ловит, его «всё correct» ничего не значит. Ручной проход по подвыборке у вас как раз это и закрыл.

Калибровку confidence стоит проверять об вердикты. Реально ли низкая уверенность коррелирует с wrong. Сырое число от модели обычно не калибровано, и порог 0.85 легко висит для красоты, пока не сверишь его с фактами.