Pull to refresh
32
0
Дмитрий Антипов @antipov_dmitry

AI / LLM / ML / Software

Send message

Насколько глубоким в каждой теме планируется бенч или же вы его зафиксировали (надолго ли?), и он не будет развиваться? Есть достаточно много «распределенного» культурного кода, который является важным для хоть и весомого, но все же среза людей. Условно, есть блогеры-миллионники (и генерируемый ими культурный код для публики всех возрастов — тоже), без которых кто-то не может представить свою жизнь, а кто-то о них даже не слышал. Или региональные шутейки и словечки (особенно в приграничье), например, «на ход ноги» или приморские «чифанька» вместе с «фонарный». Кажется, что культурный код все равно относительно конечен, но вот именно для всех единым бенчом его как померить? Как вы определяется что попадает в бенч и когда надо остановиться?

И, кажется, что чем больше будет такого, тем чаще будут проваливаться люди и, наоборот, выигрывать модели просто за счет ш̶и̶р̶о̶т̶ы̶ ̶р̶у̶с̶с̶к̶о̶й̶ ̶д̶у̶ш̶и знаний всего интернета.

Как планируете с этим бороться?

А если скатываться в просто сравнивание с другими моделями, то будет просто гонка кто глубже и ширше обработал культурный код, но у вас бенч закрыт, поэтому что именно в нем вызывает вопросики.

И второй вопрос, планируете ли бенч с визуалом культурного кода? Люди, архитектура, символика и тд?

От статьи отовсюду сквозит gpt-стилем, который затем даже не вычитывали. Ну вот как пример: «Распознавание лицевых выражений». Да, есть такая устоявшаяся штука «Facial expression recognition», которую ни один человек на русский не переведет как «лицевые выражения».

Плюс вы не указали битовую маску — кисточку, которая в сто раз удобнее полигонов для сложной геометрии и для сложных задач используется почти всеми ведущими ai-лабораториями мира.

Не раскрыт вопрос того, что bbox часто используется как более быстрый детектор, через который затем можно доуточнить объект внутри бокса. То что часто разметка делается так, что из одного типа делается другой — тоже.

Не раскрыт вопрос того, что каждому выделению часто требуется метка объекта.

Не раскрыт вопрос предразметки и ассистов типа SAM, без которых серьезная разметка уже вообще не делается.

Вообщем, в статье что-то есть, но это точно не полный гайд, а интересная тема, которую блоками писала генеративка.

В оригинале они ничего не пишут про подход, в котором LLM вообще не присутствует и можно обойтись классическим NLP, не тащя ллмку в прод, когда она там не нужна, я эту часть добавил. А дальше — да, фактически их статья, я же про это открыто там и написал. А статья — она как песня, из нее слов не выкинешь, хотя и адаптация на читабельный русский не так проста, как может показаться ツ

В датасете достаточно сильный перекос по полу в сторону женщин (80 на 20), оказывает ли это какое-то влияние на инференс? И хотелось ли бы это соотношение изменить?

Рома, привет! Сейчас у нас эксперимента фактически два: ускорить текущий пайплайн описаний (который не включает в себя точки вообще, только описание) и пособирать к ним в том числе дополнительно и точки ключевых объектов (благо что это дешево). Поэтому да, понял все правильно: сначала выделяют точки, потом общую голосовуху. Соответственно, не соотносим их между собой сейчас никак - гипотеза заключается в том, что точки это лишь дополнительная подсказка для обучения модели, а вот разобраться где что по тексту - должна модель сама.

Про детализацию "выделяем отдельно каждый объект и детально голосим его" - очень хотим попозже попробовать и такой вариант, проблем с такой реализацией как будто бы нет, но пока стартовали с вариантов попроще.

(Кстати, оставляйте комментарий, если хотите, чтобы мы разобрали этот и другие методы из мира механистической интерпретируемости!)

Оставляю комментарий, было бы интересно почитать. За эту статью - спасибо!

У них есть официальная веб-демка, на которой можно поиграться и это вот именно она: https://sam2.metademolab.com/

😀 Это стоит читать как «он решает задачу, плюс сходу закрывает вопрос доступов/оплаты, претензий от кибербезов и отсутствия лишних прослоек в подключении» 🤗

Спасибо за развернутое дополнение, мне было интересно прочитать и сам ответ и ссылки в нем.

Мы просто работаем в достаточно узком понимании биологии людей и моделей тоже, поэтому не все аналогии могут быть удачны для биофизика :) С точки зрения разметки, не совсем важно то, как именно мы назовем что именно происходит с ответом разметчика (и что стало его первопричиной) - логическая ошибка, фантазия, незнание, галлюцинация, некая "оптимизация времени трудовой деятельность" - как угодно, нам важно лишь то, чем является конечный (часто бинарный) результат.

С людьми мы неизбежно выкидываем часть их ответов, процент разный в разных типах задач, но эта величина практически постоянна на длинных дистанциях. Идеей было лишь сравнить этот феномен с моделями, то есть, неизбежность принятия лишь части ответов.

Вы подсветили интересную штуку, которую мы поизучаем дополнительно: более глубокое понимание происходящих процессов, так скажем, "генерации ответа" позволит нам сделать более
серьезные инструменты анализа этих ответов, а может быть и вообще постановки изначально самого задания.

Большое спасибо!

Спасибо! Все так, чем монструознее и мощнее нейронки в наличии, тем больший класс задач будет им отдавать просто потому что так можно, увы, хотя оправдано это далеко не всегда.

В мире нейросетей все очень по разному, и он точно не черно-белый, как и мотивация инженеров сводится не только к "за деньги - да". Я лично знаю людей, которых неплохо повышали за именно качественные исследования, без каких-либо kpi. И знаю обратные ситуации, например, когда сотрудников (или студентов физтеха) скупали оптом, просто потому что "они умные и пусть лучше работают у нас", после чего за ними вообще пропадает какой-то контроль, потому что этот контроль падал на других людей, у которых хватало своих корпоративных забот.

Не соглашусь, потому что мотивация "выполнено-освоено" она, возможно, более присуща менеджменту (и чем выше менеджмент, тем вероятнее там такое мышление, но все тоже далеко не черно-белое), а вот у сильных технарей мотивация работает уже по другому - вопросы просто получения немаленькой зарплаты уже давно решены и вот так это уже не работает, иначе из всех утюгов не трубилось бы о "выгорании".

Потому что все выгорающие зарплату, скорее всего, получали, зарплата по общим меркам была немаленькая, да и задачи решали и бюджет осваивали, однако ж проблема есть. Потому что она гораздо сложнее той конструкции, что вы сейчас описали.

А я их не менял, об этом не писал и на это не претендую. Я делал несколько больших проектов, часть из которых имели специфику, требующих прямого погружения (где-то глубже, где-то проще) во внутрянку других сторонних проектов и их команд.

Как правило, это правда. Но тут тоже часто нельзя давать советов по интернету, потому что все сильно зависит от конкретных условий, да и вопрос немного философский, потому что в ситуации нет времени/денег/людей, вариабельностей итоговых действий не сказать, что очень высока.

Спасибо за интересный термин (и ваши статьи)! Да, чем больше занимаюсь технологиями, тем сильнее понимаю, что мыслительная рамка вширь и вдаль, подумать и вперед и за других людей, это не менее важно, чем конкретное принятие решений исходя из просто технического опыта.

Подход "чем проще, тем лучше" - полностью справедливый. Единственное, у него часто есть сложность в определении до какого уровня "проще" можно опуститься, чтобы потом не найти проблем с архитектурой, кибербезами и не скатиться в откровенный говнокод ?

Спасибо. Как говорится, "если тикету уже больше года, и за ним никто не пришел, может быть он и не так нужен?" ?

Так мир ведь он вот какой простой, видишь две цифры - дели одну на другую и беги скорей делать выводы ?

Вот у человека -19 карма и 98 комментариев, значит он -0.19 получает за каждый комментарий. То есть, комментарии давать, конечно, можно, но авторитет их автора, прямо скажем, сомнителен.

К сожалению да, ситуация не то чтобы прям сильно уникальная ?

1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

head of ai product
Lead
People management
Business development