All streams
Search
Write a publication
Pull to refresh
40
17
Дмитрий Антипов @antipov_dmitry

AI / LLM / ML / Software

Send message

Хорошее дополнение, спасибо! Популярность в каком-то виде хорошая прокси-метрика к зрелости/adoption, ведь да, фактически чем мощнее коммьюнити (особенно выраженное в звездочках гитхаба), тем вероятнее прекрасное светлое будущее самого фреймворка и особенно если этот фреймворк - ленгчейн 😀

я потихоньку бы ллмкам уже начинал бы всегда "спасибо" говорить, когда ответ понравился

У меня был спортивный интерес в первую очередь, особенно про то, как заведется LLM-ная часть (скрапингом всего и вся я занимался много и там ничего нового для меня нет) 😊

В целом, это неплохо сработает на товарах, которые "хорошо бы купить", но они не нужны вот прямо сейчас (там можно выбить вплоть до 10%). И на товарах с длительным сроком хранения, которыми пользуешься много и постоянно (и которые есть где хранить - у меня есть). Например, кофейные дрипы. Вот экономика: я часто покупаю кофе одной питерской конторы, в упаковке 24 штуки. Цена за пачку колеблется от 900 до 1200, при средней цене около 1150 большую часть времени. Кофе пьют двое, иногда больше 1 в день, то есть пачки хватает на 24/~2.3=10 дней. Срок годности - год, но, допустим, нам придут не вчера произведенные, да и совсем годовалые тоже пить не хочется, то есть, у товара примерно полгода точно есть возможность лежать дома на полке.

Если насталкерить цену 870 (так уже было), то разница на 10 пачках (1150-870)*10=2800. Примерно как сходить один раз на одного в бар 🤣 Порше не купишь, конечно, но это и не требует совершенно никаких усилий, да и пример лишь на одном товаре из достаточно большого круга типа стиральных порошков, фильтров, углей-брикетов и прочего разного расходного.

Но, повторюсь, мне в первую очередь было прикольно и весело, но отвечая на конкретный вопрос - да, если замарочиться сильнее, то какая-то выгода есть 😎

Нет-нет, как раз-таки понял, все именно так 😊 В целом, это можно порешать, чуть усложнив схему: у нас уже есть ссылка на карточку, а на самой карточке мп уже проделали работу по поиску лучших цен у других продавцов - блок "есть дешевле" или "все цены" с указанием конкретной минимальной цены, можно прицепиться к ним. Ну то есть, помимо просто корзины ходить еще по ссылкам и смотреть в этот блок, если там есть что-то интересное, то либо слать уведомляшку сразу, либо усложнять еще - проваливаться в такой список и забирать цены оттуда

Но если мп сам не заматчил добавленный товар с другими поставщиками, то все становится сильно сложнее.

Скорее всего, не запилит, увы, потому что во всех офертах маркетплейсов написано, что промышленно парсить их нельзя, а значит перепродажа таких услуг будет в довольно серой зоне. Конечно, сами мп и особо крупные продавцы тихо скрапят друг друга, и сторонние сервисы (они есть) тоже их скрапят (и продают результаты как "аналитику" - довольно сомнительного качества), но все, что делается "с улицы" (то есть, не по официальной датке самих мп, а им это не интересно) - в больших масштабах это все равно будет некая аппроксимация от реальности. Ну и плюс на масштабах это действительно сложно

Вот благодаря таким комментариям в интернете столько мусора и ллмки потом от них и галлюцинируют 😄

Ты не можешь отличить сайт, на котором находишься? Это риторический вопрос, очевидно, что написание даже бессмысленного комментария требует трудозатрат и когнитивных усилий, но - чтобы что? Чтобы уязвить меня? Меня ты не уязвил, а датасет интернета для обучения взял да и испортил.

Роботы потом спасибо не скажут, не надо так!

Спасибо за дополнение, все верно. Я, честно говоря, не думал что слово айфон само по себе является таким мощным триггером, что мне аж в двух минусах приписали, внимание, его рекламу 😄 На самом деле переход в тексте с айфона на смартфоны получился просто из-за мысли о том, что именно эппл сделали ставку на совершенно новый интерфейс (и он до сих пор с нами), а когда такой интерфейс стал стандартом де-факто, то выделить чем-то именно айфон на фоне всех конкурентов уже было нельзя

Айфон принес тот самый интерфейс управления смартфонами, который с нами уже почти два десятилетия. Разница между первой версией айфона и любым смартфоном сейчас - номинальна, разве нет?

Ну, главный акцент у этого предложения был как раз во второй его части, а по первой - согласен, надо было выражаться яснее 😄 Но я все же не писал, что эппл его изобрели первыми, но, кажется, они были теми, кто сделал ставку именно на сенсор (на всю котлету, как говорится), без клавиатур и стилусов. И главная заслуга того маркетинга - symbian мертв, стилусы мертвы, а тот придуманный способ управления телефонами с нами уже больше 15 лет без особых изменений

Конечно же я пробовал делать научные исследования с помощью всех топовых ллмок и это все выглядит как полная шляпа 😄 Всеми этими "исследованиями", как и большей частью неподготовленного анализа вида "вот пдф, просто посчитай мне в нем Х", - нельзя пользоваться, оно получается околомусорным. Я не топлю безусловно за то, что ллмки всех заменят или что это серебряная пуля для всего на свете, ни в коем случае.

LLM дарят очаровательную магию простоты, но на деле это не избавляет от той большой работы, которую надо проделать, чтобы итог получился действительно хороший. Да, многое маркетингом и энтузиастами подается как уже решенное, а на деле работает примерно никак, но и целиком отрицать прогресс таких систем не очень честно.

Когда вышла первая версия chatgpt, кто-то мог представить, что спустя всего пару лет можно будет просто кинуть в него скриншот конфига nginx и попросить его тонко настроить кэш на проекте?

Спасибо! 60 лет мультику, а вся часть про двух из ларца как будто бы современная специальная аллюзия про промптинг LLM 😄

Спасибо за статью. Кажется, что в любой буре социальных изменения, которую вызывает новая революционная технология, всегда угрозу создает человек. Изобретение телефона, а затем интернета, тоже способствовало всей перестройке общества, тоже породило множество нового фрода, но ничего — адаптировались.

В конце концов, у каждого из нас есть дома штуки, которыми очень легко причинить серьезный вред другим, но никто не видит угрозы в условных кухонных ножах.

Насколько глубоким в каждой теме планируется бенч или же вы его зафиксировали (надолго ли?), и он не будет развиваться? Есть достаточно много «распределенного» культурного кода, который является важным для хоть и весомого, но все же среза людей. Условно, есть блогеры-миллионники (и генерируемый ими культурный код для публики всех возрастов — тоже), без которых кто-то не может представить свою жизнь, а кто-то о них даже не слышал. Или региональные шутейки и словечки (особенно в приграничье), например, «на ход ноги» или приморские «чифанька» вместе с «фонарный». Кажется, что культурный код все равно относительно конечен, но вот именно для всех единым бенчом его как померить? Как вы определяется что попадает в бенч и когда надо остановиться?

И, кажется, что чем больше будет такого, тем чаще будут проваливаться люди и, наоборот, выигрывать модели просто за счет ш̶и̶р̶о̶т̶ы̶ ̶р̶у̶с̶с̶к̶о̶й̶ ̶д̶у̶ш̶и знаний всего интернета.

Как планируете с этим бороться?

А если скатываться в просто сравнивание с другими моделями, то будет просто гонка кто глубже и ширше обработал культурный код, но у вас бенч закрыт, поэтому что именно в нем вызывает вопросики.

И второй вопрос, планируете ли бенч с визуалом культурного кода? Люди, архитектура, символика и тд?

От статьи отовсюду сквозит gpt-стилем, который затем даже не вычитывали. Ну вот как пример: «Распознавание лицевых выражений». Да, есть такая устоявшаяся штука «Facial expression recognition», которую ни один человек на русский не переведет как «лицевые выражения».

Плюс вы не указали битовую маску — кисточку, которая в сто раз удобнее полигонов для сложной геометрии и для сложных задач используется почти всеми ведущими ai-лабораториями мира.

Не раскрыт вопрос того, что bbox часто используется как более быстрый детектор, через который затем можно доуточнить объект внутри бокса. То что часто разметка делается так, что из одного типа делается другой — тоже.

Не раскрыт вопрос того, что каждому выделению часто требуется метка объекта.

Не раскрыт вопрос предразметки и ассистов типа SAM, без которых серьезная разметка уже вообще не делается.

Вообщем, в статье что-то есть, но это точно не полный гайд, а интересная тема, которую блоками писала генеративка.

В оригинале они ничего не пишут про подход, в котором LLM вообще не присутствует и можно обойтись классическим NLP, не тащя ллмку в прод, когда она там не нужна, я эту часть добавил. А дальше — да, фактически их статья, я же про это открыто там и написал. А статья — она как песня, из нее слов не выкинешь, хотя и адаптация на читабельный русский не так проста, как может показаться ツ

В датасете достаточно сильный перекос по полу в сторону женщин (80 на 20), оказывает ли это какое-то влияние на инференс? И хотелось ли бы это соотношение изменить?

Рома, привет! Сейчас у нас эксперимента фактически два: ускорить текущий пайплайн описаний (который не включает в себя точки вообще, только описание) и пособирать к ним в том числе дополнительно и точки ключевых объектов (благо что это дешево). Поэтому да, понял все правильно: сначала выделяют точки, потом общую голосовуху. Соответственно, не соотносим их между собой сейчас никак - гипотеза заключается в том, что точки это лишь дополнительная подсказка для обучения модели, а вот разобраться где что по тексту - должна модель сама.

Про детализацию "выделяем отдельно каждый объект и детально голосим его" - очень хотим попозже попробовать и такой вариант, проблем с такой реализацией как будто бы нет, но пока стартовали с вариантов попроще.

(Кстати, оставляйте комментарий, если хотите, чтобы мы разобрали этот и другие методы из мира механистической интерпретируемости!)

Оставляю комментарий, было бы интересно почитать. За эту статью - спасибо!

Information

Rating
408-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

AI-Agents
Ведущий
Управление людьми
Развитие бизнеса
Управление разработкой
Автоматизация процессов