Обновить
4
0
Vladimir@imageman

Пользователь

Отправить сообщение

Флоренце у меня тоже не завелась (вроде что-то там с одной библиотекой питорч у меня не срослось). Я завел moondream2, вот отрывок из кода:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "vikhyatk/moondream2"

revision = "2024-08-26"

model = AutoModelForCausalLM.from_pretrained( model_id, trust_remote_code=True, revision=revision, device_map='cuda' )

tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)

image = Image.open(filename)

enc_image = model.encode_image(image)

title = model.answer_question(enc_image, "Detailed image description.", tokenizer)

Глубоко копаешь, молодец. А зачем?
Может поможет почитать на тему "затухание градиента". Попробуй функции активации по типу Leaky ReLU, ELU; добавь residual connections в структуру сети.
Раз тебе такое нравится, не пройди мимо, глянь сюда https://habr.com/ru/companies/skbkontur/articles/849966/

https://phyphox.org/ еще одна любопытная программа в тему экспериментов (там расстояние можно мерить звуком). (Программа Phyphox использует датчики смартфона для физических экспериментов. Она позволяет измерять ускорение, давление, освещенность, магнитное поле, местоположение, частоту вращения (гироскоп) и другие параметры.

Также доступны функции для анализа звуков (частота, амплитуда, спектр, эффект Доплера), измерения расстояний (сонар, LiDAR), наклона, центростремительного ускорения, энергии столкновений и поведения маятника. В повседневной жизни можно использовать её для оценки звуков, анализа движения лифта или измерения времени с помощью различных таймеров.)

Вдруг тут мне ответят.
Недалеко от меня есть магазин с большой автостоянкой. Проходя мимо очень часто слышу прерывистый высокочастотный звук, который повторяется раз в несколько секунд (частота, скорее всего, выше 10 кГц). Что это может быть? Аналогичное бывает и в других местах рядом с [дорогими] автомобилями.

Обычно если я "выкаю", то человек мне не нравится, если я говорю "ты", то ставлю его на одном уровне со мной (ни выше, ни ниже). Извините, не хотел обидеть.

The image features a heart-shaped arrangement of pink roses with golden stems against a backdrop of a cloudy sky with a warm glow from the top right corner.
The image features a heart-shaped arrangement of pink roses with golden stems against a backdrop of a cloudy sky with a warm glow from the top right corner.

Нейронка выдала следующее описание: The image presents a digital illustration of a heart-shaped arrangement of pink roses. The roses are the central focus, with three of them standing out prominently. The background is a sky filled with clouds, painted in shades of blue and purple. The sun is shining brightly, casting a warm glow on the scene and highlighting the pink color of the roses. The image is a digital illustration, which suggests the use of advanced technology and software to create the image.
Промпт к moondream2 был какой-то обще-стандартный типа "подробно опиши изображение". Изменением промпта на "сделай короткое описание" можно уменьшить ответ. Просто описательный ответ мне был достаточен. Как я говорил, в большинстве случаев править ничего не нужно.

Локальный запуск позволяет не зависеть от всяких там VPN, банковских карт или пятен на солнце. Из минусов - требуется видеокарта; нужно уметь настроить; качество, видимо, похуже чем у GPT 4o.

так проэкспериментируй :-) Стандартный ответ: "Конечно". Вопрос нужно по другому было задавать: "Какие промпты и техники лучше всего заходят под мою задачу" :-)

Я скажу интереснее, можно воспользоваться свободной нейросеткой
https://huggingface.co/onnx-community/Florence-2-large
(Флоренце одна из лучших, но не единственная, есть еще vikhyatk/moondream2). Они тоже позволяют давать описание картинок. Только важно помнить, что распознавание на уровне 98%, т.е. банальные сцены будут распознаны, но будут картинки или полностью или частично не распознанные.

Цель уже стоит: ответить человеку любой ценой так, что бы он "похвалил" (понизил loss). Ограничения человек ставит, насколько ему хватает сообразительности. В мире разработки игр известен случай, когда программисты создали самообучающегося бота для игры, и тот начал использовать скрытую возможность проходить сквозь стены (где-то были нарушения геометрии, стыки в текстурах?).

В моей практике был случай, когда мне захотелось точки описать суммой синусоид. Каково было моё удивление, когда простой алгоритм подобрал такую комбинацию коэффициентов, что невязка оказалось очень маленькой, но при попытке визуализировать функцию быстро выяснилось что график как гигантская пила - слишком большие частоты, слишком большие амплитуды. Зато через точки график проходит. И в мире машинного обучения на такое часто натыкаешься.

С учетом, что сейчас несколько стран (фирм) пытаются сделать группировки аппаратов для интернета? Запуск тысяч спутников улучшит безопасность в космосе? А под воду не обязательно очень далеко от берега (можно как в заливе, так и в озере или речушке).

Слишком много общих фраз для сайта, на котором собрались технари, а не менеджеры. Но пара интересных мыслей проскочила в статью. :-) Первая часть этой статьи мне понравилась больше.

Вот бы сюда еще "лучшие практики по предотвращению". Подозреваю, что это просто рандомный uuid и привязка его к IP, храним в БД вместе с ID и датой.

В реальности нужно процентов 10 заложить на технические расходы. Вроде как в конце XX века такие вопросы были очень простыми (U.S. Robotics - как много в этом слове...).

Про стекла текут похоже на миф. Первое: при установке в раму стекольщик тяжелую часть ставит вниз (и она толще). Но говорили, что изредка встречаются толстой стороной вверх (что противоречит теории о текучести). Плюс к этому есть вулканическое стекло, которое напоминает оконное. Оно тоже должно течь и за десятки и сотни тысяч лет должно стечь в самый низ, а этого не наблюдают. https://yandex.ru/q/question/pochemu_starye_okonnye_stiokla_vnizu_0ba2df62/

разработки Visionatrix — надстройки над ComfyUI

всё ждал, когда же скажут для чего надстройка? Увидел только маловразумительное "Среднестатистическому человеку ... сложно разобраться в том, что такое KSampler". И ни одной картинки! Я уже молчу про короткое видео, которое демонстрирует что-то полезное... А вот на вашем github есть и картинки и видео.

я бы сказал N/x
Размер обучающей выборки должен быть кратно больше размера параметров, которые мы хотим настроить (обучить). Если число параметров будет слишком большим, мы слишком легко уйдем в переобучение. [понятие "размер обучающей выборки" довольно сложен -- это не число картинок, скорее общее число пикселей в картинках + еще аугментации]

Как ваш комментарий поможет buldo или другим? Я думаю итак все думающие понимают, что большая часть проблемы не в принтере, а в материале, на котором напечатано.

По моему мнению, если какое-то решение слишком часто подводит (а тут именно такой случай), то пользуемся только не в критичных местах. Соответственно ни о какой долгосрочной перспективе нет речи. Сделать наклейку в стиле "Здесь был Вася" с портретом Васи, что-то информационно-развлекательное (игра на пикнике из разряда "угадай что я сфоткал") и т.п. Ну и, главное, развитие детей.

Не говорите, если это не изменяет тишину к лучшему.

Как ваш комментарий поможет buldo или другим? Я думаю итак все думающие понимают, что большая часть проблемы не в принтере, а в материале, на котором напечатано. По моему мнению, если какое-то решение слишком часто подводит (а тут именно такой случай), то пользуемся только не в критичных местах. Соответственно ни о какой долгосрочной перспективе нет речи. Так, сделать наклейку в стиле "Здесь был Вася" с портретом Васи, что-то информационно-развлекательное (игра на пикнике из разряда "угадай что я сфоткал") и т.п. Ну и, главное, развитие детей.

Не говорите, если это не изменяет тишину к лучшему.

А можно добавить такие же графики для датасета Iris? Предыдущие статьи цикла именно его показывают и хотелось бы сравнить ограничивающие линии классов.

склонность к переобучению на сильно зашумленных данных

а вот тут было бы уместно рассказать о гиперпараметрах, позволяющих уменьшить склонность к переобучению. Вообще для всех рассмотренных методов, если есть возможность, нужно подобрать лучшие гиперпараметры под конкретный датасет (например через Optuna). Только в этом случае имеет смысл как-то сравнивать методы.

У методов, основанных на деревьях, один из таких гиперпараметров это минимальное число листьев на ветке. (Другой параметр - максимальная глубина дерева.)

разработка и использование генеративных нейронных сетей для создания обучающих данных

Я всегда внутренне считал, что число ошибок на выходе нейросети больше, чем число ошибок на входе. Думаю ни для кого не секрет, что в обучающем наборе есть какой-то процент ошибок. Чем больше ошибок на входе (на тренировке), тем хуже точность обученной нейросети (да, есть способы уменьшить ошибку на зашумленных данных, но точность все равно ниже). А тут мы прям генерируем непонятно как. Есть такое понятие "аугментация", но там все-таки предпочитают контролируемые способы генерации (хотя GAN тоже используют). https://habr.com/ru/companies/magnus-tech/articles/850070/

Прочитал у вас "не умеет экстраполировать", так это [практически] любой метод так. Методы хорошо умеют интерполировать, а экстраполяцию как повезёт. А узнать про изменение данных нам помогут методы поиска аномалий (тут на хабре статей много, сходу самую нужную не нашел). На обучающих данных учим любимый метод поиска аномалий, потом проверяем этим методом все данные (в проде). Как только частота срабатываний ощутимо поменялась, так заново весь цикл обучения модели.

Информация

В рейтинге
Не участвует
Откуда
Резекне, Латвия, Латвия
Дата рождения
Зарегистрирован
Активность

Специализация

ML разработчик, Инженер по компьютерному зрению
Средний
От 2 500 €
Python