llamafile - упрощенный способ запустить модель. https://github.com/Mozilla-Ocho/llamafile

но и здесь модель добавляет в промт много лишнего "от себя".

ответ не совсем верный (длина волос) и не на русском. уточнять промт ?

ps. пример с картинкой на github проекта не смог запустить - cuda out of memory. (8 гб недостаточно оказалось).

понятно. про сеть - имелась в виду нейросеть, которая бы снимала птиц, если птицы и людей, если люди. или вам нравится отсматривать полные записи видеорегистратора ?

mmproj-model-f16.gguf - пришлось позаимствовать у llama - https://huggingface.co/mys/ggml_llava-v1.5-7b/tree/main

на выводе:

{'id': 'chatcmpl-82b38207-b93b-4d48-931b-118ad2363af4', 'object': 'chat.completion', 'created': 1714044543, 'model': 'OmniFusion-1.1-Q5_K_M.gguf', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': ' a man with long hair and a beard, wearing a black suit and tie\n\nassistant'}, 'logprobs': None, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 608, 'completion_tokens': 19, 'total_tokens': 627}}

ну и сам снимок -

в общем, вот так все это будет выглядеть:

from llama_cpp import Llama
import base64
from llama_cpp.llama_chat_format import Llava15ChatHandler
chat_handler = Llava15ChatHandler(clip_model_path="mmproj-model-f16.gguf")

llm = Llama(
  chat_format = "llava-1-5",
  n_ctx=2048, # n_ctx should be increased to accomodate the image embedding
  n_gpu_layers = 1,
  logits_all=True,# needed to make llava work

def image_to_base64_data_uri(file_path):
    with open(file_path, "rb") as img_file:
        base64_data = base64.b64encode(img_file.read()).decode('ascii')
        return f"data:image/png;base64,{base64_data}"

# Replace 'file_path.png' with the actual path to your PNG file
file_path = 'test.png'
data_uri = image_to_base64_data_uri(file_path)

##messages = [
##    {"role": "system", "content": "You are an assistant who perfectly describes images."},
##    {
##        "role": "user",
##        "content": [
##            {"type": "image_url", "image_url": {"url": "https://llava-vl.github.io/static/images/view.jpg" }},
##            #{"type": "image_url", "image_url": {"url": data_uri }},
##            {"type" : "text", "text": "Describe this image in detail please."}
##        ]
##    }

messages = [
    {"role": "system", "content": "You are an assistant who perfectly describes images."},
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": data_uri }},
            {"type" : "text", "text": "Что изображено на снимке?"}

Обычно не увеличивается количество камер и все остается "как есть".
Про сеть - где вы будете разворачивать ее ?

Так у вас всего 2 камеры. Да сеть едва ли на видеорегистратор зайдет.

да базе raspberry pi zero v2 + imx485 + rtc clock можно все организовать. настроить сеть, чтобы людей писала на sd, а не потоки ветра.
и про "пресс качат" не забудьте.

Хорошо, спасибо!

@kuznetsoff87 Подскажите, вот я запустил omnifusion на raspberry pi - https://youtu.be/mD5SVY2NPq8
Но на вопрос она отвечает с какими-то "хвостами", которых не было в вопросе.
И как картинку ей "скормить" ?

"навигировать" ...нда.
по теме:
Arduino Nano 33 BLE Sense куда-то все пропали в РФ и заметно поднялись в цене на всем известном ресурсе.
Из arduino ide library manager изъяли библиотеку tensorflow tflite tinyml. есть только от Harward, но там даже hello world не работает. Тем не менее ее еще можно найти.
не стоит обольщаться, что даже Arduino Nano 33 BLE с ее возможностями будет работать с полноразмерным кадром изображения наравне с raspberry pi и т.п.

Тоже tesseract.
Smalklapu spinati, 1.8k. 100g 1 gab X 1,09 EUR Tomati Latvijas 1.3kira kg 0,310 kg X 2,09 EUR/kg Atl. -0,16 Gala cena 0,49 Bumbieri Conference 70+ mm 1. Skira kg 0,760 kg X 1,69 EUR/kg Liellopu aknu pastéte Lido svétku 120g 1 gab X 1,05 EUR Atl. -0,10 Gala cena 0,95 Piparmétras téja 30g 1 gab X 1,90 EUR Nidéles Santa Maria Ramen 200g 1 gab X 2,79 EUR Atl. -0,50 Gala cena 2,29 1,09 0,65

Ролик youtube в начале. Или вас сами .wem интересуют ?

Вопрос скорее дискуссионный. "ЦОДД" тоже с планшетами ходит, выглядят они (планшеты), разумеется, более эстетично. Быстрее и точнее работают ? Возможно. Но по рег. номерам. В части тачскрина - возможно он громоздкий, но доступен и устойчив к небрежности.

Здесь скорее решаются прикладные задачи/эксперименты: text recognition in natural scenes; оценивается производительность доступных мобильных пк; интеграция нейросетей и т.п.
В плане полезности: случайно найти машину в розыске, проверить историю машины на месте и т.п.

В части мобильного приложения: да, было бы удобнее. Пожалуйста: интегрируйте trocr и все остальное в мобильное приложение, с удовольствием приду оценить его.

а как быть, если либо D либо 0 ?

p.s. не знаю, как автор оригинала статьи получил accuracy 0.9779092702169625 на 13 эпохах, в лучшем случае 0,8 получается

1.Пытливый читатель заметит, что функция read_image не полностью приведена в данной статье, часть от оригинала потерялась.
2. "извлечения свойств" лучше наверно на "извлечения признаков", а "функцию энергии" на "целевую функцию".
Но это все мелочи.
Самое главное, что код все равно не заработает, даже если вернуться к версии keras, под которую он написан.
Скорее всего, автор оригинала сам откуда-то переписывал статью и допустил опечатки.

input_dim = x_train.shape[2:]
input_a = Input(shape=input_dim)
input_b = Input(shape=input_dim)
#img_a = Input(shape=input_dim)
#img_b = Input(shape=input_dim)

base_network = build_base_network(input_dim)
#feat_vecs_a = base_network(img_a)
#feat_vecs_b = base_network(img_b)
feat_vecs_a = base_network(input_a)
feat_vecs_b = base_network(input_b)

и модель создается так:

model = Model(inputs=[input_a, input_b], outputs=distance)

На современной версии keras (2.11.0) код будет выглядеть так:

import re
import numpy as np
from PIL import Image

from sklearn.model_selection import train_test_split
from keras import backend as K
from keras.layers import Activation
from keras.layers import Input, Lambda, Dense, Dropout, Convolution2D, MaxPooling2D, Flatten
from keras.models import Sequential, Model
from keras.optimizers import RMSprop

def read_image(filename, byteorder='>'):
    #first we read the image, as a raw file to the buffer
    with open(filename, 'rb') as f:
        buffer = f.read()
    #using regex, we extract the header, width, height and maxval of the image
    header, width, height, maxval = re.search(
        b"(\d+)\s(?:\s*#.*[\r\n]\s)*)", buffer).groups()
    #then we convert the image to numpy array using np.frombuffer which interprets buffer as one dimensional array
    return np.frombuffer(buffer,
                            dtype='u1' if int(maxval) < 256 else byteorder+'u2',
                            ).reshape((int(height), int(width)))

img = read_image('data/faces/training/s1/1.pgm')
#img.shape #(112, 92)
size = 2
total_sample_size = 10000

def get_data(size, total_sample_size):
    #read the image
    image = read_image('data/faces/training/s' + str(1) + '/' + str(1) + '.pgm', 'rw+')
    #reduce the size
    image = image[::size, ::size]
    #get the new size
    dim1 = image.shape[0]
    dim2 = image.shape[1]

    count = 0
    #initialize the numpy array with the shape of [total_sample, no_of_pairs, dim1, dim2]
    x_geuine_pair = np.zeros([total_sample_size, 2, 1, dim1, dim2]) # 2 is for pairs
    y_genuine = np.zeros([total_sample_size, 1])
    for i in range(40):
        for j in range(int(total_sample_size/40)):
            ind1 = 0
            ind2 = 0
            #read images from same directory (genuine pair)
            while ind1 == ind2:
                ind1 = np.random.randint(10)
                ind2 = np.random.randint(10)
            # read the two images
            img1 = read_image('data/faces/training/s' + str(i+1) + '/' + str(ind1 + 1) + '.pgm', 'rw+')
            img2 = read_image('data/faces/training/s' + str(i+1) + '/' + str(ind2 + 1) + '.pgm', 'rw+')
            #reduce the size
            img1 = img1[::size, ::size]
            img2 = img2[::size, ::size]
            #store the images to the initialized numpy array
            x_geuine_pair[count, 0, 0, :, :] = img1
            x_geuine_pair[count, 1, 0, :, :] = img2
            #as we are drawing images from the same directory we assign label as 1. (genuine pair)
            y_genuine[count] = 1
            count += 1

    count = 0
    x_imposite_pair = np.zeros([total_sample_size, 2, 1, dim1, dim2])
    y_imposite = np.zeros([total_sample_size, 1])
    for i in range(int(total_sample_size/10)):
        for j in range(10):
            #read images from different directory (imposite pair)
            while True:
                ind1 = np.random.randint(40)
                ind2 = np.random.randint(40)
                if ind1 != ind2:
            img1 = read_image('data/faces/training/s' + str(ind1+1) + '/' + str(j + 1) + '.pgm', 'rw+')
            img2 = read_image('data/faces/training/s' + str(ind2+1) + '/' + str(j + 1) + '.pgm', 'rw+')

            img1 = img1[::size, ::size]
            img2 = img2[::size, ::size]

            x_imposite_pair[count, 0, 0, :, :] = img1
            x_imposite_pair[count, 1, 0, :, :] = img2
            #as we are drawing images from the different directory we assign label as 0. (imposite pair)
            y_imposite[count] = 0
            count += 1
    #now, concatenate, genuine pairs and imposite pair to get the whole data
    X = np.concatenate([x_geuine_pair, x_imposite_pair], axis=0)/255
    Y = np.concatenate([y_genuine, y_imposite], axis=0)

    return X, Y

X, Y = get_data(size, total_sample_size)

#(20000, 2, 1, 56, 46)

#(20000, 1)

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=.25)

def build_base_network(input_shape):
    seq = Sequential()    
    nb_filter = [6, 12]
    kernel_size = 3    
    #convolutional layer 1
    seq.add(Convolution2D(nb_filter[0], kernel_size, kernel_size, input_shape=input_shape,
                          padding='valid', data_format="channels_first"))
    seq.add(MaxPooling2D(pool_size=(2, 2))) 
    #convolutional layer 2
    seq.add(Convolution2D(nb_filter[1], kernel_size, kernel_size, padding='valid', data_format="channels_first"))
    seq.add(MaxPooling2D(pool_size=(2, 2), data_format="channels_first")) 

    seq.add(Dense(128, activation='relu'))
    seq.add(Dense(50, activation='relu'))
    return seq

input_dim = x_train.shape[2:]
input_a = Input(shape=input_dim)
input_b = Input(shape=input_dim)
#img_a = Input(shape=input_dim)
#img_b = Input(shape=input_dim)

base_network = build_base_network(input_dim)
#feat_vecs_a = base_network(img_a)
#feat_vecs_b = base_network(img_b)
feat_vecs_a = base_network(input_a)
feat_vecs_b = base_network(input_b)

def euclidean_distance(vects):
    x, y = vects
    sum_square = K.sum(K.square(x - y), axis=1, keepdims=True)
    euclidean_distance = K.sqrt(K.maximum(sum_square, K.epsilon()))
    return euclidean_distance

def eucl_dist_output_shape(shapes):
    shape1, shape2 = shapes
    return (shape1[0], 1)

distance = Lambda(euclidean_distance, output_shape=eucl_dist_output_shape)([feat_vecs_a, feat_vecs_b])

epochs = 13
rms = RMSprop()

model = Model(inputs=[input_a, input_b], outputs=distance)
def contrastive_loss(y_true, y_pred):
    margin = 1
    return K.mean(y_true * K.square(y_pred) + (1 - y_true) * K.square(K.maximum(margin - y_pred, 0)))

model.compile(loss=contrastive_loss, optimizer=rms)
img_1 = x_train[:, 0]
img_2 = x_train[:, 1]
#im = Image.fromarray(np.uint8(cm.gist_earth(myarray)*255))
#np_img = np.squeeze(np.array(img_1)[0],0)
#pil_img = Image.fromarray(np_img, 'RGB')

model.fit([img_1, img_2], y_train, validation_split=.25, batch_size=128, verbose=2, epochs=epochs)
pred = model.predict([x_test[:, 0], x_test[:, 1]])

print(pred.var()) #distance ?
def compute_accuracy(predictions, labels):
    return labels[predictions.ravel() < 0.5].mean()

print(compute_accuracy(pred, y_test))

with open('model_architecture.json', 'w') as f:

У меня была похожая задача, но я ее решил другим способом:
камера пишет в csv файл распознанный код прямо на месте прогоняя видеопоток, а далее, по завершении процесса, отправляет на базовый пк. Все на одноплатниках. Но не такие, конечно, бешеные скорости как у вас.

А какое расстояние от камеры до объекта ? И, правильно, ли я понимаю, что камера делает снимки по триггеру, а не гонит видеопоток на сервер ?


