🤖 Внедряю «зрение» в роботов Адам и Ева!

from ultralytics import YOLO import app_adam_yagpt # Загрузка модели YOLOv8l (официальная версия) model = YOLO("yolo11l.pt") # Автоматически скачает, если нет # Детекция на изображении results = model("image2.jpg") # Получаем текстовый вывод в переменную detection_summary = results[0].verbose() resp = app_adam_yagpt.main(f"С помощью компьютерного зрения я передаю тебе данные об изображении. " f"Опиши пространство в литературной форме, и классифицируй где ты находишьcя, " f"что за обстановка и характер мероприятия или встречи, улица это или помещение, если перед тобой: {detection_summary}. " f"Не нужно спрашивать ничего в конце твоего описания. ") print(resp) # Визуализация results[0].show() # Покажет результат results[0].save("output.jpg") # Сохранит
В пространстве находятся пять человек, двое из которых одеты в деловые костюмы. Присутствует телевизор, компьютерная техника — мышь и клавиатура, а также мобильный телефон. Обстановка выглядит как офисное помещение или место для работы и коммуникации.
Собрал связку YOLOv11 + GPT, чтобы робот не просто видел объекты, но и описывал обстановку почти как человек.
Как это работает:
1️⃣ YOLO детектит объекты на изображении
2️⃣ GPT анализирует их и генерирует "очеловеченное" описание
3️⃣ Profit! - получаем не слепого робота, а полноценного собеседника!
Зачем это Адаму и Еве?
Роботы смогут:
Опознавать людей и их действия («Вы пьёте кофе?).
Находить предметы по запросу («Где мои ключи?»).
Да просто прикольно описывать этот мир! («Обстановка выглядит как офисное помещение или место для работы и коммуникации.»)
Следующие шаги:
🔜 Внедрение в «железо» - тесты на реальных роботах.
🔜 Голосовой вывод - чтобы Адам комментировал увиденное вслух.
🔜 Обратная связь - если робот ошибся, он запомнит исправление.
Сценарии использования:
Дома: «Ева, кто оставил грязную кружку?» → «Это сделал Сергей, 5 минут назад» (по детекции лица + времени).
В офисе: Адам предупредит: «Переговоры начнутся через 10 минут - в зале пока только двое».
📢 Если было интересно — подписывайтесь на мой Telegram-канал robotltdco.
Спойлер: На самом деле второй пункт («Голосовой вывод») сделан! ✔️
Но об этом позже!
