Это все лишь инструменты, которые улучшаются день за днем. Вот я LLM-ку попросил описать сцену для создания youtube thumbnail на тему выгорания (в IT). А затем этот текст закинул во Flux, который сейчас собирает максимум внимания в обсуждениях на всех ресурсах. Вот он что нарисовал. А я ж могу попросить: напиши 50 таких вариантов, а потом во Flux их все сгенерить (еще по ХХ штук для каждого описания). И выбрать сразу готовый вариант, либо выбрать хорошую идею для доработки.
Кстати, хороший возможный PR-ход. Найти шестипалого актера для съемки рекламы. Потом помочь создать хайп в интернете, мол, такая известная компания, а такое г выпустила. :) И после этого выложить бекстейдж-видео с этим актером. :)
Тоже покажу свой вариант. Вдруг, кто не знает. На сегодня самый эффективный способ -- попросить топовую LLM-ку описать изображение. Я подсунул оригинал в Claude 3.5 Sonnet. Он мне выдал подробное описание. Я только русский распознанный текст заменил английским, так как Flux нормально на русском не справится. Вот что выдал Flux с первой попытки:
А я так когда-то в блоге своем постил подобное. :) И потом как минимум два раза помню как сам себя находил в гугле, когда снова с таким сталкивался. :) Тоже удобно.
от форс-мажоров. Но внештатные ситуации все равно случаются, без этого никак…
А прикинь, когда владелец. Ты годами круглосуточно в напряжении. То какой-то сервак где-то ляжет в неподходящий момент, то вышестоящий провайдер, то с оборудованием где-то какой-то полтергейст, то, вдруг, приходят те, кто "тебя бережет", выпиливают болгаркой дверь серверной и все выносят...
Как раз питонистам виднее, что все это ненастоящее. :) А тем, кто с LLM-ками работает, так вообще.
Если у кого-то сомнения, то автор там же в своем info пишет " AI enthusiast " и дает ссылку на ресурс, где он продает инфопродукты на текму LLM Prompt Engineering. :)
Если я правильно понял цифры в интерфейсе "медиума", то у автора уже под 2 тысячи таких вот ... км... статей. :)
Когда-то давно осваивал эту технику. Был у меня свой "виртуальный маршрут", на котором я расставлял новые образы. Например, я так испанские слова пробовал учить. Т.е. в свободное время для повторения мне нужно было лишь прогуляться по маршруту, "вглядываясь в расставленные объекты рядом с моими опорными образами"..
Но на практике оказалось, что пользы в этом мало. Это как мозговой жесткий диск небольшого размера. Форматирование и запись требуют времени. Расширить очень непросто, нужно достраивать больше опорных образов, заучивать их... А выгода в чем?
Ну не число же π заучивать до ХХ знака после запятой. Такое могло бы очень пригодится для каких-то целей в условиях отсутствия цивилизации. А так... Лучше мозговой ресурс на аналитические размышления потратить, а не на обычное хранение данных.
Тоже давно на тему фото такие же думы думаю. Недавно нашел свежую нейронку InternVL, которая может описывать фото (локально на GPU). Пока применил для создания описания фотографий (captions) в обучении LoRa -- вполне уже неплохо описывает. Пример:
In the image, there is a man with a beard and a mustache. He has short, dark hair and is wearing a yellow and green jersey, which could suggest he is a fan of a sports team or participating in a sports event. The skw man is looking directly at the camera with a slight smile, and his gaze is focused on the viewer. He appears to be indoors, with a painting or framed artwork visible in the background, indicating that the setting might be a home or a room with decorative art. The lighting in the room is soft and diffused, creating a warm and inviting atmosphere.
Вот если такие описания скормить локальной LLM-ке с большим контекстным окном, то уже может получиться что-то адекватное (только нужно еще сделать так, чтобы оно фотку рисовало прям в диалоге чата, например, автозаменой айдишника). Ну либо просто локальный поисковик по таким описаниям, но это уже не так интересно.
Играть за морпеха было достаточно некомфортно: ты передвигаешься по слабо освещённым коридорам, постоянно поглядывая на детектор движения, ведь в любой момент можешь стать жертвой неожиданной атаки из темноты.
А я чуть строительством дома не занялся, бо стройматериалы появились неожиданно. Еще бы. Я тогда играл за морпеха в 3Д очках NVIDIA (затворных, которые работают в паре с 120Гц монитором) и в наушниках. Шел я по темному коридору.... А потом -- ХОП. Наугад моментально куда-то выстрелял весь магазин. На этом и закончил играть. :)
Просто берется датасет (новые изображения + их словесные описания) и модель любая (например, базовая), и запускается тренировка модели.
Если обновляются веса в этом же файле, то это будет новый чек-поинт (т.е. такой же файлик, только байтики внутри чуть другие). Но можно записывать результат и в виде отдельного небольшого файла (см. LoRa).
Для дообучения модели своим датасетом можно использовать, например, OneTrainer.
Кстати, скоро будет основная схема работы такая. Вместо SingleFile будет кнопка типа "!" (Положить "на стэк" в LLM-ку). А дальше при любых запросах во всякие там новые GPT в контекст запросов будет добавляться информация с "помеченных" страниц. Можно, конечно, и без всяких кнопок, но это чуть позже, когда все еще больше удешевится, а контекст в токенах еще больше станет.
Абсолютно аналогичный подход. А когда работаешь над большим количеством разных задач, то таких вот разветвлений становится ингогда очень много. То одна задумка, то другая. Но в сутках всего 24 часа, потому некоторые ветки приходится перидически просто закрывать. :) Но приятней закрывать вместе с закрытием вопроса, конечно.
В 2024 все еще грустнее становится. :) И с деепричастными оборотами, и с запятыми. Как будто их рукой зачепнули и рассыпали по тексту. Чисто для украшения. :) Чтобы были.
Кстати, составные названия пишутся так: "«Читая некоторые статьи хабра, на глаза наворачиваются слезы от негодования», или Деепричастные обороты в русском языке" (между ними ставится запятая, а вторая часть тоже с большой буквы).
Но ESP-12E удобно ставить в автономные устройства и в розетки.
Я ж по этой причине (в том числе) и пробовал их тоже использовать. На 3Д принтере ж дома можно какие хочешь корпуса миниатюрные смоделировать и напечатать.
Но тогда я не знал, что без "подтягивающих" резисторов оно не может работать стабильно. Но я не хочу возиться с пайкой SMD, а с обычными резисторами это все выглядит уже совсем некрасиво.
И последний "гвоздь" -- прошивка модулей. Я-то купил заранее программатор подобный. Собрал на макетной плате все как надо (и две кнопки на нее)........ В общем, это какой-то ужас из проводов. :) Прошиваешь и не дышишь, чтобы ничего не выскочило. А если отдельный "сокет" под ESP взять, чтобы удобно было подключать, а все остальное уже нормально спаять, то ... Зачем тогда все эти свистопляски. Размер esp12 и wemos-d1 не сильно отличается. Вряд ли большинство людей столкнется с ситуацией, где ПРИДЕТСЯ использовать esp12 чисто из-за размера модуля.
P.S. Единственный приемлимый вариант -- посидеть и поперепрошить сразу пачку модулей прошивкой минимальной, где включить сразу прошивку по WiFi. И не возвращаться к этому вопросу больше (это если оптимистично).
А я себе магнитную мешалку собрал из компьютерного кулера, регулятора оборотов и неодимовых магнитов прям в коробке от телефона :) . Питательные среды перемешивать годится. https://www.youtube.com/watch?v=FU04jm_34X0
Да, Wemos D1 - самое оно. Тоже именно такой модуль везде использую. Было дело, еще с "голыми" ESP-12E помучался и понял, что оно того вообще не стоит (даже не буду оставшиеся использовать).
В реальности все еще хуже. :) Там на степике есть еще курс по нейронкам (не помню уже название), где даже не пытаются заинтересовать. Со старта сразу дают под дых -- огромный раздел по математике. И сиди решай. :) Мало того, что они этим сразу отсеяли почти всех, так еще и те, кто пройдут, почти никто никогда не прикоснется к этой математике, так как только единицы будут причастны к разработке State Of The Art продуктов. А могли бы просто людей втянуть практикой, заинтересовать. Показать задачи, которые можно нейроками решать.
import cv2
from ultralytics import YOLO
# ...
model = YOLO("yolov8n.pt")
# дальше по фреймам читаем нужный видео-файл, делаем
# results = model(frame, verbose=False)
# проверямем, есть ли в результатах class = 'person'
# и дальше по смыслу
Мне кажется, не так много итераций понадобится, чтобы GPT-4 или Claude Opus дописали до "победного конца".
Никогда не слышал "девелОпер". :) Зато часто слышал "биaс" вместо "баяс" и "хейт" вместо "хайт". :)
Это все лишь инструменты, которые улучшаются день за днем. Вот я LLM-ку попросил описать сцену для создания youtube thumbnail на тему выгорания (в IT). А затем этот текст закинул во Flux, который сейчас собирает максимум внимания в обсуждениях на всех ресурсах. Вот он что нарисовал. А я ж могу попросить: напиши 50 таких вариантов, а потом во Flux их все сгенерить (еще по ХХ штук для каждого описания). И выбрать сразу готовый вариант, либо выбрать хорошую идею для доработки.
Кстати, хороший возможный PR-ход. Найти шестипалого актера для съемки рекламы. Потом помочь создать хайп в интернете, мол, такая известная компания, а такое г выпустила. :) И после этого выложить бекстейдж-видео с этим актером. :)
Тоже покажу свой вариант. Вдруг, кто не знает. На сегодня самый эффективный способ -- попросить топовую LLM-ку описать изображение. Я подсунул оригинал в Claude 3.5 Sonnet. Он мне выдал подробное описание. Я только русский распознанный текст заменил английским, так как Flux нормально на русском не справится. Вот что выдал Flux с первой попытки:
А я так когда-то в блоге своем постил подобное. :) И потом как минимум два раза помню как сам себя находил в гугле, когда снова с таким сталкивался. :) Тоже удобно.
А прикинь, когда владелец. Ты годами круглосуточно в напряжении. То какой-то сервак где-то ляжет в неподходящий момент, то вышестоящий провайдер, то с оборудованием где-то какой-то полтергейст, то, вдруг, приходят те, кто "тебя бережет", выпиливают болгаркой дверь серверной и все выносят...
Как раз питонистам виднее, что все это ненастоящее. :) А тем, кто с LLM-ками работает, так вообще.
Если у кого-то сомнения, то автор там же в своем info пишет " AI enthusiast " и дает ссылку на ресурс, где он продает инфопродукты на текму LLM Prompt Engineering. :)
Если я правильно понял цифры в интерфейсе "медиума", то у автора уже под 2 тысячи таких вот ... км... статей. :)
Когда-то давно осваивал эту технику. Был у меня свой "виртуальный маршрут", на котором я расставлял новые образы. Например, я так испанские слова пробовал учить. Т.е. в свободное время для повторения мне нужно было лишь прогуляться по маршруту, "вглядываясь в расставленные объекты рядом с моими опорными образами"..
Но на практике оказалось, что пользы в этом мало. Это как мозговой жесткий диск небольшого размера. Форматирование и запись требуют времени. Расширить очень непросто, нужно достраивать больше опорных образов, заучивать их... А выгода в чем?
Ну не число же π заучивать до ХХ знака после запятой. Такое могло бы очень пригодится для каких-то целей в условиях отсутствия цивилизации. А так... Лучше мозговой ресурс на аналитические размышления потратить, а не на обычное хранение данных.
Тоже давно на тему фото такие же думы думаю. Недавно нашел свежую нейронку InternVL, которая может описывать фото (локально на GPU). Пока применил для создания описания фотографий (captions) в обучении LoRa -- вполне уже неплохо описывает. Пример:
In the image, there is a man with a beard and a mustache. He has short, dark hair and is wearing a yellow and green jersey, which could suggest he is a fan of a sports team or participating in a sports event. The skw man is looking directly at the camera with a slight smile, and his gaze is focused on the viewer. He appears to be indoors, with a painting or framed artwork visible in the background, indicating that the setting might be a home or a room with decorative art. The lighting in the room is soft and diffused, creating a warm and inviting atmosphere.
Вот если такие описания скормить локальной LLM-ке с большим контекстным окном, то уже может получиться что-то адекватное (только нужно еще сделать так, чтобы оно фотку рисовало прям в диалоге чата, например, автозаменой айдишника). Ну либо просто локальный поисковик по таким описаниям, но это уже не так интересно.
А я чуть строительством дома не занялся, бо стройматериалы появились неожиданно. Еще бы. Я тогда играл за морпеха в 3Д очках NVIDIA (затворных, которые работают в паре с 120Гц монитором) и в наушниках. Шел я по темному коридору.... А потом -- ХОП. Наугад моментально куда-то выстрелял весь магазин. На этом и закончил играть. :)
Просто берется датасет (новые изображения + их словесные описания) и модель любая (например, базовая), и запускается тренировка модели.
Если обновляются веса в этом же файле, то это будет новый чек-поинт (т.е. такой же файлик, только байтики внутри чуть другие). Но можно записывать результат и в виде отдельного небольшого файла (см. LoRa).
Для дообучения модели своим датасетом можно использовать, например, OneTrainer.
Эх, сколько раз я туда мелким на лето к бабушке ездил.
Кстати, скоро будет основная схема работы такая. Вместо SingleFile будет кнопка типа "!" (Положить "на стэк" в LLM-ку). А дальше при любых запросах во всякие там новые GPT в контекст запросов будет добавляться информация с "помеченных" страниц. Можно, конечно, и без всяких кнопок, но это чуть позже, когда все еще больше удешевится, а контекст в токенах еще больше станет.
Абсолютно аналогичный подход. А когда работаешь над большим количеством разных задач, то таких вот разветвлений становится ингогда очень много. То одна задумка, то другая. Но в сутках всего 24 часа, потому некоторые ветки приходится перидически просто закрывать. :) Но приятней закрывать вместе с закрытием вопроса, конечно.
В 2024 все еще грустнее становится. :) И с деепричастными оборотами, и с запятыми. Как будто их рукой зачепнули и рассыпали по тексту. Чисто для украшения. :) Чтобы были.
Кстати, составные названия пишутся так: "«Читая некоторые статьи хабра, на глаза наворачиваются слезы от негодования», или Деепричастные обороты в русском языке" (между ними ставится запятая, а вторая часть тоже с большой буквы).
Я ж по этой причине (в том числе) и пробовал их тоже использовать. На 3Д принтере ж дома можно какие хочешь корпуса миниатюрные смоделировать и напечатать.
Но тогда я не знал, что без "подтягивающих" резисторов оно не может работать стабильно. Но я не хочу возиться с пайкой SMD, а с обычными резисторами это все выглядит уже совсем некрасиво.
И последний "гвоздь" -- прошивка модулей. Я-то купил заранее программатор подобный. Собрал на макетной плате все как надо (и две кнопки на нее)........ В общем, это какой-то ужас из проводов. :) Прошиваешь и не дышишь, чтобы ничего не выскочило. А если отдельный "сокет" под ESP взять, чтобы удобно было подключать, а все остальное уже нормально спаять, то ... Зачем тогда все эти свистопляски. Размер esp12 и wemos-d1 не сильно отличается. Вряд ли большинство людей столкнется с ситуацией, где ПРИДЕТСЯ использовать esp12 чисто из-за размера модуля.
P.S. Единственный приемлимый вариант -- посидеть и поперепрошить сразу пачку модулей прошивкой минимальной, где включить сразу прошивку по WiFi. И не возвращаться к этому вопросу больше (это если оптимистично).
А я себе магнитную мешалку собрал из компьютерного кулера, регулятора оборотов и неодимовых магнитов прям в коробке от телефона :) . Питательные среды перемешивать годится. https://www.youtube.com/watch?v=FU04jm_34X0
Да, Wemos D1 - самое оно. Тоже именно такой модуль везде использую. Было дело, еще с "голыми" ESP-12E помучался и понял, что оно того вообще не стоит (даже не буду оставшиеся использовать).
В реальности все еще хуже. :) Там на степике есть еще курс по нейронкам (не помню уже название), где даже не пытаются заинтересовать. Со старта сразу дают под дых -- огромный раздел по математике. И сиди решай. :) Мало того, что они этим сразу отсеяли почти всех, так еще и те, кто пройдут, почти никто никогда не прикоснется к этой математике, так как только единицы будут причастны к разработке State Of The Art продуктов. А могли бы просто людей втянуть практикой, заинтересовать. Показать задачи, которые можно нейроками решать.
Мне кажется, не так много итераций понадобится, чтобы GPT-4 или Claude Opus дописали до "победного конца".