Comments 30
Спасибо! Отличный инструмент!
Случайно отклонил комментарий про кричащий заголовок и про то, что сейчас каждый может воплотить свою детскую фантазию. Сорри в кнопках запутался, и про воплощение фантазий полностью согласен, это сильно подстёгивает делать что то
Интересное приложение для эффективной работы. Хотел в телеграм канал попасть, но ссылка в тексте битая никуда не ведёт https://t.me/VETA14/14
Рекомендую сразу перетащить иконку ClipGen из скрытой области на саму панель задач
А как же умные люди, которые скрывают панель задач?
Действие: Win+Shift+S (скриншот области) -> Ctrl+F12 (мой хоткей на "извлечение текста").
А зачем, если ножницы умеют доставать текст из скринов?
И не думали переписать на AutoHotKey? Exe весил бы ну максимум мегабайта два наверное.
Рекомендую сразу перетащить иконку ClipGen из скрытой области на саму панель задач
Спасибо, добавлю в настройки
Действие: Win+Shift+S (скриншот области) -> Ctrl+F12 (мой хоткей на "извлечение текста").
Ножницы – это лишние клики (много кликов) + не так хорошо справляются, как это делает нейросеть, она достанет даже рукописную кириллицу из скрина + я показывал в видео на примере таблицы, из скрина я получаю готовую таблицу за 10 секунд, с ножницами пришлось бы вставлять каждую ячейку отдельно вот ссылка с привязкой по времени https://youtu.be/Qc-eO0ArJ24?t=81
Вы точно пользовались ножницами?
Да, действительно неплохо они прокачались, раньше точно не было возможности копировать как таблицу, или я не замечал. Сейчас проверил на примере с таблицей из поста – хуже, чем Gemma справляются, но использовать можно, вверху Clipgen с Gemma, ниже ножницы, рукописный текст тоже проверил и сейчас с ним тоже всё хорошо у ножниц. Но я помню времена, когда они не могли одновременно русский и английский текст распознавать с одного скриншота

Прикольно, только корень из 61651 неправильно посчитала 😏
Advanced Paste из MS PowerToys ту же задачу решает, только с другого конца (активируется при вставке из буфера, а не копировании). Ротации ключей API, конечно, нет :) - но выбор доступных к подключению моделей поболее и, главное, можно не только предварительно настроенные промпты вызывать, но тут же во всплывающем окошке свой ad hoc промпт для конкретной задачи ввести.
В целом халява на бесплатные запросы через API закончилась. PRO модель совсем отключили, на Flash оставили урезали на 92% с 250 до 20 запросов в день
Немного не понял про сервера Штатов и Румынии. Т.е. достаточно взять api с этих серверов и тогда геозапретов с какой то вероятностью не будет у api?
Спасибо, хорошая утилита! Только вот было бы еще возможность обновления самой утилиты через интерфейс, или хотя бы проверка, что есть обновление и можно скачать. А то самому проверять и качать exeшник такое себе.
Так же все релизы можно держать в github в "releases", это стандартное место где лежат готовые программы. Ходить за программой куда-то в телеграм канал максимально неудобно.
Мне кажется 1) инсталляция 2) настройка "запускать вместе с Windows" 3) возможность проверки обновлений / в идеале скачивания 4) выкладывание готовых релизов .exe в Github выведет программу на качественно иной уровень.
Спасибо! Про GitHub чуть позже так и сделаю и добавлю автобилд в exe И релизы С автозагрузкой согласен полностью, тоже реализую чуть попозже, и с автообновлениями ещё ни разу не сталкивался – тоже добавлю 🤝 Я её первые три месяца из консоли запускал и все логи там же были, потом добавил интерфейс, теперь вот иконку в трей, дальше всё остальное реализую С гитхабом совсем недавно начал разбираться, ещё не все нюансы знаю. Но есть желание сделать из него удобный инструмент. Пока в ближайших планах на неделе добавить опенроутер с его моделями, потом поэтапно всё остальное добавлю
Обновил сегодня до версии 2.0.2. Добавил релизы, добавил автобилд exe, добавил автоматическую проверку обновлений при каждом старте программы с возможностью пропустить текущую версию, добавил ручную проверку обновлений по кнопке, + добавил прокси, чтобы не держать VPN постоянно, ну и по мелочи вот расписал всё в посте.

Спасибо ещё раз за ваш коммент.
Крутая прога! Удивительно, что на телефоны все эти ИИ коррекции уже давно завезли, а на десктопах каких-то лидеров нет. Вы можете им стать :)
Есть вопросы.
Вы пишите "
gemma-3-27b-it", а точно ли нужна модель 27b, чтобы поправить запятые и опечатки? Мне кажется, с простыми вещами даже 2b нормально справиться, разве нет? Ну как минимум там есть 12b, она должна отлично справляться, и быть быстрее.Интересно, вы какие-то еще варианты исследовали? Например, модели qwen3 размером 4b или 8b можно локально запустить, и будет вообще очень быстрая конфиденциальная система. Или, например, можно использовать GLM 4.6, там подписка стоит $3 в месяц, и это очень сильная модель для кодинга. То есть ее можно и для кодинга использовать, и вот для таких коррекции и проверок.
Спасибо за совет, раньше я Gemmu вообще не рассматривал, так как лимитов Gemini хватало за глаза. Вот буквально после урезания лимитов открыл её для себя. И когда тестировал, проверил модель 27b (просто как самую топовую) и убедился, что она хорошо справляется со скринами, и в целом отлично подходит для ClipGen. Потом сравнил её с 12b, и она по скорости уступала 27b, и я просто не стал тестировать остальные. Вот сейчас проверил ещё раз специально заскринил, добавил остальные все модели (на скрине я тестировал 12b много раз, с ней реально что-то не так) 1b очень шустрая, понятное дело, но я так понял, она не мультимодальная (не поддерживает изображения), так что потестирую завтра 4b, пока на ней остановился.

И по поводу остальных всех моделей ответ такой же — раньше это просто не нужно было. Gemini 2.5 очень быстрая, очень точная и всеядная. Поэтому даже мыслей не было искать ей замену. Но вот в последнее время такие мысли появились. Так что буду в эту сторону смотреть и подключать новые модели отсюда.
Не работает нормально (работает только первые пару миннут после запуска ClipGen) с Atlassian продуктами (Jira, Confluence, Bitbucket). По хоткею не триггерится (иконка не меняется), и даже когда вручную нажимаешь в окне приложения на кнопку "F1 Kоррекция" в инпут или не попадает, или попадает "Пожалуйста, предоставьте текст для исправления. Я готов начать работу, как только вы его отправите". Видимо, слетает фокус. И это самое обидное, ведь наверное 70% текста мне как раз надо править, работая с Atlassian сервисами.
EDIT:
хотя сейчас вроде ок, последние 10 минут работает. В общем, помониторю пару дней, отпишу.
Очень жаль, честно не тестировал ClipGen на этом софте. Странно, что с ним не работает, но я на неделе сяду и посмотрю, что там не так, пока даже идей нет
Видимо, какой-то временный глюк, два дня - полет нормальный!
Супер, я завтра с утра думал сесть за вашу проблему и посмотреть, что там не так. Клёво, что само собой решилось. Если вдруг не видели, обратите внимание на новую версию программы – там довольно ключевые изменения добавились тут подробно расписал: https://t.me/VETA14/17
Клон на голанге. В качестве ии используются консольные утилиты которые можно вызывать вручную или из своих скриптов как то так
echo "что на картинках?" | mistral.exe -f "pathtoimg1.jpg" "pathtoimg2.jpg"ИИ по умолчанию - мистраль, у него есть ответы по картинкам, чистый OCR, чтение пдф и транскрибация. Всё что есть херовенькое но зато работает из рф без впн и лимиты огромные(были когда смотрел последний раз, а было это давно).
Еще есть groq и github.
У грока хороший транскрибатор на виспере, может очень быстро большой аудиофайл перевести в текст, почти безлимитно. Есть гугл поиск и виртуалка для вычислений. Лимиты на текстовые модели мелкие но несколько ключей должны решить проблему.
У гитхаба хорошие модельки от опенаи, лимиты там 50 запросов к большим моделям в день на 1 ключ, и 150 к мелким. Из рф вроде пускает без впн.
Оказалось действительно удобно, но чего-то не хватает.
Во-первых, нужно подключить вызов функций. У Mistral нет своей виртуальной машины для калькулятора и поиска в интернете — это большой минус, но есть поддержка MCP. Учитывая, что всё происходит на локальном хосте и единственный пользователь — ты сам, можно запускать код без виртуальной машины, но нужен какой-то скриптовый язык вроде Lua (Python можно, но он неудобный с зависимостями).
Если появится возможность выполнять код по запросам, можно будет создавать сценарии или просить ИИ делать что-то своими руками: переименовывать файлы, удалять их и так далее.
Ещё неплохо было бы сделать окно-чат, которое вызывается и скрывается по хоткею, но это сложно — GUI всегда сложен.
на .Net переписать наверное стоит
Внедряем Gemini во все поля ввода Windows: Бесплатно, без смс и с обходом ограничений