Согласен, что распознавание УПД с "бумаги" - это довольно нишевая история. Просто цель статьи - учебная. И, да, это в первую очередь "смотрите, как это делается". УПД я взял потому, что это близко 1С-никам. Разумеется, у технологии есть и более интересные применения. О них я тоже планирую рассказать
Нет, не тривиальная. У вас на входе был текст в виде изображения и на выходе вы получили текст в виде текста. Ну и что? До структуры тут еще очень далеко
1С умеет работать и с ЭДО и с почтой уже давно. Здесь я вам показал как структурировать входящий поток (будь то изображение, аудио или письменная речь, в других моих статьях можете прочитать про голосовой ввод).
Соединяете первое и второе, и получаете то, что вы спросили
Подключится можно к любому провайдеру, который поддерживается библиотекой (на сегодняшний день это Yandex, Сбер, OpenAI, Antropic, Google, Nvidia, Deepseek и др.)
По ЭДО данные тоже уходят неведомо куда. Но если очень нужно, то локально развернуть можно. Просто цена вопроса такова, что практически любой здравомыслящий менеджер, услышав ее, скажет: да фиг с ней. В двух вариантах: фиг с ней с безопасностью или фиг с ней с технологией. Причем, на мой взгляд, первый вариант более правильный. Ну кому там эта ваша УПД нужна? Она промелькнет на сервере провайдера и будет уничтожена. Там еще сотни тысяч таких же в очереди стоят. В конце концов, все пользуются телефонной связью, а ведь ее можно прослушать
Имеет смысл потратить еще немного времени и разобраться в теме поглубже. Начните, например, с температуры. Потом вызовы функций и формат ответа. Статья ведь ровно об этом. Как получать четкие ответы от LLM
Провайдеры, дающие доступ к распознаванию речи, продают вам именно что compute. Не модель распознавания, а compute. Модель уже давно выложена в открытый доступ
И все равно в платформе не хватает кнопки снятия речи с микрофона
Да можно сказать, что уже. Если в коде есть проблема и с ней надо разобраться, тогда copy+paste+вопрос ИИ (глянь, что тут за фигня). Если вы делаете не так и ломаете глаза, то вы просто себя не бережете
Я общаюсь с коллегами на 1С-овских форумах. Вот один мой коллега говорит:
А я тут у Deepseek спросил "а могут ли ежики летать? а если пнуть?"
Я ему говорю "ну что ты ерундой занимаешься, ты ж 1С-ник, спросил бы что-нибудь типа что не продавалось в прошлом месяце". "Да не надо ничего этого в 1С"
Почему должен отменять? Потому что "клики и привычный UX/UI" это костыль. Его предназначение снизить затраты на преобразование потока речи(сознания) в структурированную информацию. С появлением AI, мы получаем инструмент, который делает это намного лучше
Согласен, что распознавание УПД с "бумаги" - это довольно нишевая история. Просто цель статьи - учебная. И, да, это в первую очередь "смотрите, как это делается". УПД я взял потому, что это близко 1С-никам. Разумеется, у технологии есть и более интересные применения. О них я тоже планирую рассказать
Нет, не тривиальная. У вас на входе был текст в виде изображения и на выходе вы получили текст в виде текста. Ну и что? До структуры тут еще очень далеко
1С умеет работать и с ЭДО и с почтой уже давно. Здесь я вам показал как структурировать входящий поток (будь то изображение, аудио или письменная речь, в других моих статьях можете прочитать про голосовой ввод).
Соединяете первое и второе, и получаете то, что вы спросили
И в структуру превращать?
Подключится можно к любому провайдеру, который поддерживается библиотекой (на сегодняшний день это Yandex, Сбер, OpenAI, Antropic, Google, Nvidia, Deepseek и др.)
Но согласитесь, ведь есть разница между преобразованием поток-поток и поток-структура
По ЭДО данные тоже уходят неведомо куда. Но если очень нужно, то локально развернуть можно. Просто цена вопроса такова, что практически любой здравомыслящий менеджер, услышав ее, скажет: да фиг с ней. В двух вариантах: фиг с ней с безопасностью или фиг с ней с технологией. Причем, на мой взгляд, первый вариант более правильный. Ну кому там эта ваша УПД нужна? Она промелькнет на сервере провайдера и будет уничтожена. Там еще сотни тысяч таких же в очереди стоят. В конце концов, все пользуются телефонной связью, а ведь ее можно прослушать
Ну, да. В принципе, можно. Только Выполнить() не везде применимо. Те, кто пользуются облачными сервисами 1С, будут в затруднении.
Имеет смысл потратить еще немного времени и разобраться в теме поглубже. Начните, например, с температуры. Потом вызовы функций и формат ответа. Статья ведь ровно об этом. Как получать четкие ответы от LLM
Уже может
Создать документ из JSON - задача тривиальная, в отличие от
Compute не бесплатен по-любому.
Облачный compute дешевле локального (оптовые цены)
Провайдеры, дающие доступ к распознаванию речи, продают вам именно что compute. Не модель распознавания, а compute. Модель уже давно выложена в открытый доступ
И все равно в платформе не хватает кнопки снятия речи с микрофона
В последнее время мне чужой код читать не приходится. Но если потребуется, именно так и сделаю
Что же в ней плохого? Text-to-SQL сейчас работает прекрасно
Ждем, когда SQL запросы повсеместно будет генерить ИИ
Да можно сказать, что уже. Если в коде есть проблема и с ней надо разобраться, тогда copy+paste+вопрос ИИ (глянь, что тут за фигня). Если вы делаете не так и ломаете глаза, то вы просто себя не бережете
Его скоро только ИИ и будет читать. Ему все равно, а нам экономия на входных токенах (шутка)
Это тема следующего разговора
А знаете, почему вы не замечаете улучшений в 1С?
Я общаюсь с коллегами на 1С-овских форумах. Вот один мой коллега говорит:
А я тут у Deepseek спросил "а могут ли ежики летать? а если пнуть?"
Я ему говорю "ну что ты ерундой занимаешься, ты ж 1С-ник, спросил бы что-нибудь типа что не продавалось в прошлом месяце". "Да не надо ничего этого в 1С"
А вам спасибо за пожелания!
Почему должен отменять? Потому что "клики и привычный UX/UI" это костыль. Его предназначение снизить затраты на преобразование потока речи(сознания) в структурированную информацию. С появлением AI, мы получаем инструмент, который делает это намного лучше