Андрей Колганов @MultiView
Руководитель направления цифровой трансформации
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity
Specialization
Project Director, Software Architect
Lead
Руководитель направления цифровой трансформации
Спасибо, однако все примеры на английском языке, такое впечатление, что используются западные проекты для образца. И кстати, самый важный вопрос - сам процесс векторизации и загрузки векторов текстовых или аудио/видео совсем не раскрыт, формирование вектора на основе документов и датасетов, хотя бы размером несколько сот тысяч вопросов и ответов. Вы не указали, что PGVector не дружит нативно с open-source векторизаторами из huggingface, например популярным E5 Intfloat. Каким образом будет строиться серьезный проект на основе PGVector, ведь основная задача это быстро получить вектор и интегрировать его в Postgresql ? Мы вынуждены были отказаться от этого решения в пользу другого только из-за данных проблем.
Мы и многие другие также, продолжают похожие исследования и разработки, так как команда считает нейросети тупиком и всеобщим помешательством. Это особенно критично для задач, где требуются 100% достоверные ответы ИИ
Если бы проект СБЕР Visper доработать до совместного использования с этой технологией. Интересно было бы разговор аватара чатбота вести синхронно совместно с ответами языковых моделей как единый постоянно генерирующийся в реалтайм видеоролик. Какие мощности для этого требуются ?
Абсолютно согласен. Индуктивные методы, читай нейросети, очень не достоверны и мало применимы для организаций, которые хранят и обрабатывают достоверные данные, например государственные архивы.
Мы в Государственном архиве РФ создаем виртуального сотрудника иподключаем в него различные модели мышления, ставим приоритеты по их последовательному применению для понимания запросов граждан: дедуктивное - экспертные системы самый первый приоритет анализа - дает достоверную картину; второй приоритет - интуитивное мышление на основе ассоциативного анализа по спец словарям; индуктивное мышление третьего приоритета на основе нейросетей распознает типовые сущности - эвристики и дает правдоподобные оценки в случае, если 1 и 2 модель мышления не сработала и наконец 4 приоритет это абдуктивный анализ на основе сравнения всех предыдущих методов пытается построить новую картину происходящего.
По сути это действительно организационное решение.
Но мы к нему пришли не сразу.
В нашем случае, мы вначале обратились к ведущим национальным центрам ИИ и предложили сделать пилоты на основе наших Датасетов. Результат полугодовой работы был отрицательным для всех поставщиков отечественных решений.
Мы поняли, что гарантированно правильные ответы можно получить только, если чатбот будут обучать и проектировать владельцы данных, но не ИТ-шники.
Очень интересная статья.
Ваш проект очень похож на цифровой ассистент по обработке обращений граждан, который создает наша команда уже почти год в Государственном Архиве РФ.
Сложность проекта в том, что ответ чатбота должен быть однозначным и 100% достоверным. Вопросы граждан состоят из множества смыслов, так называемые мультиинтентные.
Наша команда практически на 99% состоит из сотрудников архива, не являющихся ИТ-специалистами. Зато, каждый член команды является экспертом по своей тематике и формирует по ней датасеты, включающие наборы сущностей, стоп-слова, размеченные сущностями типовые запросы и ответы. После этого каждый проектирует свой чатбот. Существует мастер чатбот, который объединяет порядка 12 тематических чатботов.
Мы решаем задачу постепенно:
на первом этапе подключили ответы на наиболее часто задаваемые вопросы;
второй этап состоит в реализации диалогов на основе предварительно выявленных смыслов;
на третьем этапе - автоматическое проактивное дополнение датасетов из архивных данных, ранее созданных датасетов и самообучение чатбота этими данными
Подчеркну очень важный момент нашей работы - создание Датасетов, обучение и тестирование чатботов ведут сами архивные сотрудники, владельцы данных. Они фактически создают своих цифровых двойников и максимально заинтересованы в результате.
Попробуйте сформировать такую команду из экспертов и у Вас получится :)
Поддержу автора статьи. Тема очень важная и востребованная.
Мы в Государственном Архиве Российской Федерации строим платформу автоматической обработки обращений граждан в архив на базе технологий ИИ. Запросы граждан очень сложные, в них присутствуют множество смыслов. Некоторые обращения сложно идентифицировать по тематике и тратится время только на понимание сути обращения.
При этом, основная задача, которую нам поставило государство, это сокращение регламентных сроков обработки запросов с 4 недель до 1 секунды :)
Наш команда действует постепенно. Тематика чатботов у нас достаточно развита.
Мы используют разные виды чатботов. Некоторые помогают гражданам сформулировать правильные запросы, некоторые фильтруют не профильные обращения, другие выполняют роль путеводителя по сайту.
Уже сейчас, после 6 месяцев запуска проекта мы ощущаем 10% разгрузку внутренних служб архива.
При этом, количество недовольных частотами пользователей, составляет не более 20%.
Если интересно сообществу, можно было бы подготовить статью об использовании чатботов в работе Федеральных Архивов.
Многие вообще продукты бесплатно создают на волне голого энтузиазма. Поэтому будут рады даже 100тыс рублям на память и диски.
У меня проект по превращению текстов на русском языке в маленькие видео-ролики.
Статья по проекту в процессе написания.
Я тоже использовал Three.JS для этой задачи.
И тоже исключительно на Macbook Pro, но с акцентом на работу в Safari и на встроенные карты, типа Iris 6100, хотя имеется и полноценная прошка с дискретной картой.
У меня были другие проблемы: при создании большого мира проседает fps до 4к/c, хотя в Unity все нормально.
Я думаю использовать веб-воркеры для этого.
Вы не пробовали использовать лингвистические языковые модели для анализа текстов?
Они давно используются для понимания смысла в системах наравне с таксономиями.
Не подскажете, как можно подключиться к Вашей Наташе не используя питон?
В наших проектах, к сожалению, мы работаем на других языках типа: php, js, node, kotlin.
Спасибо :)