Search
Write a publication
Pull to refresh
0
0
Андрей Колганов @MultiView

Руководитель направления цифровой трансформации

Send message

Спасибо, однако все примеры на английском языке, такое впечатление, что используются западные проекты для образца. И кстати, самый важный вопрос - сам процесс векторизации и загрузки векторов текстовых или аудио/видео совсем не раскрыт, формирование вектора на основе документов и датасетов, хотя бы размером несколько сот тысяч вопросов и ответов. Вы не указали, что PGVector не дружит нативно с open-source векторизаторами из huggingface, например популярным E5 Intfloat. Каким образом будет строиться серьезный проект на основе PGVector, ведь основная задача это быстро получить вектор и интегрировать его в Postgresql ? Мы вынуждены были отказаться от этого решения в пользу другого только из-за данных проблем.

Мы и многие другие также, продолжают похожие исследования и разработки, так как команда считает нейросети тупиком и всеобщим помешательством. Это особенно критично для задач, где требуются 100%  достоверные ответы ИИ

Если бы проект СБЕР Visper доработать до совместного использования с этой технологией. Интересно было бы разговор аватара чатбота вести синхронно совместно с ответами языковых моделей как единый постоянно генерирующийся в реалтайм видеоролик. Какие мощности для этого требуются ?

Абсолютно согласен. Индуктивные методы, читай нейросети, очень не достоверны и мало применимы для организаций, которые хранят и обрабатывают достоверные данные, например государственные архивы.

Мы в Государственном архиве РФ создаем виртуального сотрудника иподключаем в него различные модели мышления, ставим приоритеты по их последовательному применению для понимания запросов граждан: дедуктивное - экспертные системы самый первый приоритет анализа - дает достоверную картину; второй приоритет - интуитивное мышление на основе ассоциативного анализа по спец словарям; индуктивное мышление третьего приоритета на основе нейросетей распознает типовые сущности - эвристики и дает правдоподобные оценки в случае, если 1 и 2 модель мышления не сработала и наконец 4 приоритет это абдуктивный анализ на основе сравнения всех предыдущих методов пытается построить новую картину происходящего.

По сути это действительно организационное решение.

Но мы к нему пришли не сразу.

В нашем случае, мы вначале обратились к ведущим национальным центрам ИИ и предложили сделать пилоты на основе наших Датасетов. Результат полугодовой работы был отрицательным для всех поставщиков отечественных решений.

Мы поняли, что гарантированно правильные ответы можно получить только, если чатбот будут обучать и проектировать владельцы данных, но не ИТ-шники.

Очень интересная статья.

Ваш проект очень похож на цифровой ассистент по обработке обращений граждан, который создает наша команда уже почти год в Государственном Архиве РФ.

Сложность проекта в том, что ответ чатбота должен быть однозначным и 100% достоверным. Вопросы граждан состоят из множества смыслов, так называемые мультиинтентные.

Наша команда практически на 99% состоит из сотрудников архива, не являющихся ИТ-специалистами. Зато, каждый член команды является экспертом по своей тематике и формирует по ней датасеты, включающие наборы сущностей, стоп-слова, размеченные сущностями типовые запросы и ответы. После этого каждый проектирует свой чатбот. Существует мастер чатбот, который объединяет порядка 12 тематических чатботов.

Мы решаем задачу постепенно:

  • на первом этапе подключили ответы на наиболее часто задаваемые вопросы;

  • второй этап состоит в реализации диалогов на основе предварительно выявленных смыслов;

  • на третьем этапе - автоматическое проактивное дополнение датасетов из архивных данных, ранее созданных датасетов и самообучение чатбота этими данными

Подчеркну очень важный момент нашей работы - создание Датасетов, обучение и тестирование чатботов ведут сами архивные сотрудники, владельцы данных. Они фактически создают своих цифровых двойников и максимально заинтересованы в результате.

Попробуйте сформировать такую команду из экспертов и у Вас получится :)

Поддержу автора статьи. Тема очень важная и востребованная.

Мы в Государственном Архиве Российской Федерации строим платформу автоматической обработки обращений граждан в архив на базе технологий ИИ. Запросы граждан очень сложные, в них присутствуют множество смыслов. Некоторые обращения сложно идентифицировать по тематике и тратится время только на понимание сути обращения.

При этом, основная задача, которую нам поставило государство, это сокращение регламентных сроков обработки запросов с 4 недель до 1 секунды :)

Наш команда действует постепенно. Тематика чатботов у нас достаточно развита.

Мы используют разные виды чатботов. Некоторые помогают гражданам сформулировать правильные запросы, некоторые фильтруют не профильные обращения, другие выполняют роль путеводителя по сайту.

Уже сейчас, после 6 месяцев запуска проекта мы ощущаем 10% разгрузку внутренних служб архива.

При этом, количество недовольных частотами пользователей, составляет не более 20%.

Если интересно сообществу, можно было бы подготовить статью об использовании чатботов в работе Федеральных Архивов.

Многие вообще продукты бесплатно создают на волне голого энтузиазма. Поэтому будут рады даже 100тыс рублям на память и диски.

Очень интересно, спасибо.

У меня проект по превращению текстов на русском языке в маленькие видео-ролики.

Статья по проекту в процессе написания.

Я тоже использовал Three.JS для этой задачи.
И тоже исключительно на Macbook Pro, но с акцентом на работу в Safari и на встроенные карты, типа Iris 6100, хотя имеется и полноценная прошка с дискретной картой.

У меня были другие проблемы: при создании большого мира проседает fps до 4к/c, хотя в Unity все нормально.
Я думаю использовать веб-воркеры для этого.
Спасибо, интересная статья.

Вы не пробовали использовать лингвистические языковые модели для анализа текстов?

Они давно используются для понимания смысла в системах наравне с таксономиями.
Спасибо за отличную статью.

Не подскажете, как можно подключиться к Вашей Наташе не используя питон?

В наших проектах, к сожалению, мы работаем на других языках типа: php, js, node, kotlin.

Спасибо :)

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Project Director, Software Architect
Lead