Обновить
8K+
-1
Алиса@alislille

Пользователь

4
Рейтинг
Отправить сообщение

Это был сарказм😊, но тем не менее, блокировки за 4+ года должны были поспособствовать развитию нашего технологического суверенитета. Но видимо сейчас так все стремительно развивается, догнать сложно, помочь тут сможет наверное только выявление и поддержка наших современных молодых «Кулибиных» без всяких бюрократий и смет как на этом «заработать» топ менеджменту.

Я читала тут статью на Хабр, ребята из ИТМО делают действительно уникальные вещи, очень трудозатратные, очень нужные. Хорошо, что их преподаватель опубликовал результат. Интересно, наш бигтех вцепился в них или продолжил полировать свой интерфейс рекламой?

А я бы хотела также, без свистоплясок «в вашем регионе не поддерживается», поэтому топлю за технологический суверенитет без принуждения

Как думаете, Алиса сумеет поконкурировать с Gemini? Google между прочим сам отпочковался 4+года назад и стал топить за развитие технологического суверенитета в РФ.

«Модель дала уверенный ответ - человек должен критически подумать». Это уже новый профессиональный навык получается у менеджмента. Интересно как ИИ-система, которая отсеивает кандидатов по резюме интерпретирует наличие или отсутствие этого навыка? А еще больше интересно как HR прочитав отчет этой ИИ-системы валидирует ее интерпретацию и критически примет решение? Вообще как он критически проверит, что интерпретация ИИ не подменила неопределенность уверенностью?

Спасибо большое, вообщем то да, это то, во что я сейчас уперлась, но пока с инженерным решением не хотела бы торопиться, надо доработать и зафиксировать ядро метода. В любом случае, очень ценно, что Вы почитали препринт и увидели именно эту перспективу. Я подписалась на Вас, чтоб не потеряться. Думаю, нам точно стоит состыковаться, когда я доведу методологическое ядро до более жесткой версии

По открытым публикациям история с Palantir и ракетным ударом по школе в Минабе как раз попадает в слабое место ИИ-систем, где они оптимизированы под полезный ответ.

Если версия с устаревшими данными верна, то информация о том, что в школе в Минабе раньше находилась база КСИР, могла пройти по цепочке принятия решений как актуальная. В таких случаях ошибка уже не остаётся ошибкой ответа, а становится физическим последствием.

Я думала об этой ситуации. Скорее всего я бы ввела еще отдельный слой валидации вывода.

Триангуляцию минимум 3 независимых моделей, сверку координат и временной актуальности данных; проверку объекта совпадений анализа; поиск конфликтных источников; проверку достраивания данных как подтвержденных; сигнал, если вывод выглядит уверенным при слабом основании.

Ну это мои размышления, не претендующие на истину, что в таких ИИ нужен отдельный слой проверок допустимости вывода, а не только поиск убедительного ответа

Скорее второе) Интересно проверить, в какой момент постоянная самопроверка начинает разрушать само рассуждение. Забавно, что если спросить модель, как ей помочь, она почти сразу просит ослабить самое болезненное ограничение. А если дать ей Python, быстро подсаживается на разведку вычислениями как школьник на ГДЗ.

Спасибо за такой качественный перевод! Информация очень интересная, понятно изложена, но с одного раза сложно осмыслить масштаб. Хочется перечитывать и обдумывать. Все таки математика для меня это отдельный мир, как для гуманитария. Мне сразу надо пофилософствовать😊

Благодарю за замечание, я пересмотрю свой стиль

Да, но «та самая» выбрала нетривиальный путь решения. Она решила не доказывать, что там есть простое, а решила искать путь что «невозможно чтоб было всё составное». Поэтому она как собака на привязи бегает и по кругу зачищает все ветки, сужая области поиска инварианта.

Вообще очень занимательно это наблюдать. Сама придумала аналогию с галлюцинациями ИИ, говорит это очень похоже. Локально все ответы выглядят правильно, а глобально уже сто раз сломались но диалог все еще складный. Питоном разведку проводит, мол туда иду или нет?😂

Внедрять планировала как внешний валидационный слой поверх существующих систем. В минимальном варианте это выглядит как проверка ответа перед использованием, устойчив ли вывод, не распался ли объект анализа, нет ли ложного консенсуса или семантической пустоты.

Но это уже следующий этап. Сейчас проект скорее находится в исследовательской стадии. Надо проверить переносимость метода на другие дисциплины, не только социологию. Отдельно хочу протестировать алеметрию как мета метод для оценки существующих подходов к аудиту ИИ. Например «ИИ как судья». Примеры кода буду выкладывать по мере развития проекта. Вот ссылка. https://zenodo.org/records/19674164

LLM очень хорошо умеют создавать ощущение, что мыслительный процесс уже состоялся за тебя)

У меня был забавный стресс-тест, где 4 нейронки за 20 минут решили задачу Лежандра, которую математики уже 200 лет решить не могут😂. Это как раз хорошо показывает проблему. Они способны быстро собрать убедительное рассуждение, и пользователь ведь может поверить?

Спасибо😊.  Рамка, в которой обучалась модель важна не меньше ее «интеллекта»). И на демонстрационных кейсах это особенно видно. Они действительно могут интерпретировать по разному один и тот же вопрос. Внешне вроде согласованный, а внутри они пришли к ответу разными путями. А если еще глубже копать в пайплайн обучения и разметки данных, там вообще отдельный мир. Но туда глубоко я не копала😅 пока

Собственно меня это и интересует, пользователь может постепенно ужесточать рамки, получать все более уверенные и структурированный ответ, но при этом не иметь способа проверить, где модель действительно прошла проверку, а где просто стабилизировала собственную интерпретацию задачи

Я думаю, что есть. Мне кажется, что польза не в идеально проверяющем, а в системе, которая помогает отделять содержательную проверку, имитацию проверки, отказ и ситуации, где вывод вообще нельзя считать надежным. Пользователь этого сейчас часто не понимает, а компании могут нести репутационные и управленческие риски

В социологии похожая давняя проблема, формулировка вопроса может менять получаемый ответ, и это очень отражается на результатах исследования. Но алеметрия не изучает «вопросы», она исследует можно ли на основании полученного ответа делать вывод или принимать решение.

Для себя я сейчас проверяю этот подход на более жестких исследовательских кейсах, где очень легко спутать красивое рассуждение с валидным выводом. Там как раз полезен режим, который не дожимает ответ любой ценой, а останавливает вывод, если нет проверяемого основания

Я понимаю, что это AI инструмент поверх модели, формулировка была грубой, замечание принимается. Но я смотрю с позиции социолога, работаю именно с конечным пользовательским продуктом. Меня интересует именно опыт пользователя, что происходит, когда человек отдает документ в такой инструмент и какой результат получает

Python нужен был для проверки фактического выполнения операции, например прочитала ли модель действительно страницы, извлекла ли формулы. Код не решает интерпретационную проблему, но вскрывает различие между заявленным и пррверяемым результатом.

Алеметрия, это авторский термин, Вы правы, надо было в статье ввести термин раньше. Этимологически это алетейя» / ἀλήθεια, то есть раскрытие или несокрытость. , и «метрия» как измерение. Замечание принято😊

Статья зашла, реально👍 как редкое увлекательное чтиво на ночь. После нее только глаза закрыть и начать анализировать. Автору огромный респект, очень интересно и структурно грамотно. Я второй день хожу под впечатлением и все еще осмысливаю👏. Редкий случай, когда хочется не скроллить дальше, а посидеть и переварить)

1

Информация

В рейтинге
1 166-я
Зарегистрирована
Активность

Специализация

Ученый по данным, Социолог
Средний
Git
SQL
Python
LLM
NLP
Проведение интервью
UI/UX дизайн
Исследование пользователя
Проектирование взаимодействия