Комментарии 33
Отличное воплощение в цифрах степени "надежности и адекватности" данных от LLM
Они что вручную на письма отвечают, вместо того, чтобы сделать веб-морду к каталогу?
В архивах, особенно исторических как какие-нибудь архивы Красного Креста, далеко не все оцифровано и каталогизировано в виде красивой веб-морды. Большая часть работы это как раз поиск по внутренним непубличным каталогам, а иногда и по бумажным картотекам)
знаком с несколькими архивами, все там давно оцифровано
но тут в теме Штат Вирджиния, прогресс до них может не дошел еще
знаком с несколькими архивами, все там давно оцифровано
Это ошибка выжившего. Старые университетские и монастырские библиотеки полностью оцифрованы в единичных случаях.
Понятно, что если Вашей области интересов 25 лет, то источники в ней исходно цифровые. А вот если вам нужны рукописи из Свято-Успенского Псково-Печерского монастыря, то ой. Нет, кое-что оцифровано трудами архимандрита Феодосия, но....
Чем мой опыт хуже вашего?
Какой архивист из простите архимандрита. Это церковник.
Я про РГАЛИ, например
И ещё у Яндекса есть поиск по архивам
У музея современной истории есть внутри база. Насчёт веб моды не знаю, может есть
Как Вы вообще предполагаете современную работу без базы и оцифровки? Стеллажи в подвале? И ручками перебирать
Электронные, да и бумажные каталоги архивов и библиотек находятся в очень разном состоянии в зависимости от ресурсов, характера источников, возраста инфраструктуры и прочей внутренней специфики. Оцифровка некоторых специфических каталогов с большой историей - это большие спецпроекты, требующие осторожности и недофинансирующиеся десятилетиями. Плюс часто там совершенно адское регулирование плюс естественный (и во многом необходимый) консерватизм. Потому что айтишники с веб-мордами каждые пять лет новые, а хороший архив должен думать про себя, что он вечный и лучше знает, как правильно.
РГАЛИ приблизился к полному покрытию каталога только в конце 10-х годов, и они были в относительно привилегированном положении
Яндексовский поиск по архивам срывает плоды с низких ветвей - гоняет OCR в основном по уже существующим оцифровкам самых востребованных источников типа ревизских сказок.
знаком с несколькими архивами, все там давно оцифровано
Точно всё? Или только то, что вы видели в оцифрованном виде? А со сколькими архивами вы знакомы? В мире оцифровано всего от 10% до 15% материвалов.
How Much of the World’s Knowledge Is Digitized and Searchable? - BTU AI
Морда есть, гуглится за 3 секунды. Возможно, неудачники, которые не нашли свой документ через веб, начинают писать письма с просьбой поискать нужное руками.
Я бы к веб морде ещё бы прикрутил LLM, фана ради на недельку другую. Замкнуть цикл так сказать.
Вы думаете, люди которые отправляют такие запросы, будут использовать какой-то каталог? И даже если будут, то поверят этому каталогу, а не чатгыпыту? Жена работает в вузе, к ним все чаще приходят запросы типа "чатгпт сказал, что у вас есть такой-то курс, но я не могу найти это на сайте. Расскажите поподробнее". И частенько такие имейлы заканчиваются фразой "хочешь, я сформулирую этот текст более официально или наоборот повеселее?".
Теперь нужны верификаторы источников получается, инструменты (возможно, тоже на базе ИИ, как не иронично), которые будут проверять факты и ссылки по реальным, доверенным базам данных
ИИ DDOS-ит библиотеку
Скорее всего эти модели получают доступ в к полной реальности, где всё это существует. А мы живем в каком то промежуточном сумеречном мире, где не все предметы отрисовались.
Платон бы сказал что они получают доступ к модели (идеальный мир) и очень порадовался бы, так как считал что из нашего мира имитаций до модели ничем дотянуться нельзя. А многомиллиардная матрица LLM работает как антенна.
Как же всё таки круто, что человечество научило бездушные компьютеры компульсивно врать, когда они не знают что сказать. Вот это я понимаю настоящий ИИ. Самое забавное, что нейронки набрались этого от своих создателей, которые тоже достаточно часто это делают
Не-е, они сами. Или, можно сказать, это общее свойство моделей вообще. Так же как любой метод интерполяции данных может соврать в «додуманных» точках, и даже скорее всего соврет.
А вот и неправда! Почти половина всего бредового поведения моделей происходит из alignment-тренинга, - дообучения, которое не только портит реколлинг из датасета, но и дает моделям неестественные свойства, в тч пессимизирует токены, связанные с отказом или <end of stream>
Та чебурашка, которая получается напрямую из больших данных, это instruct-стиль модель, которая в целом не умеет разговаривать, соглашаться или отказывать, только продолжать текст.
Сами построили чучело, сами его и победили.
Это ли не доказательство, что правительство скрывает очень много данных! Информация о различных секретных документах просочилась в интернет, и LLM при обучении ее запомнил, а теперь людям отказывают в доступе! (сарказм, если че)
Казалось бы - причем тут Фонд SCP https://scpfoundation.net/ и особенно https://scpfoundation.net/scp-4755 ?
Однако каков путь для рекламы всякой неизвестной фигни, если минимум 15% не делают даже первичного фактчекинга... В двери ИИ провайдеров уже наверное очередь из корпораций на небольшое редактирование выдаваемого контента, а Вы говорите пузырь, говорите не окупиться
Кажется это мы уже проходили, когда работали с LLM без тулов и агентов. В этой ситуации библиотеке нужно опубликовать общедоступный MCP сервер, который бы по дефолту подключили популярные ЛЛМки. В итоге человек всегда будет запрашивать существующую книгу, но насколько она на самом деле будет релевантная ему - это уже другой вопрос.
Да люди тоже не особо умеют "я не знаю" вовремя говорить, ИИ просто скопировал стыд неведения


Каждый седьмой запрос в библиотеку — галлюцинация ИИ: в США бьют тревогу