Обновить

Комментарии 33

Отличное воплощение в цифрах степени "надежности и адекватности" данных от LLM

Они что вручную на письма отвечают, вместо того, чтобы сделать веб-морду к каталогу?

В архивах, особенно исторических как какие-нибудь архивы Красного Креста, далеко не все оцифровано и каталогизировано в виде красивой веб-морды. Большая часть работы это как раз поиск по внутренним непубличным каталогам, а иногда и по бумажным картотекам)

знаком с несколькими архивами, все там давно оцифровано

но тут в теме Штат Вирджиния, прогресс до них может не дошел еще

знаком с несколькими архивами, все там давно оцифровано

Это ошибка выжившего. Старые университетские и монастырские библиотеки полностью оцифрованы в единичных случаях.

Понятно, что если Вашей области интересов 25 лет, то источники в ней исходно цифровые. А вот если вам нужны рукописи из Свято-Успенского Псково-Печерского монастыря, то ой. Нет, кое-что оцифровано трудами архимандрита Феодосия, но....

Чем мой опыт хуже вашего?

Какой архивист из простите архимандрита. Это церковник.

Я про РГАЛИ, например

И ещё у Яндекса есть поиск по архивам

У музея современной истории есть внутри база. Насчёт веб моды не знаю, может есть

Как Вы вообще предполагаете современную работу без базы и оцифровки? Стеллажи в подвале? И ручками перебирать

Электронные, да и бумажные каталоги архивов и библиотек находятся в очень разном состоянии в зависимости от ресурсов, характера источников, возраста инфраструктуры и прочей внутренней специфики. Оцифровка некоторых специфических каталогов с большой историей - это большие спецпроекты, требующие осторожности и недофинансирующиеся десятилетиями. Плюс часто там совершенно адское регулирование плюс естественный (и во многом необходимый) консерватизм. Потому что айтишники с веб-мордами каждые пять лет новые, а хороший архив должен думать про себя, что он вечный и лучше знает, как правильно.

РГАЛИ приблизился к полному покрытию каталога только в конце 10-х годов, и они были в относительно привилегированном положении

Яндексовский поиск по архивам срывает плоды с низких ветвей - гоняет OCR в основном по уже существующим оцифровкам самых востребованных источников типа ревизских сказок.

знаком с несколькими архивами, все там давно оцифровано

Точно всё? Или только то, что вы видели в оцифрованном виде? А со сколькими архивами вы знакомы? В мире оцифровано всего от 10% до 15% материвалов.

How Much of the World’s Knowledge Is Digitized and Searchable? - BTU AI

Морда есть, гуглится за 3 секунды. Возможно, неудачники, которые не нашли свой документ через веб, начинают писать письма с просьбой поискать нужное руками.

Нужно просто сделать обработку этих писем платной, и проблема решится :)

Я бы к веб морде ещё бы прикрутил LLM, фана ради на недельку другую. Замкнуть цикл так сказать.

Это будет сильно. На запрос по несуществующей книге LLM ее ... напишет

Вы думаете, люди которые отправляют такие запросы, будут использовать какой-то каталог? И даже если будут, то поверят этому каталогу, а не чатгыпыту? Жена работает в вузе, к ним все чаще приходят запросы типа "чатгпт сказал, что у вас есть такой-то курс, но я не могу найти это на сайте. Расскажите поподробнее". И частенько такие имейлы заканчиваются фразой "хочешь, я сформулирую этот текст более официально или наоборот повеселее?".

Теперь нужны верификаторы источников получается, инструменты (возможно, тоже на базе ИИ, как не иронично), которые будут проверять факты и ссылки по реальным, доверенным базам данных

по реальным, доверенным базам данных

По белым спискам.

Не надо обзывать рецензируемые научные публикации так грубо :-D

100%. Этакие вариант первичной редактуры. Как в раньше в серьезных изданиях - вот у тебя тут это, а покажи откуда дровишки то ...

ИИ DDOS-ит библиотеку

Скорее всего эти модели получают доступ в к полной реальности, где всё это существует. А мы живем в каком то промежуточном сумеречном мире, где не все предметы отрисовались.

Платон бы сказал что они получают доступ к модели (идеальный мир) и очень порадовался бы, так как считал что из нашего мира имитаций до модели ничем дотянуться нельзя. А многомиллиардная матрица LLM работает как антенна.

получается, OPEN AI под видом помощи программистам просто строят на все бабки какой-то огромный телескоп в платоновскую идеальную вселенную?

Holy Grail никогда не был так близок

Как же всё таки круто, что человечество научило бездушные компьютеры компульсивно врать, когда они не знают что сказать. Вот это я понимаю настоящий ИИ. Самое забавное, что нейронки набрались этого от своих создателей, которые тоже достаточно часто это делают

Не-е, они сами. Или, можно сказать, это общее свойство моделей вообще. Так же как любой метод интерполяции данных может соврать в «додуманных» точках, и даже скорее всего соврет.

А вот и неправда! Почти половина всего бредового поведения моделей происходит из alignment-тренинга, - дообучения, которое не только портит реколлинг из датасета, но и дает моделям неестественные свойства, в тч пессимизирует токены, связанные с отказом или <end of stream>

Та чебурашка, которая получается напрямую из больших данных, это instruct-стиль модель, которая в целом не умеет разговаривать, соглашаться или отказывать, только продолжать текст.

Сами построили чучело, сами его и победили.

Это ли не доказательство, что правительство скрывает очень много данных! Информация о различных секретных документах просочилась в интернет, и LLM при обучении ее запомнил, а теперь людям отказывают в доступе! (сарказм, если че)

Однако каков путь для рекламы всякой неизвестной фигни, если минимум 15% не делают даже первичного фактчекинга... В двери ИИ провайдеров уже наверное очередь из корпораций на небольшое редактирование выдаваемого контента, а Вы говорите пузырь, говорите не окупиться

минимум 15% не делают даже первичного фактчекинга

Кажется, про 15% — прям оптимистично.

Проблема цитат из интернета: их существование и достоверность никто не проверяет.

(c) В. И. Ленин

Кажется это мы уже проходили, когда работали с LLM без тулов и агентов. В этой ситуации библиотеке нужно опубликовать общедоступный MCP сервер, который бы по дефолту подключили популярные ЛЛМки. В итоге человек всегда будет запрашивать существующую книгу, но насколько она на самом деле будет релевантная ему - это уже другой вопрос.

Пока LLM-ки не научат говорить "информация не найдена" вместо галлюцинирования на произвольную тему - толку от таких действий не будет.

Да люди тоже не особо умеют "я не знаю" вовремя говорить, ИИ просто скопировал стыд неведения

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости