Comments 26
Ну вы молодцы, провели целое испытание, я всегда знал, но вот как, было интересно почитать
Честно и списком
Надо провести расследование, почему ИИ так сильно хочет всегда казаться честным и почему так любит списки. :D
Так настроен
Обучался на текстах в интернете, а у сеошников списки - обязательный атрибут любого текста
Формат списка снижает энтропию генерации и уменьшает шанс галлюцинаций. Модели проще удерживать контекст, когда каждый поинт логически изолирован
Тестировали ли вы влияние llms.txt на попадание в источники? Интересует именно уровень ретривала - помогает ли файл системе выбрать нужный фрагмент, или это работает только как сигнал индексатору задолго до генерации?
Не совсем понятно, что вы вскрывали. Чатгпт если что-то ищет, она ищет на серверной стороне, а юзеру присылает только ссылки. Их и так видно в ответе. А вы что нашли? Что выдача не совпадает с тем что в голом бинг? Ну да, ллмка же это все прочитала и отфильтровала.
Поздравляю с открытием)
Давно использую DeepSeek в качестве поисковика по техническим вопросам. Выдача гораздо более релевантная, чем у гугла и подшакальников. ДакДак открываю, только когда ищу конкретный сайт или товар по уже известному названию.
Подскажите, почему когда ИИ ссылается на источник, то зачастую именно этой инфы там не обнаруживается? В оригинале обнаруживается нечто похожее, но иногда с обратным смыслом. Понятно, что это пресловутое ии-галлюционирование, но оно же должно быть в разумных рамках?
Пользуюсь ChatGPT. Обращал внимание, что когда просишь источники он начинает очень глубоко копать в поиске ответа. Ремонтировал машину и попросил схему питания с источниками, чтобы не фантазировал. Так он мне выдал ссылку на статью 2003 года, которую по его словам нашел через какой-то форум и веб архив, просто так через поисковик попасть на сайт нельзя. К слову, статья была очень информативная и сильно помогла.
Угу, chatgpt жжёт в поиске, и видео проверит и форумы... Гугл, в отличие от него - вообще херню какую-то лепит, не проверяет нифига. Несколько раз было такое, что переключаешь гугловый ИИ в думающий режим и он выдает совершенно противоположный ответ, буквально - первый ответ начинается с "Yes, ....", второй, после переключения - "No, ...".
Сеошники нашли новую кормушку - теперь будут продавать клиентам шаманские обряды по оптимизации контента под массивы протобуфа джемини
откуда берутся «источники» в ответах
Изначально подумал, что в статье будет рассмотрено как работает цитирование с сайтов у чат-ботов (особенно после фразы "мы вскрыли трафик"). А оказалось, что это просто разбор запросов, которые приходят с сервера. Не хочу быть душным, но оно и так очевидно, что сервер присылает их. 🥲
Аналогично)
Анекдот про научную статью о примерно троекратной зависимости между диаметром муравейника и его периметром.
Возможно это сниппеты с поисковой выдачи по группе подзапросов к поисковику, релевантных запросу от пользователя.
Разбиваем запрос пользователя на поисковые запросы
Делаем переранжирование результатов
Собираем "реферат" и отправляем пользователю.
На тарифе Tier 1 Google GenAI включено 5000 бесплатных запросов, потом $14 за 1000.
Выглядит ответ ИИ с включённым поиском примерно вот так:
{
"candidates": [
{
"content": {
"parts": [
{
"text": "Spain won Euro 2024, defeating England 2-1 in the final. This victory marks Spain's record fourth European Championship title."
}
],
"role": "model"
},
"groundingMetadata": {
"webSearchQueries": [
"UEFA Euro 2024 winner",
"who won euro 2024"
],
"searchEntryPoint": {
"renderedContent": "<!-- HTML and CSS for the search widget -->"
},
"groundingChunks": [
{"web": {"uri": "https://vertexaisearch.cloud.google.com.....", "title": "aljazeera.com"}},
{"web": {"uri": "https://vertexaisearch.cloud.google.com.....", "title": "uefa.com"}}
],
"groundingSupports": [
{
"segment": {"startIndex": 0, "endIndex": 85, "text": "Spain won Euro 2024, defeatin..."},
"groundingChunkIndices": [0]
},
{
"segment": {"startIndex": 86, "endIndex": 210, "text": "This victory marks Spain's..."},
"groundingChunkIndices": [0, 1]
}
]
}
}
]
}Меня больше всего пугает, что ChatGPT иногда в источниках кидает ссылки на приватные видео на ютубе с несколькими просмотрами, доступ к которым только по ссылке.
Копайте глубже и вы узнаете как выглядит api предоставляемый сервисами с которым любой может и так ознакомится. Разница только как разработчик реализовал прокладку на сервере ИИ и тут уже влияют политика, корпоративные тонконкости, а у кого свои личные представления каком виде конечному пользователю правильно.
Мы вскрыли трафик ChatGPT, Gemini и DeepSeek, чтобы понять, откуда берутся «источники» в ответах