Pull to refresh

Comments 26

Ну вы молодцы, провели целое испытание, я всегда знал, но вот как, было интересно почитать

Честно и списком

Надо провести расследование, почему ИИ так сильно хочет всегда казаться честным и почему так любит списки. :D

  1. Так настроен

  2. Обучался на текстах в интернете, а у сеошников списки - обязательный атрибут любого текста

Формат списка снижает энтропию генерации и уменьшает шанс галлюцинаций. Модели проще удерживать контекст, когда каждый поинт логически изолирован

Это кстати справедливо и для человеческого интеллекта. Обожаю списки, таблицы и древовидные схемы - это же намного удобней для понимания и запоминания чем огромные полотна сплошного текста!

Тестировали ли вы влияние llms.txt на попадание в источники? Интересует именно уровень ретривала - помогает ли файл системе выбрать нужный фрагмент, или это работает только как сигнал индексатору задолго до генерации?

Нулевой - ни один ЛЛМ, кроме агентских, не смотрит этот файл

Конечно влияет) Модели видят этот файл, громко смеются над наивностью сеошников и идут дальше парсить реддит

Не совсем понятно, что вы вскрывали. Чатгпт если что-то ищет, она ищет на серверной стороне, а юзеру присылает только ссылки. Их и так видно в ответе. А вы что нашли? Что выдача не совпадает с тем что в голом бинг? Ну да, ллмка же это все прочитала и отфильтровала.
Поздравляю с открытием)

Это подтверждено статистикой

Давно использую DeepSeek в качестве поисковика по техническим вопросам. Выдача гораздо более релевантная, чем у гугла и подшакальников. ДакДак открываю, только когда ищу конкретный сайт или товар по уже известному названию.

Почему не Перплексити? Он даже в бесплатной версии лучше ищет.

Одинаково он ищет. А DeepSeek я просто использую для всего: для кодинга, проверки правописания и переводов в браузере, сортировки файлов по смыслу: ну вот и это заодно тоже.

Подскажите, почему когда ИИ ссылается на источник, то зачастую именно этой инфы там не обнаруживается? В оригинале обнаруживается нечто похожее, но иногда с обратным смыслом. Понятно, что это пресловутое ии-галлюционирование, но оно же должно быть в разумных рамках?

То же интересно, обнаруживал и у Перплексити и у Джемини и у Дипсика. Ссылка есть, но материала соответствующего ответу нет, а порой и ссылки такой не бывает вовсе.

Пользуюсь ChatGPT. Обращал внимание, что когда просишь источники он начинает очень глубоко копать в поиске ответа. Ремонтировал машину и попросил схему питания с источниками, чтобы не фантазировал. Так он мне выдал ссылку на статью 2003 года, которую по его словам нашел через какой-то форум и веб архив, просто так через поисковик попасть на сайт нельзя. К слову, статья была очень информативная и сильно помогла.

Угу, chatgpt жжёт в поиске, и видео проверит и форумы... Гугл, в отличие от него - вообще херню какую-то лепит, не проверяет нифига. Несколько раз было такое, что переключаешь гугловый ИИ в думающий режим и он выдает совершенно противоположный ответ, буквально - первый ответ начинается с "Yes, ....", второй, после переключения - "No, ...".

Сеошники нашли новую кормушку - теперь будут продавать клиентам шаманские обряды по оптимизации контента под массивы протобуфа джемини

откуда берутся «источники» в ответах

Изначально подумал, что в статье будет рассмотрено как работает цитирование с сайтов у чат-ботов (особенно после фразы "мы вскрыли трафик"). А оказалось, что это просто разбор запросов, которые приходят с сервера. Не хочу быть душным, но оно и так очевидно, что сервер присылает их. 🥲

Аналогично)

Анекдот про научную статью о примерно троекратной зависимости между диаметром муравейника и его периметром.

Возможно это сниппеты с поисковой выдачи по группе подзапросов к поисковику, релевантных запросу от пользователя.

  1. Разбиваем запрос пользователя на поисковые запросы

  2. Делаем переранжирование результатов

  3. Собираем "реферат" и отправляем пользователю.

На тарифе Tier 1 Google GenAI включено 5000 бесплатных запросов, потом $14 за 1000.

Выглядит ответ ИИ с включённым поиском примерно вот так:

{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": "Spain won Euro 2024, defeating England 2-1 in the final. This victory marks Spain's record fourth European Championship title."
          }
        ],
        "role": "model"
      },
      "groundingMetadata": {
        "webSearchQueries": [
          "UEFA Euro 2024 winner",
          "who won euro 2024"
        ],
        "searchEntryPoint": {
          "renderedContent": "<!-- HTML and CSS for the search widget -->"
        },
        "groundingChunks": [
          {"web": {"uri": "https://vertexaisearch.cloud.google.com.....", "title": "aljazeera.com"}},
          {"web": {"uri": "https://vertexaisearch.cloud.google.com.....", "title": "uefa.com"}}
        ],
        "groundingSupports": [
          {
            "segment": {"startIndex": 0, "endIndex": 85, "text": "Spain won Euro 2024, defeatin..."},
            "groundingChunkIndices": [0]
          },
          {
            "segment": {"startIndex": 86, "endIndex": 210, "text": "This victory marks Spain's..."},
            "groundingChunkIndices": [0, 1]
          }
        ]
      }
    }
  ]
}

Меня больше всего пугает, что ChatGPT иногда в источниках кидает ссылки на приватные видео на ютубе с несколькими просмотрами, доступ к которым только по ссылке.

Видать юзеры неосторожно поделились приватными ссылками и это всплыло в интернете? Ну, не первый раз :)

Копайте глубже и вы узнаете как выглядит api предоставляемый сервисами с которым любой может и так ознакомится. Разница только как разработчик реализовал прокладку на сервере ИИ и тут уже влияют политика, корпоративные тонконкости, а у кого свои личные представления каком виде конечному пользователю правильно.

В этом как раз разница. Использование API OpenAI и использование ChatGPT пользователем даёт разные результаты. А почему? Этот вопрос нас заставил полезть делать реверс-инжиниринг.

Sign up to leave a comment.

Articles