Search
Write a publication
Pull to refresh
2
0

Пользователь

Send message

Добрый день! Да, все верно. Действительно непредсказуемые ответы от LLM могут быть ) Может «не досказать». Или может супер-буквально процитировать введение стандарта. Как рабочий вариант, векторный поиск нужен в тех случаях, когда не известно точное словосочетание. Очень часто в нормативке приходится искать смысл, а не конкретные слова. Вот, кстати, эти два способа можно совместить в более сложном решении.

Сейчас все, кому не лень прикручивают себе ИИ агенты. Может быть и SO стоит подумать над такой идеей. Не простейший RAG конечно, а что-то поинтереснее. Вполне вероятно, что-то бы и вышло. Например, ИИ-функционал отсеивал бы вопросы (или давал рекомендации), не соответствующие правилам/не ясные или сразу давал ответы, если вопрос очень простой и зависит только от Гугла. Проверка текста,написанного не носителями - тоже вариант. Преимуществом SO перед чистым GPT будут, например - новейшие базы знаний по версиям документации и технологий (то для чего делают дообучение или RAG). И это можно позиционировать, как синергию человека и ИИ. Наверное, подумали и раз SO - партнеры с OpenAI, вероятно есть какие-то более оптимистичные варианты развития событий и ничего не нужно ничем посыпать )

Можно, но сами авторы часто меняют свои страницы, меняют контент, делают редиректы. Вот например ранние страницы о Хабре, но с новым актуальным контентом:

Проблема сложная. Однако есть надежда, что она решится сама собой, благодаря деградации при обучении на генеративном контенте. Если первые LLM обучали на материалах, созданных человеком, то теперь собирать такие материалы в сети сложнее. По крайней мере, на общие тематики или на какие-то темы в области гуманитарных наук. В этих сферах фейк сделать легко, а верифицировать его объективной математикой сложно. Объем генерируемой базовой информации, годной для хорошей тренировки или донастройки LLM, делается все также человеком и увеличение этого объема имеет конечную скорость.

По опыту работы со сгенерированным контентом для SEO, могу сказать, что на данный момент, выпуск новых версий GPT, Claude, Gemini во-первых, - происходит недостаточно часто, чтобы не заметить речевые обороты LLM при плотной работе со сгенерированным контентом, а во-вторых, - качество генерируемого контента уже не растет так же удивительно как раньше и функционал улучшается за счет подачи пользователю правильных инструментов промптинга или мультимодальности.

Основной метод борьбы с выдачей генерированного контента - более сложные запросы. Во всех упомянутых примерах, в запросах не было чего-то такого, что Гугл бы взял за базу для формирования "намерения" пользователя. Поэтому ключи помогли, также бы помогла модификация запроса например "John Wick: Chapter 5 Release Date".

Доброго времени суток! Я выбирал классификаторы, которые могут дать тот же результат с точки зрения точности. Они может быть, не самого высокого уровня, но результат дают корректный и обучаются гораздо быстрее, чем нейронная сеть. А в результате тестовых запусков, получается, что рост длительности тренировки становится больше чем рост числа входных тренировочных данных. Насчет временной сложности LGBM/CatBoost, думаю что я рассмотрел бы в какой-то следующей статье. Не разбирался пока, можно ли здесь редактировать то, что промодерировано.

Information

Rating
Does not participate
Location
Россия
Registered
Activity