Тексты пишутся соискателями которые прошли базовые тесты на знание языка, фактчекинг, этику, ранжирование. Это значит что тексты с высокой вероятностью будут иметь уровень качества сопоставимый с уровнем на котором пишут штатные AI-тренеры. Так что их вполне можно использовать как заготовки, которые после небольшой коррекции можно использовать для обучения. AI-тренеру не придется писать текст с нуля, и это значительно сэкономит ему время. Но это в теории. На практике соискателей не так уж много, и кинуть каждого можно только однажды. Много текстов такой эксплуатацией не получишь, а репутация работодателя серьезно пострадает. Так что вряд ли это развод на бесплатный труд.
Когда я понял, что поиском по смыслу в базе данных куда я положил все мои записи из лга не дает мне нужной мне точности
Сначала нужно обучить AI. Первоначальная задача AI заключается в сортировке записей (используя LLM), и объединении их в группы по родственным синтетическим признакам (параметрам). В результате оператор увидит список названий групп. Название группы должно отражать содержание тех записей, которые AI объединил в группу. Оператор видит список групп, и статистику по каждой группе. Определить смысл, общий для всех записей в данной группе - это уже задача оператора. Открывая каждую группу, и просматривая записи, оператор решает насколько верно AI определил их схожесть. Чтобы смысл (который видит оператор) и набор синтетических признаков (которые видит AI) совпадали - нужно обучение.
После обучения, используя обобщенные имена событий, можно будет формулировать запросы к AI в произвольной форме. AI идентифицирует события зафиксированные в логах, вычислит статистику, и выполнит скрипт для обработки данных. Скрипт лучше написать самому. Можно конечно обучить AI на реальных логах, но обучение может занять много времени, и очень высок риск галлюцинаций. И кроме того, все возможные события которые AI должен будет определять, должны быть зафиксированы в логах на момент обучения.
LLM оправдано применять для парсинга логов только если записи в логах не стандартизированы, и выполняются в произвольной форме.
Тексты пишутся соискателями которые прошли базовые тесты на знание языка, фактчекинг, этику, ранжирование. Это значит что тексты с высокой вероятностью будут иметь уровень качества сопоставимый с уровнем на котором пишут штатные AI-тренеры. Так что их вполне можно использовать как заготовки, которые после небольшой коррекции можно использовать для обучения. AI-тренеру не придется писать текст с нуля, и это значительно сэкономит ему время. Но это в теории. На практике соискателей не так уж много, и кинуть каждого можно только однажды. Много текстов такой эксплуатацией не получишь, а репутация работодателя серьезно пострадает. Так что вряд ли это развод на бесплатный труд.
Нержавеющая сталь - это не свойство материала, а результат бережного ухода. Илон Маск.
Сначала нужно обучить AI. Первоначальная задача AI заключается в сортировке записей (используя LLM), и объединении их в группы по родственным синтетическим признакам (параметрам). В результате оператор увидит список названий групп. Название группы должно отражать содержание тех записей, которые AI объединил в группу. Оператор видит список групп, и статистику по каждой группе. Определить смысл, общий для всех записей в данной группе - это уже задача оператора. Открывая каждую группу, и просматривая записи, оператор решает насколько верно AI определил их схожесть. Чтобы смысл (который видит оператор) и набор синтетических признаков (которые видит AI) совпадали - нужно обучение.
После обучения, используя обобщенные имена событий, можно будет формулировать запросы к AI в произвольной форме. AI идентифицирует события зафиксированные в логах, вычислит статистику, и выполнит скрипт для обработки данных. Скрипт лучше написать самому. Можно конечно обучить AI на реальных логах, но обучение может занять много времени, и очень высок риск галлюцинаций. И кроме того, все возможные события которые AI должен будет определять, должны быть зафиксированы в логах на момент обучения.
LLM оправдано применять для парсинга логов только если записи в логах не стандартизированы, и выполняются в произвольной форме.