Comments 2
Так, в погоне за данными, LLM начнёт генерировать новые знания
и таким образом заменит науку.
На мой взгляд синтетические данные - это что-либо полученное соединением каких либо отдельных частей. Например, мы можем взять некоторые списки имён, фамилий, возрастов, названий городов и написать программу для генерации биографий. А затем обучить сеть на множестве таких текстов извлечению из неструктурированного текста нужные сущности и выдачу их в структурированной форме, например в виде JSON файла. Наверное есть множество задач, где такие синтетические данные будут работать даже лучше, чем тексты созданные людьми вручную.
Sign up to leave a comment.
Как нейросетям перестать бояться и полюбить «синтетику»