Comments 13
Японцы конечно зря так. Весь мир знает, что через жопу нужно учить дышать ежиков, а не крыс))
Как бы то ни было, новую модель научили «думать, прежде чем она откроет рот» – а что всё это значит, нам объяснит в новом лонгриде Котенков, конечно.
Как-то так
while true {
запрос = ПолучитьЗапрос()
запрос += "\n"
запрос += "отпиши решение по пунктам\n"
запрос += "не галлюцинируй"
ответ = ChatGPT4(запрос)
ошибка = ""
while !ошибка.содержит("ошибок не обнаружено") {
запрос_на_проверку = "был задан вопрос:\n"
запрос_на_проверку += запрос + "'\n\n"
запрос_на_проверку += "на который был дан ответ:\'n"
запрос_на_проверку += ответ + "'\n\n"
запрос_на_проверку += "проверь ответ и выдай все ошибки в ответе\n"
запрос_на_проверку += "не галлюцинируй"
ответ = ChatGPT4(запрос_на_проверку)
}
запрос_на_результат = "был задан вопрос:\n"
запрос_на_результат += запрос + "'\n\n"
запрос_на_результат += "на который был дан ответ:\'n"
запрос_на_результат += ответ + "'\n\n"
запрос_на_результат += "напиши резюме ответа без попунктового решения, так, как будто ты сразу на него ответил\n"
запрос_на_результат += "не галлюцинируй"
ответ = ChatGPT4(запрос)
ОтправитьОтвет(ответ)
}
Автор, новая o1 это не та модель, что про q*, пока никаких официальных подтверждений на этот счет нет. Не хватает слова "вероятно", а не утвердительного " та что q*".
Альтман с вами не согласен: https://x.com/sama/status/1835052587155902728
гляну
мой пойнт, был не в нейминге а в методологии обучения, тк q* для меня про qlearning like. Но пока нет техрепортов об этом , что о1 юзает для sft такой подход. Однако, q-learning , имхо, можно использовать для оптимизации выбора трейса в СоТ, для дерева рассуждений ТоТ, где СоТ это ветвь/трейс в нем.
Новый клубничный интеллект от OpenAI, а также охранная зондеркоманда Илона Маска