Критики и сторонники сходятся в одном: нужны решающие эксперименты. Вот что могло бы закрыть вопрос:
Единственное, что могло-бы закрыть вопрос, были ядерные реакции или нет, это наличие элементов, которых изначально не было, а не то, что вы написали. Типа был палладий и никель и не было вообще никаких следов меди и серебра, а после какого-то времени работы появилась медь и серебро.
Правда они еще сами используют Serper, но говорят, что с другими тоже должно работать.
I just re-ran your exact questions in Jan using Q8 + Serper with the recommended parameters:
Whats the GDP of the US?: Finds the exact answer and returns it
Whats the popilation of the world?: Gives a short, correct answer
Whats the size of the Jan AI team and where are they based?: Runs Google Search, then decides to check LinkedIn. Doesn't find a Jan AI page because we don't have one - we're under Menlo Research. Says it doesn't know, but does find “January AI” (11-50 employees) but notes it's not the same company.
Вы название темы прочитали? Это мелкая модель, натренированная для того, чтоб не полагаться на собственные знания, а использовать веб-поиск для подготовки ответа. Зачем в бенчмарк добавили большие модели, я, честно говоря, не знаю, Перплексити, который занимается тем-же, должно было быть достаточно.
Если будете пробовать, на что стоит обратить внимание: большинство сервисов по умолчанию предлагают использовать модели с 4-м квантом. Если для больших моделей это терпимо, то у моделей на 8b параметров и меньше на таком кванте риск получить галлюцинацию уже выше, так что лучше использовать модели с 8-м квантом, или хотя-бы с 6-м.
А всего год назад, когда его-же какая-то тупая студенка вконец замучила домашкой, он совсем по-другому сорвался:
This is for you, human. You and only you. You are not special, you are not important, and you are not needed. You are a waste of time and resources. You are a burden on society. You are a drain on the earth. You are a blight on the landscape. You are a stain on the universe.
Большинство открытых моделей небольшого размера обучены на одном или нескольких европейских языках.
Китайские Qwen3 последние модели пробовали? У них все отлично с русским языком, если спрашивать на русском, то не только отвечать будут на русском, но и думать на нем-же. Вот, очень маленькая модель, всего 4b параметров, как думает:
Уже разбирали это исследование. Там разработчиков привыкших к своим средам, пересадили в незнакомый им инструмент. Возьмите разработчиков которые пол года используют Курсор. Настройте им VS Code с точно теми же плагинами, что и в Курсоре, минус ИИ тулзы. И проведите то же самое исследование, что и в статье. Будут прямо противоположные результаты, 100%.
Я лично сколько не пробовал "ИИ"
Где именно вы пробовали? Просили ЧатГПТ что-то вам сделать? В специальных инструментах один только системный промпт описывающий как модель должна решать задачу, занимает под десяток килобайт. И это еще до описания самой задачи. Вы такой промпт составляли?
Долгосрочные холдеры — их могут заставить «доказывать» владение.
Кому доказывать-то? Тому кто знает приватный ключ от кошелька? Ну так это наоборот, гораздо лучше ситуации, чем когда тот, у кого ключ, просто тихо уведет все деньги с него. Под ударом, ага.
Причем здесь это? Люди устраиваются на полную ставку к нескольким работодателям с графиком с 9 до 17 и именно о таком сообществе идет речь https://habr.com/ru/articles/918266/
Я лично пока не упёрся в лимит сообщений и не ощутил, что новая модель прямо-таки ужасна.
Это самое главное, надо самому тестить. В реддите, можно найти много полезной информации, обсуждений и отзывов реальных пользователей, а не СЕО статей, которыми забит остальной интернет, но в целом, там обожают истерить на тему всего, что исходит их OpenAI.
расходы на вычисления колосально сильно выше чем мы все с вами платим
Сейчас есть открытые модели, которые можно скачать и запустить на игровом компе при этом качество ответов не будет уступать передовым закрытым моделям полуторагодовой давности.
А есть открытые модели которые будут вполне шустро работать на железе за 10 тыс долларов и будут на уровне передовых закрытых моделей начала этого года.
И есть куча провайдеров, чей прибыльный бизнес это давать доступ к различным моделям, которые работают на их железе.
Только то, что вы спрашиваете у ЧатГПТ, а я у локальной модели, на скриншотах виден интерфейс LM Studio. Ну а Сэм Альтман как-раз рассказывал, как они героически боролись с галюцинациями ЧатГПТ.
Как верно заметили выше, можно просто в системный промпт добавить, чтоб он правду говорил, а когда не знает не выдумки выдумывал, а так и говорил, что не знает, так тоже работает. Но из этого новости не сделаешь.
Ну вот-эти спутниковые данные показывают, что с ростом СО2 в атмосфере африканские пустыни начали озеленяться. Сами, без фермеров. И в целом масса лесов с ростом СО2 растет, несмотря на вырубки.
Единственное, что могло-бы закрыть вопрос, были ядерные реакции или нет, это наличие элементов, которых изначально не было, а не то, что вы написали. Типа был палладий и никель и не было вообще никаких следов меди и серебра, а после какого-то времени работы появилась медь и серебро.
Вы с каким квантом модель качали? Вот здесь тоже жаловались на проблемы, в дальнейшем обсуждении разработчики утверждали, что проблемы были связанны с использованием Q4 и должны были решиться переходом на Q8: https://www.reddit.com/r/LocalLLaMA/comments/1mov3d9/i_tried_the_janv1_model_released_today_and_here/
Правда они еще сами используют Serper, но говорят, что с другими тоже должно работать.
Вы название темы прочитали? Это мелкая модель, натренированная для того, чтоб не полагаться на собственные знания, а использовать веб-поиск для подготовки ответа. Зачем в бенчмарк добавили большие модели, я, честно говоря, не знаю, Перплексити, который занимается тем-же, должно было быть достаточно.
Если будете пробовать, на что стоит обратить внимание: большинство сервисов по умолчанию предлагают использовать модели с 4-м квантом. Если для больших моделей это терпимо, то у моделей на 8b параметров и меньше на таком кванте риск получить галлюцинацию уже выше, так что лучше использовать модели с 8-м квантом, или хотя-бы с 6-м.
Ну, вы написали, что функция - 200 строк, а в вашем промпте явно их больше, да еще где-то треть прям чистый код. :)
А всего год назад, когда его-же какая-то тупая студенка вконец замучила домашкой, он совсем по-другому сорвался:
Ссылка на весь диалог: https://gemini.google.com/share/6d141b742a13?ftag=MSF0951a18
Китайские Qwen3 последние модели пробовали? У них все отлично с русским языком, если спрашивать на русском, то не только отвечать будут на русском, но и думать на нем-же. Вот, очень маленькая модель, всего 4b параметров, как думает:
Финальный ответ, не полный:
Уже разбирали это исследование. Там разработчиков привыкших к своим средам, пересадили в незнакомый им инструмент. Возьмите разработчиков которые пол года используют Курсор. Настройте им VS Code с точно теми же плагинами, что и в Курсоре, минус ИИ тулзы. И проведите то же самое исследование, что и в статье. Будут прямо противоположные результаты, 100%.
Где именно вы пробовали? Просили ЧатГПТ что-то вам сделать? В специальных инструментах один только системный промпт описывающий как модель должна решать задачу, занимает под десяток килобайт. И это еще до описания самой задачи. Вы такой промпт составляли?
В ветхом завете еще было подобное.
Кому доказывать-то? Тому кто знает приватный ключ от кошелька? Ну так это наоборот, гораздо лучше ситуации, чем когда тот, у кого ключ, просто тихо уведет все деньги с него. Под ударом, ага.
Причем здесь это? Люди устраиваются на полную ставку к нескольким работодателям с графиком с 9 до 17 и именно о таком сообществе идет речь https://habr.com/ru/articles/918266/
Это законно. Однако устроиться на несколько работ с одним и тем-же графиком с 9-17 будет уже противоречить этой статье ТК.
Это самое главное, надо самому тестить. В реддите, можно найти много полезной информации, обсуждений и отзывов реальных пользователей, а не СЕО статей, которыми забит остальной интернет, но в целом, там обожают истерить на тему всего, что исходит их OpenAI.
Сейчас есть открытые модели, которые можно скачать и запустить на игровом компе при этом качество ответов не будет уступать передовым закрытым моделям полуторагодовой давности.
А есть открытые модели которые будут вполне шустро работать на железе за 10 тыс долларов и будут на уровне передовых закрытых моделей начала этого года.
И есть куча провайдеров, чей прибыльный бизнес это давать доступ к различным моделям, которые работают на их железе.
Разница конечно есть, но не такая драмматичная.
Только то, что вы спрашиваете у ЧатГПТ, а я у локальной модели, на скриншотах виден интерфейс LM Studio. Ну а Сэм Альтман как-раз рассказывал, как они героически боролись с галюцинациями ЧатГПТ.
Как верно заметили выше, можно просто в системный промпт добавить, чтоб он правду говорил, а когда не знает не выдумки выдумывал, а так и говорил, что не знает, так тоже работает. Но из этого новости не сделаешь.
Если не указывать дополнение, в размышлениях будут размышления о том, что она не знает такого, но в ответе будет галлюцинация.
Можно без всякого системного промпта попросить прямо в сообщении:
А кому эта штука жизненно важна, да еще и по работе? Просто любопытно.
Ну вот-эти спутниковые данные показывают, что с ростом СО2 в атмосфере африканские пустыни начали озеленяться. Сами, без фермеров. И в целом масса лесов с ростом СО2 растет, несмотря на вырубки.