Как стать автором
Обновить

Комментарии 14

Там на презентации привели пример с подбором лыж и восторгались километровой простынёй, которую выдала модель. Ну, не знаю даже. Обзоров наверняка и так много, но вот читать только текст и не иметь возможности взглянуть на фотографии - явно недостаточно для выбора лыж. Так что всё равно придётся ходить по ссылкам. То же можно сказать и о многих других направлениях исследований. Не показали примеров генерации схем, графиков, значит она пока такое не умеет и применимость довольно ограниченна. Даже Perplexity выдаёт изображения для наглядности.

>>но смущает "with browsing and python tools". Ну то есть, AI смог пройти экзамен, и при этом мог... гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.

А чего смущаться то. Инструмент "гугления" для Instruct-моделей с поддержкой function calls (tools) давно существует, этот browser-use:

https://github.com/browser-use/browser-use

Другой вопрос, что поскольку модель "не понимает что творит", она немного напоминает мартышку и очки. То есть модель пишет команды "пойти на такой-то сайт" (браузер идёт), нажми там на такую-то кнопку (браузер нажимает), но поскольку у модели нет мозгов, а лишь способ "генерации логических цепочек текста", она лишь "имитирует намерения", а не "выражает какую-то реальную осмысленную цель" этими действиями ) Из-за этого модель часто оказывается в тупике, когда "что-то пошло не так", а она не понимает что с этим делать.

вы уж простите меня, но вы про browser-use пишете автору единственной статьи про browser-use на Хабре)) https://habr.com/ru/articles/875798/
я знаю про этот инструмент :) более того, у OpenAI есть свой аналог, который они используют в Operator. насколько я могу судить по презентации - в Deep Research используются решения на основе парсинга, а не полноценная эмуляция браузера (делаю вывод из скорости работы).

что касается "не понимает, что творит" - тут вопрос философский, и во многом про то, что мы считаем интеллектом) я работаю с агентскими системами ежедневно, и в том числе разрабатываю их ежедневно. как по мне - многоступенчатые агенты с автономностью не только в том "какие шаги совершать", но и "что считать результатом" и "как к нему прийти", и "пришли ли мы к нему уже" - такой же (а может и лучше) процесс мышления, как у большинства людей.

[upd] я не ответил на саму суть вашего комментария. "А чего смущаться то" - меня смутило не то, что модель браузер юзает, тут нет ничего необычного. меня смутило, что её тестили на прохождение экзамена, и при этом дали ей гуглить, то есть запрашивать ответы во внешнем мире. это выглядит как абсурдный способ проверки компетенции модели.

>> как по мне - многоступенчатые агенты с автономностью не только в том "какие шаги совершать", но и "что считать результатом" и "как к нему прийти", и "пришли ли мы к нему уже" - такой же (а может и лучше) процесс мышления, как у большинства людей.

Можете посоветовать какие конкретно модели лучше использовать для таких агентских режимов?

А - для локального запуска (своя LLM, как из библиотеки Ollama)

Б - для запуска под управлением большой веб LLM

DeepSeek-R1, насколько я понял, пока из-за отсутствия "претрейна" для tool using пока нормально не работает с этим (может работать, но только если повезет и промпт входной будет удачный).

зависит от мощности локальной машины) если llama локально поднять можете - то она вполне хороша. Qwen2.5-14b норм, да и 7b сойдёт для простых задач. в целом, любые instruct-модели, которые нормально умеют дергать тулы.

если через интернет - то, конечно, 4o/sonnet. я больше люблю 4o, 90% задач закрываю даже через 4o-mini (обработка инфы, суммаризация, etc), но принятие решений доверяю 4o.

R1 тут пока да, не имеет instruct-заточки, из-за чего не совсем подходит.

С 24 GB vram вы можете вполне запустить Qwen2.5-Coder-32B-Instruct в 4-5 кванте. Погуглите koboldcpp, там есть и бек и фронт в одном флаконе, все весьма интуитивно и в целом больше ничего не надо, но если захочется за место вебморды кобольда можно поставить sillytavern, мануалов по работе с ними в интернете вагон и маленькая тележка.

Насколько знаю, бенчмарк HLE создавался специально таким образом, чтобы ответы на него нельзя было нагуглить. Да и гуглить, искать на Stack Overflow ещё тоже надо уметь, так что качество запросов к поисковым системам очень важно. Больше тут, ИМХО, смущает упоминание Python tools: получается, что модель проходила экзамен, грубо говоря, с калькулятором.

Меня удручает довольно глобальная проблема – Deep Seek оказалось не только не полноценной нейросетью, которая к тому же обучена на данных с чужих нейронок, а следовательно способна испытывать те же проблемы, что и другие, так при этом, Deep Seek оказалась и дырявой по безопасности. Но все почему-то яро игнорируют этот факт, хотя статьи на эту тему есть уже и в русскоязычном интернете, хватает даже загуглить в Чате ЖПТ, если сами не умеете искать информацию.

Всё это либо компания Китая по пропаганде своего детища, либо здесь в очередной раз сыграл популизм, что присущ людям. Я прям диву даюсь, когда кто-то Deep Seek-ом продолжает пользоваться, интегрирует его в свои проекты, разворачивает локально... Вы же все потом будете ныть, когда абсолютно из каждого утюга начнут говорить о дырявости иишки.

господи прости, вы бот что ли? мало того, что написана бессвязная чушь, где теплое соединили с мягким (1 - DeepSeek R1-Zero - полноценная модель, 2 - её никто не взломал, нашли дырку в интерфейсе приложения DeepSeek, а не в самой модели, ито данные с дырки, насколько мы знаем, не утекли). так самое главное - это всё написано под статьёй, которая вообще к DeepSeek не имеет никакого отношения.

[upd] полистал другие ваши комменты. вы не бот, но, в целом, вопросов больше не имею.

Да, я бот. Бойся меня, о неженка! Потому-что я приду за тобой ночью и укушу тебя за бочок... :З

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости