Точно ей одной? А не автором с использованием "нейронки"? Это же совсем другое. Мы ведь не требуем ручкой шариковой писать вместо печати на клавиатуре.
Это так кажется. На практике - путь к разорению в текущих условиях. Потеряете всех клиентов, сейчас как раз идёт захват рынка. И тупо денег может не хватить на разработку, не продавая результат.
Если серьёзно, то отличная статья, спасибо! И очень хорошо подобран уровень утверждений. Не "я раскрыл мировой заговор, все бежим на свои фермы!!!", а "вот вам факты и предположения, задумайтесь".
пользователь - мешок с мокрым мясом, а не поверенный инструмент.
Цифры на бенчмарках те же
Так и бенчмарк не является поверенным инструментом. Масса подкруток, утечек данных, манипуляций. В то же время "сигнал из реальной эксплуатации" (in-the-wild feedback) - важный показатель. "Тихие сбои" как раз он ловит. Он тоже не идеален, как и бенчмарк, но автор и не утверждает это.
То есть, то что Вы описываете - существует, но это не опровергает важность данного показателя (в идеале его, конечно, надо поверять слепыми A/B тестами и прогонять через LLM-судью).
Яндекс обещал полноценный ролаут такси в Москве в 2027 на своей конфе.
Примерно как говорит доктор в анекдоте: "И Вы обещайте". И что это за "полноценный" такой:-)? Несколько десятков такси внутри спального района с хорошей разметкой?:-) Так это не "полноценный". Или не roll-out. И, кстати, кто, когда и что конкретно сказал, а главное, как Яндекс за это ответит? :-) Ниже в другом моём комментарии я более подробно написал, почему "полноценное" чисто технически сейчас получить крайне маловероятно.
Здравствуйте:-) 1) Ясно по VPN, спасибо. Возможно, имело смысл сразу это отметить в цитируемой фразе, например, добавив в конце её "(Я привожу в статье примеры инструментов, через все работаю без VPN)".
2) Вы обещаете изначально рассказать про AI / ИИ, а далее резко уменьшаете область до LLM. И, судя по Вашему ответу, на интуитивном уровне LLM и AI у Вас тождественны друг другу, хотя LLM есть лишь неумеренно разросшееся подмножество AI, при этом без особых шансов стать AGI:-). Я, например, ожидал бы после такого обещания увидеть сравнение принципиально ограниченных LLM с RC (Reservoir Computing) и т.д. Но тогда статью "раздует" до серии статей, отсюда и комментарий про "возможности".
Я не использовал термин "спорно" (= "ощущение неверности изложенного"). Я использовал: "нестандартно" (= "LLM или я изложили бы по-другому"). И сделал это для приведения дополнительного аргумента, что текст с очень большой вероятностью написан Вами, а не LLM.
Не вижу смысла тут спорить:-) И заниматься вербализацией моего ощущения - тоже. Если интересно, как LLM написала бы Вашу статью, можете её в неё загрузить и попросить "стандартизовать":-)
Да не особо на ИИ генерацию похоже. И типичные штампы в глаза не лезут, и текст читаемый, и структура построения / разбиения в статье не очень стандартна для ИИ (она вообще немного нестандартна, на мой вкус:-), но это как раз видение живого автора).
надоела маска «волшебства» вокруг ИИ, хочется смахнуть ее и рассмотреть инструмент предметно: как устроен, какой бывает, через что с ним работать без VPN из России. .
Я так понимаю, что желание у автора разошлось с возможностями:-) Вместо рассмотрения ИИ рассматриваются, в основном, LLM, а "через что с ним работать без VPN из России" вообще напоминает "тут могла бы быть Ваша реклама", так как отсутствует:-) (хотя эта часть достаточно инородно тут выглядела бы, так что не особо страшно). Лучше, чтобы не было расхождения ожидаемого с получаемым у читателя.
А Вы поинтересуйтесь начальными планами Яндекс, к какому сроку они ожидали, что автовождение будет:-) Если не ошибаюсь, это был примерно 2013 (там как раз по пустыне машины сами смогли ездить уверенно. И тогда же один уважаемый мной учёный, занимавшийся ИИ, сказал мне, что проблему предсказания поведения человека на дороге будет на текущем уровне ИИ не решить. Я не очень поверил в такое, был очень оптимистичен. И где-то в 2018, как помню, технический директор Яндекс сообщил, что так и нет пока автовождения, так как поведенческое прогнозирование оказалось неожиданно очень сложным, т.е. случилось ровно то, что мне предсказали. И вот мы в 2026 обсуждаем "ну, ещё чуть-чуть":-)
будет много мест, где довольно скоро будем ездить лучше среднего водителя такси.
"лучше среднего водителя такси" (невыспавшегося специалиста из ближнего зарубежья в экономе:-) - не тот критерий, на основании которого можно запустить такси без пилота в крупных городах в экономически выгодных объёмах. Полноценное автовождение должно бы быть где-то на уровне "20 лет безаварийного вождения в бизнес-классе".
И также добавлять human in the loop
И где наш уровень 5 тогда или даже 4 (высокая автоматизация - полная автономность в заданной зоне)? А случае такси уровень 3 (с требованием вмешательства пилота) даже юридически вряд ли пропустят.
С ремонтами и ямами все это в целом делается.
Проблема не в том, что "делается", а в том, что "не получается надёжно". Мы продолжаем слышать истории, как кто-то в них угодил. Как раз Waymo в июне отличился, хорошо, что в яму не попал и даже от погони полиции ушёл:-)). Аж в New York Post писали.
У трансформера скорее всего будут свои специфичные ошибки... чтобы можно было сделать полезный и безопасный сервис, у которого будут свои преимущства тоже.
Вы сами себе противоречите. Потому что в Вас технический эксперт с сотрудником Яндекс и (вероятно) энтузиастом спорит. Со "специфичными ошибками" Вы не сможете сделать "безопасный" сервис.
Что сделать есть шансы, так это что-то, что будет иметь меньше аварий, чем "средний водитель такси", и будет стоить меньше. Но иногда будет убивать людей в ситуациях, когда живой водитель бы этого не сделал. Экономически это будет выгодно (вот оно - основное "преимущество"). Этически - спорно. Удастся ли такое провести законодательно в России - увидим... Но я лично предпочту невыспавшегося водителя, от которого я могу отказаться, чем автопилот, который не останавливается, даже когда ему пассажир кричит "стоп!" (всё тот же июньский инцидент).
И при этом я все же мечтаю увидеть и реально безопасный уровень 4, и полноценный уровень 5. Только, подозреваю, не на бессознательных трансформерах это будет.
Спасибо за подробное изложение. Как понимаю, автоводителя, которому доверять можно, не менее, чем профессиональному водителю, ещё долго не увидим. Вполне возможно, до появления AGI.
RL в Closed Loop даёт качественный скачок, но не решает всех задач — лишь открывает дорогу к новым направлениям, которые требуют отдельного внимания.
Я как раз об этом:-)
у нас есть статическая геометрия — HD‑карта. В отличие от остальных входов, карта — пространственная структура, не зависящая от времени. В ней заранее известны границы дорог, линии разметки, центры полос и топология движения, ограничения скорости, приоритеты и другие атрибуты.
А далее на дороге вырывают яму (и хорошо, если заранее знак "ремонтные работы" поставят), так что и от времени она начинает зависеть, и "известность заранее" пропадает. И тут нам нужно великолепное распознавание образов, которого у нас и так нет (великолепного), а у нас ещё и время на это распознавание критично ограничено.
Редкие и потенциально опасные ситуации почти не встречаются в реальных логах, поэтому поверх небольшого количества таких эпизодов мы генерируем их вариации: меняем локацию, количество агентов, конфигурацию движения.
Но так все возможные глупости, которые человек сотворить может, не сгенерировать, то периодически будем получать совершенно "глупые" ошибки у нашего трансформера, который будет сталкиваться с чем-то, что сгенерировать для него не догадались.
METR - не чисто прикладное исследование. Важны не конкретные цифры, а обнаруженные проблемы и по факту внедрённый стандарт методологии. Так что оно в этой части и не устарело, и в целом говорит о многом:-) Аналогично и статья автора.
А что ситуация будет меняться и проблемы будут уходить, это и так ясно.
Спасибо автору за такой интересный обзор. Жаль, что из профиля не ясно, какой у автора круг экспертизы (просто часто интересно, а что автор за человек:-).
Отмечу, что по всей статье идет термин "ИИ", хотя с большой вероятностью это всё про LLM. Кардинально на вопрос автора: "Что со всем этим делать" ответ должен быть: "Не слишком увлекаться БЯМ и развивать AGI":-)
Но и в логике работы с LLМ значительная часть описанного со значительной вероятностью является следствием "детских болезней" (например, "чем плотнее люди работают с ИИ, тем меньше ему верят"), которыми пока не особо занимались. При дальнейшем развитии направления большАя часть проблем должна уйти (пример: "ИИ умеет писать осмысленные тесты, если его на это специально нацелить через mutation score"), в том числе и благодаря подобным статьям. Правда, учитывая, что это не AGI, ключевая проблема "у LLM нет понимания", скорее, никуда не денется и будет ограничивать результат.
Относительно "Универсальной метрики нет" - она есть. Это деньги. Выгоднее ли с ИИ писать, или нет. Вопрос в том, как в неё включить риски, чтобы она не оказалась красивой в моменте и с потерями через пять (а то и два) года (возвращаемся к началу статьи "Представьте свою команду через пару лет").
С вводом ИИ число таких ложноположительных срабатываний увеличилось согласно моему личному опыту (настаивать на этом утверждении не буду, это не так важно). Я потому и написал, что важнее чтобы банк хотел и был способен быстро исправить такую ситуацию. А заметьте, что даже Вы отвечаете: "ну, что ж поделать, зато мы миллионы спасаем". :-)
Ситуация, кстати, похоже повторилась вскоре в другом банке, но вот там за несколько минут исправили её после звонка. Т.е. это вполне выполнимо, потому и предлагаю.
У автора отсутствуют какие-либо упоминания о финансовой стороне вопроса и ряде других практических моментов. Дополню несколькими (их больше):
1) Выясните, сколько придется заплатить за участие в конференции/публикацию, сколько будет стоить поездка. Может оказаться неприятным сюрпризом. Определите, кто за это платить будет (Ваш работодатель, Сбербанк:-), Вы сами). 2) Оцените своё знание иностранного языка для общения на конференции. Вариант: удобно ли будет через автопереводчик общаться? 3) Решите, а хотите ли вы поехать в страну, проводящую конференцию. Как минимум, посмотрите рекомендации МИД. 4) Дополните этот список тем, что ещё для Вас важно.
По результатам подумайте, а точно вам надо вкладывать время и средства ради плюсов, описанных в "Зачем подавать свою статью на конференции?" Если точно надо - уверенно пишите, и да будут рецензенты к Вам благосклонны:-)
2 - особо нет больше, так как я из Альфы ушел практически полностью после того, как жене ИИ платеж заблокировал (совершенно по дурацкой причине - регулярно до этого платили в этом магазине) и, что гораздо хуже, 40 минут было не обеспечить разблокировку (большая часть времени - просто не дозвониться). Тут вывод: ИИ надо на такое тестировать, и, что важнее, для таких ошибок ИИ реакция банка всё же гораздо более быстрая нужна.
Там и ещё много чего было плохого до этого, но это совсем не связано с Вашей деятельностью.
Ага. Уровень иллюстрации печалит: "человек выбрал техногенный путь развития цивилизации в ущерб развитию самого себя. Мобильник вместо телепатии, самолет вместо левитации."
личный опыт иногда очень важен и ценен. Если у Вас его нет - это не значит, что нет и предмета.
Не в качестве аргумента для других. Наука требует возможности проверить и воспроизводимости в одинаковых условиях. Не соответствует - не научно. Примерно у 40% шизофреников тоже есть мистический опыт, и что? Подавляющее большинство из тех кто "был похищен инопланетянами" - или психически больные или обманщики. Но они тоже на опыт ссылались. Заметьте, я не утверждал, что опыта этого не было у Вас. Это уже Вы сделали вывод что я предполагаю, что "нет предмета". Тоже без обоснования.
Спасибо, отличный цикл!
Этот текст лучше убрать - дублируется далее.
Точно ей одной? А не автором с использованием "нейронки"?
Это же совсем другое. Мы ведь не требуем ручкой шариковой писать вместо печати на клавиатуре.
Это так кажется. На практике - путь к разорению в текущих условиях. Потеряете всех клиентов, сейчас как раз идёт захват рынка. И тупо денег может не хватить на разработку, не продавая результат.
"Если у Вас нет паранойи, это не значит, что за Вами никто не следит" ©
Полагаю, рост кармы на Хабре явно показывает Ваше душевное здоровье:-)
Если серьёзно, то отличная статья, спасибо! И очень хорошо подобран уровень утверждений. Не "я раскрыл мировой заговор, все бежим на свои фермы!!!", а "вот вам факты и предположения, задумайтесь".
Так и бенчмарк не является поверенным инструментом. Масса подкруток, утечек данных, манипуляций. В то же время "сигнал из реальной эксплуатации" (in-the-wild feedback) - важный показатель. "Тихие сбои" как раз он ловит. Он тоже не идеален, как и бенчмарк, но автор и не утверждает это.
То есть, то что Вы описываете - существует, но это не опровергает важность данного показателя (в идеале его, конечно, надо поверять слепыми A/B тестами и прогонять через LLM-судью).
Примерно как говорит доктор в анекдоте: "И Вы обещайте". И что это за "полноценный" такой:-)? Несколько десятков такси внутри спального района с хорошей разметкой?:-) Так это не "полноценный". Или не roll-out. И, кстати, кто, когда и что конкретно сказал, а главное, как Яндекс за это ответит? :-)
Ниже в другом моём комментарии я более подробно написал, почему "полноценное" чисто технически сейчас получить крайне маловероятно.
Здравствуйте:-)
1) Ясно по VPN, спасибо. Возможно, имело смысл сразу это отметить в цитируемой фразе, например, добавив в конце её "(Я привожу в статье примеры инструментов, через все работаю без VPN)".
2) Вы обещаете изначально рассказать про AI / ИИ, а далее резко уменьшаете область до LLM. И, судя по Вашему ответу, на интуитивном уровне LLM и AI у Вас тождественны друг другу, хотя LLM есть лишь неумеренно разросшееся подмножество AI, при этом без особых шансов стать AGI:-). Я, например, ожидал бы после такого обещания увидеть сравнение принципиально ограниченных LLM с RC (Reservoir Computing) и т.д.
Но тогда статью "раздует" до серии статей, отсюда и комментарий про "возможности".
Я не использовал термин "спорно" (= "ощущение неверности изложенного").
Я использовал: "нестандартно" (= "LLM или я изложили бы по-другому"). И сделал это для приведения дополнительного аргумента, что текст с очень большой вероятностью написан Вами, а не LLM.
Не вижу смысла тут спорить:-) И заниматься вербализацией моего ощущения - тоже.
Если интересно, как LLM написала бы Вашу статью, можете её в неё загрузить и попросить "стандартизовать":-)
Да не особо на ИИ генерацию похоже. И типичные штампы в глаза не лезут, и текст читаемый, и структура построения / разбиения в статье не очень стандартна для ИИ (она вообще немного нестандартна, на мой вкус:-), но это как раз видение живого автора).
Я так понимаю, что желание у автора разошлось с возможностями:-)
Вместо рассмотрения ИИ рассматриваются, в основном, LLM, а "через что с ним работать без VPN из России" вообще напоминает "тут могла бы быть Ваша реклама", так как отсутствует:-)
(хотя эта часть достаточно инородно тут выглядела бы, так что не особо страшно).
Лучше, чтобы не было расхождения ожидаемого с получаемым у читателя.
А Вы поинтересуйтесь начальными планами Яндекс, к какому сроку они ожидали, что автовождение будет:-) Если не ошибаюсь, это был примерно 2013 (там как раз по пустыне машины сами смогли ездить уверенно. И тогда же один уважаемый мной учёный, занимавшийся ИИ, сказал мне, что проблему предсказания поведения человека на дороге будет на текущем уровне ИИ не решить. Я не очень поверил в такое, был очень оптимистичен.
И где-то в 2018, как помню, технический директор Яндекс сообщил, что так и нет пока автовождения, так как поведенческое прогнозирование оказалось неожиданно очень сложным, т.е. случилось ровно то, что мне предсказали. И вот мы в 2026 обсуждаем "ну, ещё чуть-чуть":-)
"лучше среднего водителя такси" (невыспавшегося специалиста из ближнего зарубежья в экономе:-) - не тот критерий, на основании которого можно запустить такси без пилота в крупных городах в экономически выгодных объёмах. Полноценное автовождение должно бы быть где-то на уровне "20 лет безаварийного вождения в бизнес-классе".
И где наш уровень 5 тогда или даже 4 (высокая автоматизация - полная автономность в заданной зоне)? А случае такси уровень 3 (с требованием вмешательства пилота) даже юридически вряд ли пропустят.
Проблема не в том, что "делается", а в том, что "не получается надёжно". Мы продолжаем слышать истории, как кто-то в них угодил. Как раз Waymo в июне отличился, хорошо, что в яму не попал и даже от погони полиции ушёл:-)). Аж в New York Post писали.
Вы сами себе противоречите. Потому что в Вас технический эксперт с сотрудником Яндекс и (вероятно) энтузиастом спорит. Со "специфичными ошибками" Вы не сможете сделать "безопасный" сервис.
Что сделать есть шансы, так это что-то, что будет иметь меньше аварий, чем "средний водитель такси", и будет стоить меньше. Но иногда будет убивать людей в ситуациях, когда живой водитель бы этого не сделал. Экономически это будет выгодно (вот оно - основное "преимущество"). Этически - спорно. Удастся ли такое провести законодательно в России - увидим...
Но я лично предпочту невыспавшегося водителя, от которого я могу отказаться, чем автопилот, который не останавливается, даже когда ему пассажир кричит "стоп!" (всё тот же июньский инцидент).
И при этом я все же мечтаю увидеть и реально безопасный уровень 4, и полноценный уровень 5. Только, подозреваю, не на бессознательных трансформерах это будет.
Спасибо за подробное изложение. Как понимаю, автоводителя, которому доверять можно, не менее, чем профессиональному водителю, ещё долго не увидим. Вполне возможно, до появления AGI.
Я как раз об этом:-)
А далее на дороге вырывают яму (и хорошо, если заранее знак "ремонтные работы" поставят), так что и от времени она начинает зависеть, и "известность заранее" пропадает. И тут нам нужно великолепное распознавание образов, которого у нас и так нет (великолепного), а у нас ещё и время на это распознавание критично ограничено.
Но так все возможные глупости, которые человек сотворить может, не сгенерировать, то периодически будем получать совершенно "глупые" ошибки у нашего трансформера, который будет сталкиваться с чем-то, что сгенерировать для него не догадались.
METR - не чисто прикладное исследование. Важны не конкретные цифры, а обнаруженные проблемы и по факту внедрённый стандарт методологии. Так что оно в этой части и не устарело, и в целом говорит о многом:-) Аналогично и статья автора.
А что ситуация будет меняться и проблемы будут уходить, это и так ясно.
Спасибо автору за такой интересный обзор. Жаль, что из профиля не ясно, какой у автора круг экспертизы (просто часто интересно, а что автор за человек:-).
Отмечу, что по всей статье идет термин "ИИ", хотя с большой вероятностью это всё про LLM. Кардинально на вопрос автора: "Что со всем этим делать" ответ должен быть: "Не слишком увлекаться БЯМ и развивать AGI":-)
Но и в логике работы с LLМ значительная часть описанного со значительной вероятностью является следствием "детских болезней" (например, "чем плотнее люди работают с ИИ, тем меньше ему верят"), которыми пока не особо занимались. При дальнейшем развитии направления большАя часть проблем должна уйти (пример: "ИИ умеет писать осмысленные тесты, если его на это специально нацелить через mutation score"), в том числе и благодаря подобным статьям. Правда, учитывая, что это не AGI, ключевая проблема "у LLM нет понимания", скорее, никуда не денется и будет ограничивать результат.
Относительно "Универсальной метрики нет" - она есть. Это деньги. Выгоднее ли с ИИ писать, или нет. Вопрос в том, как в неё включить риски, чтобы она не оказалась красивой в моменте и с потерями через пять (а то и два) года (возвращаемся к началу статьи "Представьте свою команду через пару лет").
Организаторам желать надо было, скорее.
С вводом ИИ число таких ложноположительных срабатываний увеличилось согласно моему личному опыту (настаивать на этом утверждении не буду, это не так важно). Я потому и написал, что важнее чтобы банк хотел и был способен быстро исправить такую ситуацию. А заметьте, что даже Вы отвечаете: "ну, что ж поделать, зато мы миллионы спасаем". :-)
Ситуация, кстати, похоже повторилась вскоре в другом банке, но вот там за несколько минут исправили её после звонка. Т.е. это вполне выполнимо, потому и предлагаю.
У автора отсутствуют какие-либо упоминания о финансовой стороне вопроса и ряде других практических моментов. Дополню несколькими (их больше):
1) Выясните, сколько придется заплатить за участие в конференции/публикацию, сколько будет стоить поездка. Может оказаться неприятным сюрпризом. Определите, кто за это платить будет (Ваш работодатель, Сбербанк:-), Вы сами).
2) Оцените своё знание иностранного языка для общения на конференции. Вариант: удобно ли будет через автопереводчик общаться?
3) Решите, а хотите ли вы поехать в страну, проводящую конференцию. Как минимум, посмотрите рекомендации МИД.
4) Дополните этот список тем, что ещё для Вас важно.
По результатам подумайте, а точно вам надо вкладывать время и средства ради плюсов, описанных в "Зачем подавать свою статью на конференции?"
Если точно надо - уверенно пишите, и да будут рецензенты к Вам благосклонны:-)
Спасибо.
По ссылке ничего нет.
Не очень важно. Продукции (услуг) станет больше = больше денег, как её выражения. Т.е. мешок на картинке увеличится.
2 - особо нет больше, так как я из Альфы ушел практически полностью после того, как жене ИИ платеж заблокировал (совершенно по дурацкой причине - регулярно до этого платили в этом магазине) и, что гораздо хуже, 40 минут было не обеспечить разблокировку (большая часть времени - просто не дозвониться).
Тут вывод: ИИ надо на такое тестировать, и, что важнее, для таких ошибок ИИ реакция банка всё же гораздо более быстрая нужна.
Там и ещё много чего было плохого до этого, но это совсем не связано с Вашей деятельностью.
Я относительно правил это привёл.
Ага. Уровень иллюстрации печалит: "человек выбрал техногенный путь развития цивилизации в ущерб развитию самого себя. Мобильник вместо телепатии, самолет вместо левитации."
Не в качестве аргумента для других. Наука требует возможности проверить и воспроизводимости в одинаковых условиях. Не соответствует - не научно.
Примерно у 40% шизофреников тоже есть мистический опыт, и что? Подавляющее большинство из тех кто "был похищен инопланетянами" - или психически больные или обманщики. Но они тоже на опыт ссылались.
Заметьте, я не утверждал, что опыта этого не было у Вас. Это уже Вы сделали вывод что я предполагаю, что "нет предмета". Тоже без обоснования.