Обновить

Почему никто не ожидал, что механизм «предсказать следующее слово» не должен был оказаться так успешен (но оказался)

Время на прочтение7 мин
Охват и читатели18K
Всего голосов 20: ↑17 и ↓3+18
Комментарии22

Комментарии 22

Там нет никаких принципиально новых умений у моделей - это просто вполне предсказуемые и логичные, чисто технические доработки. Модель не научилась говорить что она не знает - потому что она все еще не думает и такого понятия у нее нет. Она по прежнему достраивает ответ. Просто под прогоном несколько системным промптов в котором есть специальный подзапрос - нужно ли ответить что она не знает или нет. Проще говоря - принципиальное улучшение не в смой модели, а в том, что под капотом прогоняются десятки промптов, а не один.

define model. Сейчас это слово подразумевает всю совокупность обвеса, а не просто веса

Заголовок как-то криво сформулирован. "Никто не ожидал, что не должен был" == "всё ожидали, что должен был".

Или так: "Никто не ожидал, что предсказание следующего слова окажется таким успешным".

Да, так должно быть. Я написал, как это читается сейчас)

Не знаю, что было раньше. Сейчас я читаю заголовок: "Почему никто не ожидал, что механизм «предсказать следующее слово» не должен был оказаться так успешен (но оказался)". Здесь смысл противоположный, так как Вы написали "не должен был". Не чувствуете? Там, где другие увидят признаки использования ИИ, я усмотрю пример (извините!) банальной человеческой безграмотности и желания накрутить как можно более заковыристый заголовок. В таких случаях говорят: "будьте проще, и к вам потянутся люди". ;-)

Сейчас всё тот же криво сформулированный заголовок, о котором я и писал, и который вы процитировали. Я написал "не должен был", потому что ровно так и написано в заголовке.

Вы с своём первом комментарии как раз указали вариант, который, вероятно, пытался вложить в заголовок автор.

Но "оказался таким успешным" и "не должен был оказаться таким успешным" имеет разный смысл, разве не так (даже с припиской "но оказался" лучше не становится)? Чтобы привести его к этому виду с минимальными изменениями, можно просто убрать частицу "не", и получится "Почему никто не ожидал, что механизм «предсказать следующее слово» должен был оказаться так успешен (и оказался)". Но это всё равно кривовато звучит, предложенный вами вариант явно лучше.

Ну и я не писал и даже не намекал, что это признак использования ИИ, я как раз и предположил, что это безграмотность (ну или отсутствие вычитки), хоть явно этого писать и не стал.

Успешной оказалась архитектура трансформера. "Предсказание следующего слова" - всего лишь удобный механизм обучения на огромном массиве текстовых данных - само по себе его использование ничего не говорит о наличии или отсутствии "интеллекта" у модели.

"Предсказание следующего слова" и есть народное обозначение архитектуры трансформера.

Если так, то это народное заблуждение. Предсказание следующего слова или токена скорее характерно для NLP области, а не для какой-то отдельной архитектуры. В CV задачах, например, трансформеры по другому принципу работают.

На промптах, которые не вытягивает текстоый кодек с потерями предсказатель, подключается старенькая Siri и инвесторов убеждают в значительном прогрессе.

точно? вроде бы было как раз наоборот ) когда Сири не тянула, и предлагала обратиться к чатгпт

но уже в прошлом. теперь "старенькая Сири" это Джемини в юбке ))

А это точно блог издательского дома, организации которая выпускает книги? Если ваши книги так же безграмотны как и заголовок этой статьи, то всё очень грустно...

Просто следующее слово иногда предсказывается с ошибками.

Попробовал проследить за собой (хотя это непростое занятие) - оказывается, я тоже в основном говорю путём "предсказания следующего слова". Правда, там есть ещё один вспомогательный механизм - речевые паттерны, наработанные за долгую нудную жизнь.

Блин, а современный ответ от модели на вопрос про Барселону так и не написали. А я ждал. )))

Стоит честно признать, хоть ответ модели и стал более умным, он по-прежнему чертовски избыточен:

Проверю актуальные цены на следующую пятницу, то есть на 10 апреля 2026, и сравню самолёт с поездом. Сразу посмотрю не только “голый” билет, но и маршрут поезда, потому что там почти наверняка будут пересадки.

Уже есть картина: поезд выглядит заметно дольше и, похоже, дороже. Сейчас добираю более точные ориентиры именно на пятницу, 10 апреля, чтобы не опираться только на общие страницы маршрута.

Дешевле — самолётом. Под “следующей пятницей” я понимаю 10 апреля 2026. По текущим поисковым результатам билет на самолёт из Лондона в Барселону на эту дату выходит заметно дешевле, чем поезд.

Сейчас самый дешёвый найденный авиабилет в одну сторону на пт, 10 апреля — около 37: Ryanair, LTN → BCN, вылет 19:40, перелёт 2 ч 10 мин. Для ориентира, у KAYAK также виден пример round-trip на 10–15 апреля примерно за $63. �
KAYAK
С поездом картина другая: у Rail Europe для маршрута London → Barcelona виден ориентир около $455–534 за 7 дней до поездки, а Rome2Rio даёт типичный диапазон примерно €330–€600 и время в пути около 10 ч 58 мин. Trainline также подтверждает, что прямого поезда нет, обычно нужна как минимум 1 пересадка, а fastest journey — около 10 ч 1 мин, среднее время — около 16 ч 13 мин.

Итог: если цель — сэкономить, бери самолёт. Даже с поправкой на багаж и дорогу до аэропорта разрыв сейчас слишком большой: ориентир по самолёту — десятки долларов, по поезду — сотни евро/долларов.

Есть нюанс: такие авиабилеты обычно у лоукостеров и могут быть без включённого багажа, а цены на обе опции быстро меняются.

Могу сразу подобрать тебе самый дешёвый конкретный вылет на 10 апреля с учётом того, из какого аэропорта Лондона тебе удобнее ехать.

Жаль, статья не настолько технически подробная и грамотная как хотелось бы. Выше в комментариях уже сказали, что ключевой геймченджер - это трансформеры.

Но подскажите другой момент, если кто-то прочитает этот коммент - как модель определяет, что готова сказать, что ответ готов? Может это похоже на классическую проблему остановки.

как модель определяет, что готова сказать, что ответ готов?

Модель генерит специальный токен. Что-то вроде точки, только не в конце фразы, а в конце текста.

Вопрос в том, как она понимает, что пришла пора для этого токена? Что не нужно продолжать рассуждать и выйти из цикла.

Такие токены есть в обучающих данных, модель учится их выдавать по тем же принципам что и все остальные токены. То есть, модель генерит цепочку токенов оканчивающуюся EOS (end of sequence) на основе запроса и своих обученных весов.

Спасибо за пояснение

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
piter.com
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия