Он прав. Разница как между "построить ещё один автомобильный завод" и "обклеить машину винилом".
В статье сказано: "s1, работает аналогично передовым моделям рассуждений, таким как o1 от OpenAI и R1" - то есть рассуждает. "s1 является дистилляцией одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking" - буквально использовали ответы модели. "с помощью процесса, называемого контролируемой тонкой настройкой (SFT)" - самый базовый метод тюнинга.
Совсем недавно давал этой священной троице пару функций на оптимизацию: 1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE. 2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.
Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.) Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.
Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.
И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.
Да я понял и согласен. Но я не провожу границы между тогда и сейчас. Сейчас всё тоже сложение векторов в основе только надстроек стало больше. И дорогу прокладывали эвристически тогда и сейчас.
Ну да Word2Vec стал известен относительно недавно. Королева = король - мужчина + женщина. Нищеброд = король + женщина - корона. Многозначность была.
Жаль только что так долго придумать не могли эту простейшую идею. Но операции над векторами в нейросетях были и никуда не делись. Основа нейросетей это умножение матриц. Так что математика тоже никуда не девалась.
LSTM придумали в 1997 году. А RNN в принципе ещё раньше. А всего несколько лет назад придумали Транс (2017). И что значит "однозначно сопоставляется с вектором" ? Нейросети имеют вероятностную природу. На входе и сейчас токены однозначно сопоставляется. А на выходе этого давно никто не ждёт.
Когда рассказчик дерьмовый, конечно, не понятно (я не про статью, я её не читал). Однако, как я считаю, понять это довольно просто. Эмбеддинги - это способ представить класс/понятие через вектор. "слово" (класс) = [0.3, -0.2, 0.6] (вектор) А сумма векторов здесь не работает, потому что теряется информация о порядке (например, "вопрос про" или "про вопрос"). Потому придумали RNN и Транс. А нейросеть - это просто функция с большим количеством связей (настраиваются весами). И обратное распространение как способ подбора весов.
Результат выглядит как: Взяли результаты чужого труда. Видимо, это обошлось им в $30. Взяли халявную модель и затюнили($20). Получилась сенсация за $50.
По моему опыту все эти модели "рассуждений" и тесты - полный мусор. На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.
Блин. Да тут на самом деле всё очевидно. Сначала в сеть закачивают ~15 терра-токенов говна из интернета. Потом чёта настраивают. Потом приходит неизвестно кто. И задаёт вопрос про своих тараканов в голове. Плюс высокая температура сэмплера. Ну результат закономерный. Сетка теряется в догадках чё от неё хотят.
Да нормально всё. Наконец то статья от того кто знает о чём говорит. Надоели дурацкие тексты про OpenAI и прочих корпоратов. Или - как собрать GPT2 из говна и палок для чайников.
(Напоминаем, что другие модели Gemini вы можете протестировать, перейдя на Google AI Studio по ссылке и через API совершенно бесплатно)
Он прав. Разница как между "построить ещё один автомобильный завод" и "обклеить машину винилом".
В статье сказано:
"s1, работает аналогично передовым моделям рассуждений, таким как o1 от OpenAI и R1" - то есть рассуждает.
"s1 является дистилляцией одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking" - буквально использовали ответы модели.
"с помощью процесса, называемого контролируемой тонкой настройкой (SFT)" - самый базовый метод тюнинга.
Итого это была ленивая и тупая работа бездарей.
Совсем недавно давал этой священной троице пару функций на оптимизацию:
1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE.
2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.
Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.)
Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.
Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.
И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.
Да я понял и согласен. Но я не провожу границы между тогда и сейчас. Сейчас всё тоже сложение векторов в основе только надстроек стало больше. И дорогу прокладывали эвристически тогда и сейчас.
Ну да Word2Vec стал известен относительно недавно.
Королева = король - мужчина + женщина.
Нищеброд = король + женщина - корона.
Многозначность была.
Жаль только что так долго придумать не могли эту простейшую идею.
Но операции над векторами в нейросетях были и никуда не делись.
Основа нейросетей это умножение матриц. Так что математика тоже никуда не девалась.
LSTM придумали в 1997 году. А RNN в принципе ещё раньше.
А всего несколько лет назад придумали Транс (2017).
И что значит "однозначно сопоставляется с вектором" ?
Нейросети имеют вероятностную природу. На входе и сейчас токены однозначно сопоставляется. А на выходе этого давно никто не ждёт.
Когда рассказчик дерьмовый, конечно, не понятно (я не про статью, я её не читал).
Однако, как я считаю, понять это довольно просто.
Эмбеддинги - это способ представить класс/понятие через вектор.
"слово" (класс) = [0.3, -0.2, 0.6] (вектор)
А сумма векторов здесь не работает, потому что теряется информация о порядке (например, "вопрос про" или "про вопрос"). Потому придумали RNN и Транс. А нейросеть - это просто функция с большим количеством связей (настраиваются весами). И обратное распространение как способ подбора весов.
Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.
Результат выглядит как: Взяли результаты чужого труда. Видимо, это обошлось им в $30. Взяли халявную модель и затюнили($20). Получилась сенсация за $50.
По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.
Блин. Да тут на самом деле всё очевидно.
Сначала в сеть закачивают ~15 терра-токенов говна из интернета.
Потом чёта настраивают. Потом приходит неизвестно кто.
И задаёт вопрос про своих тараканов в голове. Плюс высокая температура сэмплера.
Ну результат закономерный. Сетка теряется в догадках чё от неё хотят.
Ссылки на все статьи есть. А что касается ZNorm то в статье есть результаты тестов.
И там довольно просто. Кому надо сами могут проверить.
Да нормально всё. Наконец то статья от того кто знает о чём говорит.
Надоели дурацкие тексты про OpenAI и прочих корпоратов.
Или - как собрать GPT2 из говна и палок для чайников.