All streams
Search
Write a publication
Pull to refresh
23
0
Ruslan Dev @ruslandevlabs

User

Send message

Оно конечно хорошо, что на части задач - типа математики, кодинга и, говорят, медицины - GPT-5 доучили. Но вот на feature-extraction нет прироста, а это большой домен в практическом смысле. Нет равномерного роста качества по всем направлениям, как хотелось.

Просто если вспомнить общие прогнозы что GPT-5 будет настолько точнее, умнее, вообще на другом уровне, что я лично думал с ней мы вообще забудем про галлюцинации и про то, что ИИ не может правильно связать чуть более сложные факты и логику. Думал может архитектуру новую создали, по сравнению с которой стандартный трансформер будет как LSTM сравнить с тем же трансформером. А на деле она здесь получше, а там такая же осталось, т.е. на ряде доменов дали побольше данных, автоматизировали переключение между reasoning - не-reasoning, остальное чисто UX улучшения в самом ChatGPT.

Да, это оттуда. В других местах, которые я читал, типа этого ее несколько обобщают. Но при каких условиях она отражает реальную зависимость, а при каких нет - особенно на масштабах, сопоставимых с GPT-5 - явно не хватает эмпирических данных.

Где вы нашли эту формулу?

В Kaplan, et al, 2020 Scaling Laws for Neural Language Models. В статье упоминается. Также в Википедии есть, добавил скриншот в статью. Формула там в следующем виде -
L = L0 + (X0/X)^alpha, т.е. L находится в прямо пропорциональной зависимости от X^-alpha, для каждой из величин C, N, D.
L - какая именно ошибка

L - какая именно ошибка


Loss

А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?

В статье речь о том, почему для GPT-5 не повысили качество путем масштабирования, если на предыдущих версиях это работало.

Видимо от задачи к задаче качество разное

Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет

бенчмарки показывают обратное)

Не пробовал, знаю что у 2B хорошие результаты по бенчмаркам среди малых LLM. Но теперь есть Llama 3.2 3B

lightblue/suzume-llama-3-8B-multilingual и моя ruslandev/llama-3-8b-gpt-4o-ru1.0

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

Information

Rating
Does not participate
Registered
Activity

Specialization

ML Engineer