Comments / Profile of ruslandevlabs / Habr

Ruslan Dev @ruslandevlabs

User

ProfileArticles16PostsNewsComments15

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 14:22

Оно конечно хорошо, что на части задач - типа математики, кодинга и, говорят, медицины - GPT-5 доучили. Но вот на feature-extraction нет прироста, а это большой домен в практическом смысле. Нет равномерного роста качества по всем направлениям, как хотелось.

0

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 14:18

Просто если вспомнить общие прогнозы что GPT-5 будет настолько точнее, умнее, вообще на другом уровне, что я лично думал с ней мы вообще забудем про галлюцинации и про то, что ИИ не может правильно связать чуть более сложные факты и логику. Думал может архитектуру новую создали, по сравнению с которой стандартный трансформер будет как LSTM сравнить с тем же трансформером. А на деле она здесь получше, а там такая же осталось, т.е. на ряде доменов дали побольше данных, автоматизировали переключение между reasoning - не-reasoning, остальное чисто UX улучшения в самом ChatGPT.

+1

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 13:32

Да, это оттуда. В других местах, которые я читал, типа этого ее несколько обобщают. Но при каких условиях она отражает реальную зависимость, а при каких нет - особенно на масштабах, сопоставимых с GPT-5 - явно не хватает эмпирических данных.

0

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 13:24

Где вы нашли эту формулу?

В Kaplan, et al, 2020 Scaling Laws for Neural Language Models. В статье упоминается. Также в Википедии есть, добавил скриншот в статью. Формула там в следующем виде -
L = L0 + (X0/X)^alpha, т.е. L находится в прямо пропорциональной зависимости от X^-alpha, для каждой из величин C, N, D.
L - какая именно ошибка

L - какая именно ошибка

Loss

А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?

В статье речь о том, почему для GPT-5 не повысили качество путем масштабирования, если на предыдущих версиях это работало.

0

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 12:57

Видимо от задачи к задаче качество разное

0

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

ruslandevlabs Aug 23 at 12:56

да, спасибо исправил

0

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

ruslandevlabs Jan 29 at 17:31

Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет

0

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

ruslandevlabs Jan 28 at 16:35

примерно час

+3

Квантизация позволяет запускать Llama 3.2 на мобилках

ruslandevlabs Nov 6 2024 at 05:08

бенчмарки показывают обратное)

0

Мультимодальные приложения на Llama 3.2 и Llama Stack

ruslandevlabs Oct 22 2024 at 09:39

Не пробовал, знаю что у 2B хорошие результаты по бенчмаркам среди малых LLM. Но теперь есть Llama 3.2 3B

0

Мультимодальные приложения на Llama 3.2 и Llama Stack

ruslandevlabs Oct 21 2024 at 12:05

lightblue/suzume-llama-3-8B-multilingual и моя ruslandev/llama-3-8b-gpt-4o-ru1.0

+1

Llama 3.1 и Mistral Large 2

ruslandevlabs Aug 14 2024 at 09:50

В датасете только 1K примеров на китайском, столько же на английском, остальные 8K на русском. Так что моя модель предобучена на разных языках, тем более что корпус базовой лама-3 - мультиязычный.

Есть статья Tagengo: A Multilingual Chat Dataset, в которой объясняется, что можно улучшить показатели модели для отдельно взятого языка, обучая на мультиязычных данных. Метрики моей модели ruslandev/llama-3-8b-gpt-4o-ru1.0 эту идею подтверждают.

+1

Llama 3.1 и Mistral Large 2

ruslandevlabs Aug 14 2024 at 09:40

Не пробовал, мне казалось квантование в 1бит это слишком жестко в плане потери качества. Может быть стоит попробовать

+1

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

ruslandevlabs Jul 30 2024 at 09:34

llama-3 - потому что интересно было попробовать как она для файнтюнинга, все-таки еще не было открытой модели, обученной на таком большом корпусе текста. Вообще я использую свой фреймворк на базе Unsloth, но Unsloth не поддерживает параллелизм моделей, а я хотел ускорить обучение за счет двух A100. 8B прекрасно влезает на A100, это для ускорения

0

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

ruslandevlabs Jul 22 2024 at 10:27

На immers cloud H100 ~430р в час. Но финальную версию этой модели я обучал на 2x A100. 230р/час, всего около 1K р.

+2