Comments / Profile of aka352 / Habr

How to become an author

Алексей Кравцов @aka352

User

Profile Publications 3Comments 49Bookmarks 1

Как сделать реальный AGI

aka352 Aug 31 at 18:48

Хотя бы начните с муравья... уверен, вас ждет множество удивительных и не всегда приятных открытий. Но зато они будут иметь положительное влияние на ваше восприятие мира.

Как сделать реальный AGI

aka352 Aug 31 at 10:59

AGI - это сложнее, чем просто прогнозирование. Иначе бы уже он был готов. Если у вас есть работающая идея, что мешает её реализовать в ограниченном варианте, условном муравье? Покажите работоспособность в малом. Жизнь показывает, что очень много идей и идеологов, но очень мало реализаций и реализаторов. А любая, даже самая гениальная идея без реализации не стоит даже бумаги на которой написана.

И внимательнее относитесь к идеям, проверяйте. Я вот тоже в своё время много чего изобретал: семантические сети, токенизатор, теорию предсказательного кодирования и пр. , а потом оказывалось, что всё это уже придумано задолго до меня. Мир большой и в нём очень много умных, думающих людей, поэтому многое уже придумано, но не всё пока можно реализовать и ждёт своего часа. Потому что от идеи до реализации зачастую пропасть. Ну или просто "идеологам" лень делать чёрную неблагодарную работу по доведению их гениальных мыслей до практической реализации. Они ждут, что кто-то придёт и сделает это за них.

Действительно ли большие языковые модели галлюцинируют? Эксперимент

aka352 Aug 28 at 21:59

Личное мнение, но галлюцинации больших языковых моделей - следствие архитектуры. Их можно уменьшить, увеличивая размеры датасетов, увеличивая сами модели, но избавиться от них совсем - невозможно. Дистилляция моделей, насыщение параметров за счёт большего датасета тоже в какой-то мере помогут, но не исправят того, что LLM - тупиковая ветвь развития, как в своё время паровой двигатель. Низкий КПД, огромные размеры и ворох принципиально нерешаемых проблем. Я думаю год-два и мы увидим новые архитектурные наработки, но скорее всего не на базе нынешних ИНС, собственно корни проблем LLM растут именно из них.

Llama 3.1 и Mistral Large 2

aka352 Aug 14 at 18:18

Я думаю это был бы интересный эксперимент. Только обучающая выборка нужна большая, чтобы максимально охватить все параметры модели.

Llama 3.1 и Mistral Large 2

aka352 Aug 13 at 19:47

А есть публикации результатов? Интересно копнуть эту тему глубже. Возможно просто при дообучении обновились не все веса и именно они ответственны за "глюки" модели. В идеале конечно после квантования переобучать на полном датасете, но задачка не для простых смертных.

Llama 3.1 и Mistral Large 2

aka352 Aug 13 at 19:22

Руслан, а не пробовали дообучать после квантования в 1бит? Была как-то информация о подобном эксперименте и весьма положительно оценивали. При таком раскладе 405b модель вполне реально развернуть на доступных ресурсах.

Цифровое бессмертие. Новый проект

aka352 Jul 31 at 19:00

Идея интересная, но таким образом получится не цифровая копия личности, а скорее справочник о личности, что далеко не одно и тоже. Личность - это гораздо сложнее, чем набор фактов, это огромный набор психоэмоциональных характеристик, когнитивных особенностей, привычек и т.д. Многое из этого не формализовать в виде фактов и не загрузить в промпт. А без этого будет лишь сборник мемуаров "каким он парнем был". Куда более правильный путь, как уже указали выше, обучать LLM на контенте, сгенерированном человеком. Да, это не в пример сложнее, но можно брать за базу уже готовую модель и дообучать ее. Можно таким образом "клонировать" известных личностей, ушедших в небытие, но оставивших немалый след в виде текстовых произведений - писатели, политики и т.д. ЛДПР вроде уже делала цифровую копию Жириновского, правда что-то о ней давно ничего не слышно )

Как создать самостоятельный ИИ

aka352 Jul 31 at 12:50

Уже делаю) Идею полностью поддерживаю, единственный ньюанс в том, что до конца самостоятельной она не будет. Без внутреннего самополагания и внешних раздражителей она быстро уйдет в дзен и галюцинации. Как например и человек в состоянии полной сенсорной депривации. Поэтому первое практическое применение - реализация сложных, комплексных задач, поставленных человеком и управление сложными системами(но тут пока велики риски).

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

aka352 Jul 23 at 17:52

Разочарует. Тоже пытался построить похожее, но все упирается в скорость памяти. Скорость инференса на моделях 7-8B будет на уровне ~3 ток/сек. Заурядный Ryzen 3600 за счет более высоких частот и кэша показывает результат в 1,5-2 раза выше.

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

aka352 Jul 23 at 16:25

Ядра тут не помогут... Уже на 5-6 потоках упрется в пропускную способность памяти и дальше скорость инференса будет только падать. Нужна максимально быстрая память и широкая шина, поэтому ускорители ИИ все на HBM строятся.

Введение в Docker и Kubernetes: основы контейнерных технологий. Часть 1

aka352 Jul 5 at 18:55

Видимо вы не разрабатывали под Linux. Попробуйте и скоро сами изобретëте свой докер)

Как собеседовать того, кто ничего (руками) не делает — руководителя

aka352 Jun 19 at 16:00

А траншея в чистом поле или в городе, где возможно нахождение коммуникаций, старых фундаментов, строительного мусора в конце концов? ) Если в чистом поле, то грунт песчанистый или через полметра пойдёт глина? А время года и погодные условия надо учитывать? Что-то много вопросов возникает для одной траншеи. Что-то тут не то...

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 16 at 10:03

У него просто нет выбора )

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 14 at 17:22

Я занимался этой темой более 20 лет назад, были интересные результаты, но тогда все упиралось в вычислительные возможности, да и времена для науки были тяжелые, думали скорее о выживании.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 14 at 09:53

Ни в коей мере не ставлю под сомнение компетентность специалистов, работающих в OpenAI. Но история полна примеров, когда технологические гиганты, лидеры своих сегментов, устанавливающие отраслевые стандарты, где также работали светлейшие умы своего времени, сошли с пьедестала, а порой и прекращали существование: IBM, Nokia, Motorola, Yahoo - список можно продолжать долго. И виной всему стратегические просчёты, неумение в нужный момент перестроиться, увидеть новые горизонты, зацикленность на текущем моменте.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 14 at 09:21

Искусственные нейронные сети тоже не вчера появились. Дедушке Перцептрону в этом году уже 67 стукнуло) А вот звёздный час только сейчас наступил. Всему своё время.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 13 at 21:32

Конечно оптимизации имеют место быть, это логично. Было бы странно, если бы их не было. Вопрос в том, что качественного прироста, соизмеримого с их количественным ростом, не происходит. Можно взять условный код на с++, переписать его на ассемблере, получить прирост производительности, но код будет делать ровно тоже самое, только чуть быстрее.

Большие языковые модели — гонка в тупик или прорыв в будущее?

aka352 Jun 13 at 21:24

Я думаю стоит разделять то, что реально вложено в разработки и что вложено в те же акции технологических компаний, причастных к теме, на волне хайпа. Та же Nvidia бьет рекорды по капитализации. Потом эти пузыри имеют свойство лопаться, если завышенные ожидания инвесторов не оправдываются.

Автоматически выделяем кусочно-линейные тренды временного ряда

aka352 Apr 23 at 21:01

Если компоненты ряда гармонические, например с выраженной сезонностью, то это будет работать и качество прогноза хорошее. Если же применительно к финансовым рядам, то не сработает - структура ряда многокомпонентная и нестационарная. Нужны другие подходы. Точнее трендовую линию по известному ряду построить можно, но прогнозное качество будет скорее всего низким.

Llama 3 — новое поколение AI моделей. Open-source конкурент GPT от Meta и интервью Марка Цукерберга

aka352 Apr 22 at 06:11

Instruct модели - специально дообученные на специальных датасетах на решение конкретных задач, чтобы повысить качество.

1