Pull to refresh
4
0
Алексей Кравцов @aka352

User

Send message

Хотя бы начните с муравья... уверен, вас ждет множество удивительных и не всегда приятных открытий. Но зато они будут иметь положительное влияние на ваше восприятие мира.

AGI - это сложнее, чем просто прогнозирование. Иначе бы уже он был готов. Если у вас есть работающая идея, что мешает её реализовать в ограниченном варианте, условном муравье? Покажите работоспособность в малом. Жизнь показывает, что очень много идей и идеологов, но очень мало реализаций и реализаторов. А любая, даже самая гениальная идея без реализации не стоит даже бумаги на которой написана.

И внимательнее относитесь к идеям, проверяйте. Я вот тоже в своё время много чего изобретал: семантические сети, токенизатор, теорию предсказательного кодирования и пр. , а потом оказывалось, что всё это уже придумано задолго до меня. Мир большой и в нём очень много умных, думающих людей, поэтому многое уже придумано, но не всё пока можно реализовать и ждёт своего часа. Потому что от идеи до реализации зачастую пропасть. Ну или просто "идеологам" лень делать чёрную неблагодарную работу по доведению их гениальных мыслей до практической реализации. Они ждут, что кто-то придёт и сделает это за них.

Личное мнение, но галлюцинации больших языковых моделей - следствие архитектуры. Их можно уменьшить, увеличивая размеры датасетов, увеличивая сами модели, но избавиться от них совсем - невозможно. Дистилляция моделей, насыщение параметров за счёт большего датасета тоже в какой-то мере помогут, но не исправят того, что LLM - тупиковая ветвь развития, как в своё время паровой двигатель. Низкий КПД, огромные размеры и ворох принципиально нерешаемых проблем. Я думаю год-два и мы увидим новые архитектурные наработки, но скорее всего не на базе нынешних ИНС, собственно корни проблем LLM растут именно из них.

Я думаю это был бы интересный эксперимент. Только обучающая выборка нужна большая, чтобы максимально охватить все параметры модели.

А есть публикации результатов? Интересно копнуть эту тему глубже. Возможно просто при дообучении обновились не все веса и именно они ответственны за "глюки" модели. В идеале конечно после квантования переобучать на полном датасете, но задачка не для простых смертных.

Руслан, а не пробовали дообучать после квантования в 1бит? Была как-то информация о подобном эксперименте и весьма положительно оценивали. При таком раскладе 405b модель вполне реально развернуть на доступных ресурсах.

Идея интересная, но таким образом получится не цифровая копия личности, а скорее справочник о личности, что далеко не одно и тоже. Личность - это гораздо сложнее, чем набор фактов, это огромный набор психоэмоциональных характеристик, когнитивных особенностей, привычек и т.д. Многое из этого не формализовать в виде фактов и не загрузить в промпт. А без этого будет лишь сборник мемуаров "каким он парнем был". Куда более правильный путь, как уже указали выше, обучать LLM на контенте, сгенерированном человеком. Да, это не в пример сложнее, но можно брать за базу уже готовую модель и дообучать ее. Можно таким образом "клонировать" известных личностей, ушедших в небытие, но оставивших немалый след в виде текстовых произведений - писатели, политики и т.д. ЛДПР вроде уже делала цифровую копию Жириновского, правда что-то о ней давно ничего не слышно )

Уже делаю) Идею полностью поддерживаю, единственный ньюанс в том, что до конца самостоятельной она не будет. Без внутреннего самополагания и внешних раздражителей она быстро уйдет в дзен и галюцинации. Как например и человек в состоянии полной сенсорной депривации. Поэтому первое практическое применение - реализация сложных, комплексных задач, поставленных человеком и управление сложными системами(но тут пока велики риски).

Разочарует. Тоже пытался построить похожее, но все упирается в скорость памяти. Скорость инференса на моделях 7-8B будет на уровне ~3 ток/сек. Заурядный Ryzen 3600 за счет более высоких частот и кэша показывает результат в 1,5-2 раза выше.

Ядра тут не помогут... Уже на 5-6 потоках упрется в пропускную способность памяти и дальше скорость инференса будет только падать. Нужна максимально быстрая память и широкая шина, поэтому ускорители ИИ все на HBM строятся.

Видимо вы не разрабатывали под Linux. Попробуйте и скоро сами изобретëте свой докер)

А траншея в чистом поле или в городе, где возможно нахождение коммуникаций, старых фундаментов, строительного мусора в конце концов? ) Если в чистом поле, то грунт песчанистый или через полметра пойдёт глина? А время года и погодные условия надо учитывать? Что-то много вопросов возникает для одной траншеи. Что-то тут не то...

Я занимался этой темой более 20 лет назад, были интересные результаты, но тогда все упиралось в вычислительные возможности, да и времена для науки были тяжелые, думали скорее о выживании.

Ни в коей мере не ставлю под сомнение компетентность специалистов, работающих в OpenAI. Но история полна примеров, когда технологические гиганты, лидеры своих сегментов, устанавливающие отраслевые стандарты, где также работали светлейшие умы своего времени, сошли с пьедестала, а порой и прекращали существование: IBM, Nokia, Motorola, Yahoo - список можно продолжать долго. И виной всему стратегические просчёты, неумение в нужный момент перестроиться, увидеть новые горизонты, зацикленность на текущем моменте.

Искусственные нейронные сети тоже не вчера появились. Дедушке Перцептрону в этом году уже 67 стукнуло) А вот звёздный час только сейчас наступил. Всему своё время.

Конечно оптимизации имеют место быть, это логично. Было бы странно, если бы их не было. Вопрос в том, что качественного прироста, соизмеримого с их количественным ростом, не происходит. Можно взять условный код на с++, переписать его на ассемблере, получить прирост производительности, но код будет делать ровно тоже самое, только чуть быстрее.

Я думаю стоит разделять то, что реально вложено в разработки и что вложено в те же акции технологических компаний, причастных к теме, на волне хайпа. Та же Nvidia бьет рекорды по капитализации. Потом эти пузыри имеют свойство лопаться, если завышенные ожидания инвесторов не оправдываются.

Если компоненты ряда гармонические, например с выраженной сезонностью, то это будет работать и качество прогноза хорошее. Если же применительно к финансовым рядам, то не сработает - структура ряда многокомпонентная и нестационарная. Нужны другие подходы. Точнее трендовую линию по известному ряду построить можно, но прогнозное качество будет скорее всего низким.

Instruct модели - специально дообученные на специальных датасетах на решение конкретных задач, чтобы повысить качество.

Information

Rating
Does not participate
Location
Воронеж, Воронежская обл., Россия
Registered
Activity