Pull to refresh
58
-10.9
bugman @bugman

Make software to happen

Send message

Для меня важные звонки - это мои собственные исходящие и звонки от людей в моей записной книжке

Нет чтоб порадоваться за ребят, которые заделиверили крутую штуку, так надо брызнуть сарказмом

Выражаю глубокий респект всем участникам этого проекта. Вы проделали крутую работу. Планы у вас отличные и направление на открытость, которое вы взяли, очень подкупает. С нетерпением ждем публичного релиза. Надеюсь, руководство выпишет вам всем бонусов 🙂

История наимутнейшая, согласен. Как и с датасетом OpenAI. В отсутствии достоверной возможности проверить, что они там использовали для тренировки (а наверняка там было что-то по вирусной GPLv3), им бы не упоминать даже об ограничениях по части использования результатов инференса.

Нашел ваш анонс (https://dtf.ru/u/637184-viktor-nosko/1695665-rossiyskie-razrabotchiki-obyavili-o-starte-fractalgpt-analoga-chatgpt-i-gpt-4-ot-openai), где было сказано вот это:

Особенно ярко проблема контроля генерации трансформеров видна при решении символьных задач в математике, физике, биологии и других точных науках, поиске фактов, ответах на вопросы - и поэтому в этих отраслях использовать даже большие языковые модели(LLM) опасно. Даже те кейсы, в которых ChatGPT показывает себя хорошо, такие как генерация сниппетов кода и исправление ошибок по описанию - все равно не расширяются на структурное написание нового кода, собственно потому, что архитектура GPT принципиально не подходит для решения такого рода задач.

Я не претендую на глубокие знания в области NN и трансформеров, но будучи регулярным пользователем последних, позволю себе не согласиться полностью с вашими выводами. По моему мнению то, что вы называется структурной проблемой требующей смены парадигмы и архитектуры, есть лишь побочный эффект сырости подходов в тренировке, файнтюнинге и сырости первых имплементаций. Кодогенерация ChatGPT образца ноября-декабря 2022 и кодогенерация ChatGPT сегодня это значительный шаг вперед. Я даже не говорю о dedicated трансормерах, типа GitHub Copilot, Amazon CodeWhisperer и прочих. А новые открытые и условно открытые модели, появляющиеся на рынке буквально каждую неделю, очень ярко подчёркивают этот тренд.

Но вам в любом случае успеха в ваших исследованиях. В этой области (как и во многих других подобных областях новых знаний) понять, что что-то работает лучше или хуже можно только после того, как получил что-то работающее в руках и сравнив это с конкурентами. Я вполне допускаю, что подход за который вы топите, будет еще более эффективен.

Датасеты Альпаки и Викуньи получены из ChatGPT, а OpenAI прямо запрещает использовать output своих моделей для тренировки коммерческих конкурентов

Крадешь бабки, отмываешь, кладешь отмытое в банк

Собрать открытый датасет пристойного качества, который можно использовать для создания продукта под лицензией Apache 2 - это вполне себе задача. Вот железо найти, как раз не проблема. Оно уже в проекте есть, судя по тому, что они сами пишут

Можно ссылочку? Сходу не нашёл, что там за история изменения лицензии

С новыми моделями типа open-assistant.ai это уже реально. Да, пока они не очень оптимизированы по части требований к ресурсам и для их локального запуска действительно потребуется GPU, который будет стоить как пару Алис. Но ведь есть и промежуточные варианты. Как и новые модели, которые появляются с каждым днём.

Слава богу тут как раз не надо ничего придумывать. В Home Assistant (и паре подобных проектов, но поменьше) уже все придумали. Главное показать пользователю, что покупать проприетарные датчики и исполнительные устройства, которые работают только через WiFi и чьё-то мутное облако покупать не надо. А надо покупать ZigBee и устройства, с которыми можно взаимодействовать напрямую. Это же так просто :)

Поддерживаю всецело. Смысл промт инжиниринга был (да всплыл), пока языковые модели были слабые и немощные, и умели только дополнять предложенный текст. Как только исследователи придумали файнтюнить модели в стиле instruction following, весь смысл промпт инжиниринга канул в прошлое. Как сервисы по настройке карбюраторов, в век инжекторов.

Вы не запускали видимо альпакоподобных на современном мобильном (и доступном) железе

Фактологические вопросы лучше задавать неквантированным моделям с максимальным количеством параметров. Тогда есть хоть какой-то шанс на более-менее правдивый ответ. Сейчас мы по сути разговариваем не с энциклопедией, а с брошюрой, которая может сказочно галлюцинировать. Не стоит об этом забывать

Вот, почитайте - https://github.com/bublint/ue5-llama-lora
Современные UI средства, типа oobabooga's text generation webui (https://github.com/oobabooga/text-generation-webui) уже имеют кое-какие инструменты доступные пользователю из коробки

Я думаю сильно раньше.

Уже сейчас народ прикручивает к голосовым ассистенам языковые модели, но почему-то общественной фантазии хватает пока только на то, чтобы прикрутить модели задеплоенные где-то (типа того же ChatGPT). То есть это еще не "свой личный жарвис", а "дядя дал поиграть своим жарвисом, но может отнять в любой момент". Но это наносное, это пройдёт.

Мне регулярно приходится собеседовать народ на работе и лично я уже давно ушел от практики "напиши мне код который делает то-то"'. Считаю это бессмысленным по многим причинам. Мне важнее понять, способен ли кандидат думать в разных плоскостях, генерировать разные варианты решения одной и той же задачи, критически их оценивать, сравнивать между собой и выбирать наиболее перспективные для дальнейшей проработки с учетом возможных ограничений. Это в работе инженера куда более важный скилл, чем умение писать конечный код

Мне кажется, уважаемый автор спрашивал вообще о возможности запуска каких-либо text-to-image моделей, а не о том, какие из них лучше работают где. Понятно, что на условной 4090 оно будет работать еще лучше, да какой от этого автору прок?

StableDiffusion вполне таки чувствителен к объёму свободной памяти. Я когда я кручу stable-diffusion-ui (https://github.com/AUTOMATIC1111/stable-diffusion-webui) на домашней машине, то наблюдаю, как с моделью 1.4, при совершенно стандартных-из-коробки-настройках для CPU ...

cd <stable-diffusion-ui>
source venv/bin/activate
python launch.py --precision full --no-half --skip-torch-cuda-test

... на старте главный процесс отжирает 6 Гб + при инференсе еще до гигабайта.

Как ориентир, генерация одного изображения 512x512 на простом промпте ("man on a moon") занимает ~ 4 минуты на 4 потоках Ryzen 5 3400G. Мои попытки использовать ROCm, чтобы задействовать возможности встроенного графического ядра в моём Ryzen ни к каким значимым успехам не привели, кроме повышенных объёмов потребляемой памяти. Но готов поверить, что плохо и мало копал.

Попытки воспользоваться какими-то более продвинутыми функциями, типа img2img вообще крашатся по недостатку памяти.

Надо отметить, что весь этот AI/ML софт переживает infancy своего lifecycle. Я регулярно поглядываю на свежие версии, но вижу совершенно необъяснимые косяки и вариацию по части используемой памяти и стабильности генерации. Я думаю где-то через пару лет эта тема устаканится, чтобы это можно было назвать production grade software. Пока это сугубо для энтузиастов-исследователей.

1
23 ...

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions