Pull to refresh
4
0.1
Константин @logran

Пользователь

Send message

Я могу llama 7b затюнить на данных бенчмарков и она обгонит вообще всё, включая GPT4.

Разумеется, это не гарантирует, что ответ на ваш конкретный запрос (и вообще на любой не из бенчмарков) окажется лучше чем хоть что-либо. Как, в общем-то, и в этой модели от сбера.

Китайский вендор далеко и до СНГ-шных лаоваев ему особо дела нет. И реклама от китайских рекламных сетей и маркетплейсов из каждого утюга не лезет.
А товарищ майор - он рядом. Как и все местные рекламодатели, с радостью пылесосящие эти данные.

Во времена GPT-моделей, моделей для векторных эмбедингов и прочей фигни которая используется для реализации RAG для GPT давно уже можно было бы взять контент выдачи гугла, прогнать на степень схожести (не частотным анализом на плагиат) и повыкидывать нафиг из выдачи всё, что по дате появление позже условных первых 3-х вариантов.

Да - медлено и дорого. Однако это нафиг выкинет 1000 и 1 рерайтные дорвеи, убъет 100500 рерайтных сайтов-помоек и большую часть новостных помоек перепечатывающих новости друг у друга. И у гугла есть на это ресурсы (особенно в свете очередного урезания фри колаба)

И рекламу с оплатой за показы/клики тоже давно пора убить, оставив лишь оплату за фактическую конверсию (покупку/подписку/регистрацию), чтобы подобным сайтам не было за счет чего приносить прибыль.

можно и нужно всех уничтожить физически, и больше их не будет.

Знакомая риторика, Гитлер также про евреев думал =)

с его помощью очень легко генерировать ЦП. Я про локальную версию. Так что регулирование все же наверное требуется.

Вот это вот меня не перестает удивлять. Ищущие ЦП все равно будут его искать (и порождать спрос). А значит будет и предложение. И чем большо ограничивают синтетическое предложение - тем выше вероятность, что для удовлетворения спроса пострадают реальные дети.

Борьба с ЦП - хорошо. Борьба с рисующими подобное художниками \ аниматорами \ нейронками, по факту в конечном итоге приводящая к большему производству именно ЦП, а не его изображений - ну такое.

Ну и философский вопрос, чем человек, пытающийся "оплодотворить" решетку цветных пикселей на экране ушел дальше в своём развитии от автралийских жуков, которые пытаются оплодотворить пивные бутылки, нагревшиеся на солнце?

Этот вопрос можно в целом ко всей порно-индустрии отнести. Ибо картинка на экране потребителя - это всегда картинка на экране, независимо от того сгенерированная ли это нейро-вайфу или вебкамщица из Норильска, захваченная на камеру.

Мы за систему, уж извините, деньги заплатили. Нас не надо рекламой и партнерами монетизировать.

Весь этот хлам можно было сделать опционально включаемым (а не выключаемым). Хотя бы в активированной (т.е купленной) системе. Для не активированной можно и принудительно крутить.

А иначе это свинское отношение к своему потребителю как минимум.

Имхо, храни господь от мака. То, что в линуксе делается двумя строками в консоли от юзера, в винде - парой флагов реестра, в маке зачастую потребует прав админа и удаления гланд через одно место потому что эплу виднее что надо юзеру, чего не надо, а о чем он знать вообще в принципе не имеет права.

Да, но для аналога копилота не надо 32к. Это контекст который для загрузки целых больших документов и книг обычно используется. И опять же - Yi-34b в exl2 влазит в уже не молодую 3090 вместе с 32к контекстом спокойно. А при определенных допущениях и с большим. И большинство бэкэндов контекст кэширует, так что даже если не влазит - долгое обращение лишь при первом запросе.

Ой сколько кодеров-то убил чудо-код из chatgpt... 

А вдруг кого-то таки довел до инфаркта? На него зачастую без слёз не взглянешь...

Тот, кто говорит вам "свяжитесь с людьми и возьмите данные", может взять эти данные сам, а затем скормить сети, устранив тем самым ненужное оплачиваемое звено.

И если основной труд заключается не получении нужной инфы по заранее выданным контактам, а в написании - тот тут нейронка будет куда выгоднее человека.

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть").

Если вы не гонитесь за космическими скоростями, то есть вариант с Tesla P40 за 160$. Да, зимой вместо отопления (3090 в этом плане не лучше), но за такую смешную цену вы даже 3060 не возьмете, а тут целые 24гб VRAM.

Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI

Локально размещенный AI имеет всё то же самое. У Mixtral-а контекст 32к, у Yi-34b есть вообще варианта в 200к (реально норм отвечает на примерно 100к контекста, дальше путается), на 3090/4090 с определенным допущениями влазит порядка 60-75к.

Предлагаю с таким вашим подходом за общественный транспорт всем платить, в том числе и владельцам автомобилей.  
Оплачивать общественный транспорт должны все, и это справедливо по той простой причине, что он нужен и принадлежит всем в стране - без него куча людей на рабочие места не могли бы попасть, встала бы куча предприятий в стране и всем бы это аукнулось.

И за дороги налог тоже все платить должны, даже пешеходы. Иначе им бы и общественного транспорта не было, если бы не дороги. Так можно долго продолжать.

В случае фотошопа аналогично "Кто там и что "решает" -- нет про это ничего в приведенной цитате." Автор возит мышкой по столу в случайном месте и права у него на передачу координат кликов мыши, выходит. На "порождаемое отображение" (линии, определенным цветом, кистью и толщиной) - права у автора программы.

 А в случае с чатгпт все немного не так.

Как те или иные токены на вход подать для получения нужного распределения вероятностей - тоже автор решает. Никакой разницы.

ChatGPT - это лишь инструмент бессмылсенного порождения токенов. А вот то, какие и в каком порядке оно будет порождать - напрямую зависит от выставленных настроек семплера и подданых на вход последовательностей. На выставленное случайным образом оно породит вам шум, внешне похожий на base64 например, а не что-то кажущееся людям осмысленным.

Мне вспоминается, когда на девиантарте и артстейшоне начали массово постить картинки "нет AI", то это подпортило модели, которые обучались на массиве картинок, которые тупо стянули с этих сайтов.

Когда они это делали - модели уже давно были обучены и существовали, уже позно что-либо портить. Народ генерил с ватемаркой чисто ради троллинга.

На авторов читов к играм подают в суд: 
На авторов вирусов тоже

Вредоносное ПО - это отдельный случай. Его и изготовление и распростанение в большинстве случаев запрещено.

Как показывает практика ChatGPT содержит данные на которых обучался и к ним можно получить доступ: https://habr.com/ru/articles/777970/

ChatGPT содержит производные от данных, самих данных оно не содержит. Нейронки - это не база данных и в себе ничего не хранят, даже пре оверфите они идеальное совпадение дать могут лишь в пограничных случаях.

Но если он создаст печатный пересказ в Microsoft Word - подадут то на человека, а не на иснтрумент, с помощью которого он это сделал?

GPT само ничего не перскажет. Само оно просто лежит на диске набором байт и не делает вообще ничего. Должен быть человек, который его:
1) Запустит.
2) Сформирует преступный замысел (пересказать закопирайченный сюжет с заменой дейстующих лиц).
3) Использует для этого запущенное ПО.
4) Выложит результат в публичных доступ или иным путем попытается нарушить авторские права.

При любом раскладе - ициатор и исполнитель преступления - конкретный человек, сделавший это сознательно и добровольно, по своему умыслу. И судиться надо с ним как с нарушителем. А не с ПО, которое он использовал для воплощения преступного замысла. И не с авторами ПО.

Ибо замените в этой цепочке одно ПО на другое (GPT на MS Word) и ничего существенно не изменится кроме степени простоты воплощения преступного замысла.

За убийство из огнестрельного оружия судятся же с убийцей, а не с оружейной компанией, верно? А огнестрельное оружие настолько же облегчает убийство в сравннении с условной битой.

Вот только есть небольшой нюанс: GPT выводит распределение вероятностей токенов, а не один токен.

Я знаю. И вариативность вывода как раз и заключается в том, что он берет не наиболее вероятный, а случайный (согласно определенному алгоритму либо ГПСЧ) из предложенных семплером укладывающихся в вилку вероятнестей согласно настройкам. Но даже это технически воспроизводимые условия. И ничто не мешает настроить семплер на детерменированный результат (с 1 токеном).

Information

Rating
2,966-th
Location
Гомель, Гомельская обл., Беларусь
Date of birth
Registered
Activity