Comments / Profile of logran / Habr

How to become an author

Константин @logran

Пользователь

Profile Publications Comments 1.3KBookmarks 3

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

logran Feb 3 at 13:28

Я могу llama 7b затюнить на данных бенчмарков и она обгонит вообще всё, включая GPT4.

Разумеется, это не гарантирует, что ответ на ваш конкретный запрос (и вообще на любой не из бенчмарков) окажется лучше чем хоть что-либо. Как, в общем-то, и в этой модели от сбера.

+8

Яндексу здесь не место…

logran Jan 22 at 19:25

Китайский вендор далеко и до СНГ-шных лаоваев ему особо дела нет. И реклама от китайских рекламных сетей и маркетплейсов из каждого утюга не лезет.
А товарищ майор - он рядом. Как и все местные рекламодатели, с радостью пылесосящие эти данные.

+17

Исследование: Google и другие поисковики действительно становятся хуже и предлагают всё менее качественный контент

logran Jan 18 at 09:44

Во времена GPT-моделей, моделей для векторных эмбедингов и прочей фигни которая используется для реализации RAG для GPT давно уже можно было бы взять контент выдачи гугла, прогнать на степень схожести (не частотным анализом на плагиат) и повыкидывать нафиг из выдачи всё, что по дате появление позже условных первых 3-х вариантов.

Да - медлено и дорого. Однако это нафиг выкинет 1000 и 1 рерайтные дорвеи, убъет 100500 рерайтных сайтов-помоек и большую часть новостных помоек перепечатывающих новости друг у друга. И у гугла есть на это ресурсы (особенно в свете очередного урезания фри колаба)

И рекламу с оплатой за показы/клики тоже давно пора убить, оставив лишь оплату за фактическую конверсию (покупку/подписку/регистрацию), чтобы подобным сайтам не было за счет чего приносить прибыль.

+2

AI-генераторы порно фото: этика, тренды и законодательство

logran Jan 8 at 09:20

можно и нужно всех уничтожить физически, и больше их не будет.

Знакомая риторика, Гитлер также про евреев думал =)

+5

AI-генераторы порно фото: этика, тренды и законодательство

logran Jan 8 at 09:19

с его помощью очень легко генерировать ЦП. Я про локальную версию. Так что регулирование все же наверное требуется.

Вот это вот меня не перестает удивлять. Ищущие ЦП все равно будут его искать (и порождать спрос). А значит будет и предложение. И чем большо ограничивают синтетическое предложение - тем выше вероятность, что для удовлетворения спроса пострадают реальные дети.

Борьба с ЦП - хорошо. Борьба с рисующими подобное художниками \ аниматорами \ нейронками, по факту в конечном итоге приводящая к большему производству именно ЦП, а не его изображений - ну такое.

+9

AI-генераторы порно фото: этика, тренды и законодательство

logran Jan 8 at 08:47

Ну и философский вопрос, чем человек, пытающийся "оплодотворить" решетку цветных пикселей на экране ушел дальше в своём развитии от автралийских жуков, которые пытаются оплодотворить пивные бутылки, нагревшиеся на солнце?

Этот вопрос можно в целом ко всей порно-индустрии отнести. Ибо картинка на экране потребителя - это всегда картинка на экране, независимо от того сгенерированная ли это нейро-вайфу или вебкамщица из Норильска, захваченная на камеру.

+4

Почему с каждой новой версией Windows от нее усиливается усталость

logran Jan 7 at 20:53

Мы за систему, уж извините, деньги заплатили. Нас не надо рекламой и партнерами монетизировать.

Весь этот хлам можно было сделать опционально включаемым (а не выключаемым). Хотя бы в активированной (т.е купленной) системе. Для не активированной можно и принудительно крутить.

А иначе это свинское отношение к своему потребителю как минимум.

0

Почему с каждой новой версией Windows от нее усиливается усталость

logran Jan 7 at 18:51

Имхо, храни господь от мака. То, что в линуксе делается двумя строками в консоли от юзера, в винде - парой флагов реестра, в маке зачастую потребует прав админа и удаления гланд через одно место потому что эплу виднее что надо юзеру, чего не надо, а о чем он знать вообще в принципе не имеет права.

+4

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

logran Jan 4 at 00:05

Да, но для аналога копилота не надо 32к. Это контекст который для загрузки целых больших документов и книг обычно используется. И опять же - Yi-34b в exl2 влазит в уже не молодую 3090 вместе с 32к контекстом спокойно. А при определенных допущениях и с большим. И большинство бэкэндов контекст кэширует, так что даже если не влазит - долгое обращение лишь при первом запросе.

+1

Почему больше не стоит писать для Рунета

logran Jan 2 at 21:43

Ой сколько кодеров-то убил чудо-код из chatgpt...

А вдруг кого-то таки довел до инфаркта? На него зачастую без слёз не взглянешь...

+5

Почему больше не стоит писать для Рунета

logran Jan 2 at 21:39

Тот, кто говорит вам "свяжитесь с людьми и возьмите данные", может взять эти данные сам, а затем скормить сети, устранив тем самым ненужное оплачиваемое звено.

И если основной труд заключается не получении нужной инфы по заранее выданным контактам, а в написании - тот тут нейронка будет куда выгоднее человека.

+3

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

logran Jan 2 at 20:51

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть").

Если вы не гонитесь за космическими скоростями, то есть вариант с Tesla P40 за 160$. Да, зимой вместо отопления (3090 в этом плане не лучше), но за такую смешную цену вы даже 3060 не возьмете, а тут целые 24гб VRAM.

0

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

logran Jan 2 at 20:48

Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI

Локально размещенный AI имеет всё то же самое. У Mixtral-а контекст 32к, у Yi-34b есть вообще варианта в 200к (реально норм отвечает на примерно 100к контекста, дальше путается), на 3090/4090 с определенным допущениями влазит порядка 60-75к.

0

Реальная Грузия: грустные факты, которые вас разочаруют

logran Dec 27 2023 at 08:30

Предлагаю с таким вашим подходом за общественный транспорт всем платить, в том числе и владельцам автомобилей.
Оплачивать общественный транспорт должны все, и это справедливо по той простой причине, что он нужен и принадлежит всем в стране - без него куча людей на рабочие места не могли бы попасть, встала бы куча предприятий в стране и всем бы это аукнулось.

И за дороги налог тоже все платить должны, даже пешеходы. Иначе им бы и общественного транспорта не было, если бы не дороги. Так можно долго продолжать.

+1

Чьи права на то, что сделала нейросеть

logran Dec 22 2023 at 22:35

В случае фотошопа аналогично "Кто там и что "решает" -- нет про это ничего в приведенной цитате." Автор возит мышкой по столу в случайном месте и права у него на передачу координат кликов мыши, выходит. На "порождаемое отображение" (линии, определенным цветом, кистью и толщиной) - права у автора программы.

+1

Чьи права на то, что сделала нейросеть

logran Dec 22 2023 at 16:06

А в случае с чатгпт все немного не так.

Как те или иные токены на вход подать для получения нужного распределения вероятностей - тоже автор решает. Никакой разницы.

ChatGPT - это лишь инструмент бессмылсенного порождения токенов. А вот то, какие и в каком порядке оно будет порождать - напрямую зависит от выставленных настроек семплера и подданых на вход последовательностей. На выставленное случайным образом оно породит вам шум, внешне похожий на base64 например, а не что-то кажущееся людям осмысленным.

0

Чьи права на то, что сделала нейросеть

logran Dec 22 2023 at 15:59

Мне вспоминается, когда на девиантарте и артстейшоне начали массово постить картинки "нет AI", то это подпортило модели, которые обучались на массиве картинок, которые тупо стянули с этих сайтов.

Когда они это делали - модели уже давно были обучены и существовали, уже позно что-либо портить. Народ генерил с ватемаркой чисто ради троллинга.

0

Лауреаты Пулитцеровской премии присоединились к иску против OpenAI и Microsoft о нарушении авторских прав

logran Dec 22 2023 at 14:57

На авторов читов к играм подают в суд:
На авторов вирусов тоже

Вредоносное ПО - это отдельный случай. Его и изготовление и распростанение в большинстве случаев запрещено.

Как показывает практика ChatGPT содержит данные на которых обучался и к ним можно получить доступ: https://habr.com/ru/articles/777970/

ChatGPT содержит производные от данных, самих данных оно не содержит. Нейронки - это не база данных и в себе ничего не хранят, даже пре оверфите они идеальное совпадение дать могут лишь в пограничных случаях.

0

Лауреаты Пулитцеровской премии присоединились к иску против OpenAI и Microsoft о нарушении авторских прав

logran Dec 21 2023 at 20:11

Но если он создаст печатный пересказ в Microsoft Word - подадут то на человека, а не на иснтрумент, с помощью которого он это сделал?

GPT само ничего не перскажет. Само оно просто лежит на диске набором байт и не делает вообще ничего. Должен быть человек, который его:
1) Запустит.
2) Сформирует преступный замысел (пересказать закопирайченный сюжет с заменой дейстующих лиц).
3) Использует для этого запущенное ПО.
4) Выложит результат в публичных доступ или иным путем попытается нарушить авторские права.

При любом раскладе - ициатор и исполнитель преступления - конкретный человек, сделавший это сознательно и добровольно, по своему умыслу. И судиться надо с ним как с нарушителем. А не с ПО, которое он использовал для воплощения преступного замысла. И не с авторами ПО.

Ибо замените в этой цепочке одно ПО на другое (GPT на MS Word) и ничего существенно не изменится кроме степени простоты воплощения преступного замысла.

За убийство из огнестрельного оружия судятся же с убийцей, а не с оружейной компанией, верно? А огнестрельное оружие настолько же облегчает убийство в сравннении с условной битой.

+1

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

logran Dec 19 2023 at 23:43

Вот только есть небольшой нюанс: GPT выводит распределение вероятностей токенов, а не один токен.

Я знаю. И вариативность вывода как раз и заключается в том, что он берет не наиболее вероятный, а случайный (согласно определенному алгоритму либо ГПСЧ) из предложенных семплером укладывающихся в вилку вероятнестей согласно настройкам. Но даже это технически воспроизводимые условия. И ничто не мешает настроить семплер на детерменированный результат (с 1 токеном).

0

2

3 4 ...