Конкретно про опенсорс сейчас не нашёл. Но вот тут, например, говорится о недавнем суде, где нейросеть выдавала текст песенки, а владельцам авторских прав это не понравилось. Создатель ИИ теперь будет строже фильтровать вывод. Но если ИИ может дословно процитировать песенку, то что ему помешает (если специально не фильтровать) процитировать, например, bash?
Ну и в этой же статье упоминается, что у Copilot'а появилась галочка не предлагать код, совпадающий с известными репозиториями. Если бы проблемы не было, то и галочка была бы не нужна.
ИИ можно и спросить об этом. Типа, как называется такая-то внутренняя функция? Человека можно отправить на детектор лжи.
К тому же, я бы сказкал, что «видел» бывают разные. Выучить наизусть исходники какого-нибудь крупного проекта у человека быстро не получится. Только если в самой сердцевине ухватить какую-то ключевую идею. (Но эта идея и так может в ТЗ быть описана.) Чтобы знать проект в деталях, это надо с ним долго работать. А это по резюме видно. А вот LLM, будучи «T9 на стероидах», как раз могут неплохо посимвольно запоминать.
А вот тут тонкий момент и есть. Если человек нарисует похожего Микки-Мауса, то Дисней может наехать, так как у них зарегистрирован графический торговый знак, и учитывается не только стопроцентная идентичность, но и похожесть. И тут и возникает вопрос, при какой степени похожести можно говорить о плагиате?
В случае с человеком в чистой комнате, гарантируется, что этот человек переписываемый код не видел. А в случае с нейросетью, обученной на этом же опенсорсе, получается ровно наоборот, так как она переписываемый код видела, хоть и пытается галлюцинировать по ТЗ. Помнится, в некторых LLM иногда генерация кода так и начиналась с // Copyright Microsoft.
Шутки шутками, а недавно была новость, что один товарищ взял да и переписал библиотеку с LGPL на MIT. Теперь все и обсуждают, а насколько законно с точки зрения авторских прав.
Только тут есть проблема с обучением «чистой» нейросети. Если её обучали на том же опенсорсе (а на чём её ещё обучать, чтобы она хорошо код писала?), то это уже не совсем чистый эксперимент, ибо может навствлять в вывод куски под непонятными лицензиями из других проектов, включая копилефтные.
Комиссии за пополнение, комиссии за транзакции, собственный курс валют... Хотелось бы увидеть главную табличку — суммарно по сравнению с курсом ЦБ сколько процентов набегает?
Я хотел было оформить в одном сервисе, чтобы пару фотографий в одном фотобанке легально купить. Залез в дебри сайта, так как всё было раскидано по разным местам, посчитал, получилось, что комиссия платёжной системы порядка 20%. Так ещё, внезапно, фотобанк добавил RUVAT в размере 22% к цене. Просуммировал — решил, что не так уж мне это и нужно.
Так при записи инкрементного необязательно все файлы перечитывать. В большинстве случаев, могут посмотреть по времени модификации и размеру. Каталоги, да, перечитаются, а вот сами блоки с данными останутся нетронутыми. Видимо, при всём богатстве выбора, dd — наиболее надёжный вариант.
Что касается системных областей, их, как правило, стараются делать из более надёжной памяти. Например, используют SLC вместо MLC. Так что у системных обычно время жизни дольше. А с остальным, действительно, непонятно.
Так это ещё нужно знать, что за контроллер внутри каждого диска стоит. Да и не факт, что такие низкоуровневые детали есть в открытом доступе. В общем, проще самому весь диск перечитать. (А в идеале ещё и файлик с контрольными суммами файлов завести и по нему проверить.) Так хотя бы можно будет раньше потерю данных заметить.
Так вот при всех отличиях энтерпрайзных и домашних SSD, домашний-то точно после включения раз в полгода будет перечитывать все блоки или таки лучше вручную скопировать весь диск в /dev/null (ну или в nul)? Отдельный вопрос, а как диск узнаёт, что его не включали давно — неужто в протоколе есть передача текущего времени диску?
Многие уже пытаются вычислять размер доходов, например, через GeoIP (IP с условной Рублёвки). Многих ловили на этом. Но, насколько помню, суд в Штатах постановил, что дискриминация по толщине кошелька дискриминацией не является. Поэтому, да, вы можете платить больше — вот вам и цена выше.
ИП (по крайней мере некоторые) прекрасно обходятся без госуслуг. Для подачи отчётности требуется токен от налоговой. Он к ЕСИА не привязан. А для каких-то разовых вещей можно и в Мои Документы съездить.
Важно: ORDER BY — довольно ресурсоемкая операция. Если вы сортируете миллион строк по текстовому полю без индексов, база может "задуматься" надолго. Но об индексах мы поговорим чуть позже.
Отдельные умельцы могут написать запрос так, что ни один индекс не поможет. В одном крупном интернет-магазине захотели показывать на каждой странице десять случайных товаров. Но что-то пошло не так, сайт стал сильно тормозить, так как довольно мощный сервер прилёг от нагрузки. Когда меня попросили посмотреть, я увидел там это:
SELECT * FROM goods ORDER BY rand() LIMIT 10;
Никакого кэширования результатов тоже не было, поэтому сервер честно каждый раз выполнял запрос.
А что происходит в агентской схеме с НДС? В случае прямого сотрудничества, если ИП предоставляет услуги, то является экспортёром, что освобождает от НДС (если я праивильно понимаю). А вот при предоставлении услуг российским компаниям, НДС платить надо. Но агентское юр. лицо будет же российским — не захочет ли налоговая доначислить НДС?
Конкретно про опенсорс сейчас не нашёл. Но вот тут, например, говорится о недавнем суде, где нейросеть выдавала текст песенки, а владельцам авторских прав это не понравилось. Создатель ИИ теперь будет строже фильтровать вывод. Но если ИИ может дословно процитировать песенку, то что ему помешает (если специально не фильтровать) процитировать, например, bash?
Ну и в этой же статье упоминается, что у Copilot'а появилась галочка не предлагать код, совпадающий с известными репозиториями. Если бы проблемы не было, то и галочка была бы не нужна.
ИИ можно и спросить об этом. Типа, как называется такая-то внутренняя функция? Человека можно отправить на детектор лжи.
К тому же, я бы сказкал, что «видел» бывают разные. Выучить наизусть исходники какого-нибудь крупного проекта у человека быстро не получится. Только если в самой сердцевине ухватить какую-то ключевую идею. (Но эта идея и так может в ТЗ быть описана.) Чтобы знать проект в деталях, это надо с ним долго работать. А это по резюме видно. А вот LLM, будучи «T9 на стероидах», как раз могут неплохо посимвольно запоминать.
А вот тут тонкий момент и есть. Если человек нарисует похожего Микки-Мауса, то Дисней может наехать, так как у них зарегистрирован графический торговый знак, и учитывается не только стопроцентная идентичность, но и похожесть. И тут и возникает вопрос, при какой степени похожести можно говорить о плагиате?
В случае с человеком в чистой комнате, гарантируется, что этот человек переписываемый код не видел. А в случае с нейросетью, обученной на этом же опенсорсе, получается ровно наоборот, так как она переписываемый код видела, хоть и пытается галлюцинировать по ТЗ. Помнится, в некторых LLM иногда генерация кода так и начиналась с
// Copyright Microsoft.Шутки шутками, а недавно была новость, что один товарищ взял да и переписал библиотеку с LGPL на MIT. Теперь все и обсуждают, а насколько законно с точки зрения авторских прав.
Только тут есть проблема с обучением «чистой» нейросети. Если её обучали на том же опенсорсе (а на чём её ещё обучать, чтобы она хорошо код писала?), то это уже не совсем чистый эксперимент, ибо может навствлять в вывод куски под непонятными лицензиями из других проектов, включая копилефтные.
Комиссии за пополнение, комиссии за транзакции, собственный курс валют... Хотелось бы увидеть главную табличку — суммарно по сравнению с курсом ЦБ сколько процентов набегает?
Я хотел было оформить в одном сервисе, чтобы пару фотографий в одном фотобанке легально купить. Залез в дебри сайта, так как всё было раскидано по разным местам, посчитал, получилось, что комиссия платёжной системы порядка 20%. Так ещё, внезапно, фотобанк добавил RUVAT в размере 22% к цене. Просуммировал — решил, что не так уж мне это и нужно.
Так при записи инкрементного необязательно все файлы перечитывать. В большинстве случаев, могут посмотреть по времени модификации и размеру. Каталоги, да, перечитаются, а вот сами блоки с данными останутся нетронутыми. Видимо, при всём богатстве выбора,
dd— наиболее надёжный вариант.Что касается системных областей, их, как правило, стараются делать из более надёжной памяти. Например, используют SLC вместо MLC. Так что у системных обычно время жизни дольше. А с остальным, действительно, непонятно.
Так это ещё нужно знать, что за контроллер внутри каждого диска стоит. Да и не факт, что такие низкоуровневые детали есть в открытом доступе. В общем, проще самому весь диск перечитать. (А в идеале ещё и файлик с контрольными суммами файлов завести и по нему проверить.) Так хотя бы можно будет раньше потерю данных заметить.
То, что можно измерить, это понятно. Вопрос в том, делает ли это обычный домашний диск или лучше не рисковать и перечитывать все блоки самому?
Так вот при всех отличиях энтерпрайзных и домашних SSD, домашний-то точно после включения раз в полгода будет перечитывать все блоки или таки лучше вручную скопировать весь диск в
/dev/null(ну или вnul)? Отдельный вопрос, а как диск узнаёт, что его не включали давно — неужто в протоколе есть передача текущего времени диску?Многие уже пытаются вычислять размер доходов, например, через GeoIP (IP с условной Рублёвки). Многих ловили на этом. Но, насколько помню, суд в Штатах постановил, что дискриминация по толщине кошелька дискриминацией не является. Поэтому, да, вы можете платить больше — вот вам и цена выше.
ИП (по крайней мере некоторые) прекрасно обходятся без госуслуг. Для подачи отчётности требуется токен от налоговой. Он к ЕСИА не привязан. А для каких-то разовых вещей можно и в Мои Документы съездить.
А потом кто-то введёт промпт: «Воспроизведи себя» ©
Применительно к КДПВ, если вглядываться в инфракрасном диапазоне, то не так уж там и пусто — пыли просто много.
Делаем скриншоты с трёх аккаунтов, а затем попиксельно считаем среднее арифметическое.
Возможно, против такого водяные знаки лучше располагать со случайным смещением.
Особенно, если бактерия мутирует и подстроится под другие питательные вещества.
Отдельные умельцы могут написать запрос так, что ни один индекс не поможет. В одном крупном интернет-магазине захотели показывать на каждой странице десять случайных товаров. Но что-то пошло не так, сайт стал сильно тормозить, так как довольно мощный сервер прилёг от нагрузки. Когда меня попросили посмотреть, я увидел там это:
Никакого кэширования результатов тоже не было, поэтому сервер честно каждый раз выполнял запрос.
Не про DNS, но внезапно git.kernel.org оказался замедлен. После получения первых нескольких килобайт тишина.
А что происходит в агентской схеме с НДС? В случае прямого сотрудничества, если ИП предоставляет услуги, то является экспортёром, что освобождает от НДС (если я праивильно понимаю). А вот при предоставлении услуг российским компаниям, НДС платить надо. Но агентское юр. лицо будет же российским — не захочет ли налоговая доначислить НДС?