HA - предок LLM-ок. Строил статистическую модель текста и на основе предыдущего фрагмента пробовал предсказать следующий символ. Разницу между прогнозом и фактом писал в output. Чем точнее прогноз, тем сильнее сжатие.
Техническими мерами, без юридической поддержки, заблочить довольно трудно. Тот же Гугл может собирать всё одним ботом, и технически невозможно отличить индексацию от обучения. А то и вовсе, пользуясь своим браузером, собирать данные с IP-адресов пользователей, от их имени, передавая контент на сервера якобы для работы "персонального ИИ-помощника".
А юридические запреты обучения будут натыкаться на лобби "всё пропало, Китай нас обгоняет".
Любой нормальный сайт скоро им запретит себя парсить. Нафиг это ему надо?
Сборщики данных роют подкоп с другой стороны. Они предоставляют своим пользователям "ИИ-помощника", как то "бразуер с ИИ", или вообще кардинальный вариант "Windows Recall". Тут не бот целенаправленно "парсит сайт", а пользователь сам ходит по страницам, а "помощник" это всё себе записывает. Попробуйте запретить такой "парсинг".
Большие ребята в таких публичных вопросах примерно никогда не врут
Зачем им врать, если они могут отмалчиваться, потому что не обязаны отвечать на вопросы.
Например, LLM-ки обучены на данных Reddit. И что дальше? Reddit не имеет права это запретить, потому что это UGC, а не его личный контент.
Reddit может в принципе заблочить ботов, но тогда потеряет поисковый трафик. В robots.txt нет такого правила, говорящего "индексировать можно, LLM обучать нельзя".
Неверно. В ДОСе EXEшки целиком загружались в память (точней, целиком загружались секции с кодом и данными; управляющая информация использовалась в процессе загрузки, но потом выкидывалась за ненадобностью для дальнейшей работы). Оверлеи же, если были, находились в другом файле
Размер файла определяется в MZ-заголовке 2-м и 3-м словом. Всё, что за пределами этой черты, ОС не загружает в память, и этот остаток на жаргоне назывался "оверлеем" (там могли быть любые ресурсы, которые программа загружает по своему усмотрению).
У меня сейчас перед глазами файл TURBO.EXE (Turbo Pascal 7.0), его размер 0x628C7, размер в заголовке - 0x16060. На границе видно, что начинается "оверлей".
У меня на старом телефоне разболтался USB-порт: зарядка идёт, а данные нет. Это тоже красная тряпка? Ведь "криминалистические тулзы" уже не подключишь, а глазами отсматривать эту помойку, копившуюся годы, нереально.
Таким образом поворот, проекция, границы закраски - вычисляются только для одного кубика, остальные рисуются уже на всём готовом, ну с поправкой на положение на экране. В процессе мы движемся по "логу" вперёд, поэтому все кубики вращаются, повторяя вращения "первого" с некоторым отставанием
Напомнило классический эффект https://youtu.be/w0rFw88ex4c?t=2595 1000 спрайтов на экране, 50 fps - как это возможно на 3.5 MHz ZX-Spectrum?
Секрет в том, что есть 3 буфера, которые циклически переключаются. В каждый буфер подрисовываем очередной шарик на своей позиции, и всё, больше никакого рендеринга. А дальше - магия зацикленной анимации.
Неотключаемые скругления на окнах, кнопках и т.п. Даже в XP можно было вернуть классические прямоугольники. Раздражает, что если делаешь скрин окна, автоматически захватывается грязь вокруг него в несколько пикселей.
Поломаная кастомизация панели задач. Невозможно создавать на таскбаре свои тулбары, а это было удобно, чтобы не лазить в Пуск.
Поломанные системые часы. Невозможно вывести день недели рядом с датой (ещё с 95-й винды форматную строку даты можно было сделать настройкой в реестре, в 11-й сломали). Поломанные интеграции со сторонними часами в трее, такими как T-Clock, которые могли бы теоретически закрыть эту потребность.
Кажется невозможным. На реальном железе я так и не прошёл много чего: Battletoads, R-Type. Потом уже закрыл гештальты в эмуляторе через QuickSave.
По моим воспоминаниям, старые аркады настолько лютые, что приходилось запоминать откуда какая вражина вылезет и заранее к этому готовится. А если дошёл до места, где ещё не бывал - считай, 5 минут жить осталось, и потом всё с самого начала. Зато запомнишь, откуда выпрыгивает новый враг, который тебя грохнул.
Как правило, у вас найдётся возможность скорректировать поведение СУБД в нужную вам сторону. ANSI NULLS в SQL Server
Это безумие, писать на каком-то своём диалекте, когда весь мир уже определился, что хочет ANSI SQL, пусть неудобный и кривой, зато везде одинаковый. Да и на проекте с историей сделать ALTER DATABASE слишком рискованно, вероятно что-то да сломается.
null-safe compare operator <=> в MySQL
Который не помогает например в ситуации из статьи - dept NOT IN (2,3) и не поддерживается ORM.
А вот скорректировать наоборот, чтобы все NULL различались, когда они равны - это сложнее.
Не надо такого. Не могу представить ситуацию, когда в
SELECT DISTINCT dept
или
SELECT ... GROUP BY dept
нужно будет получить столько разных групп c пустым dept, сколько вообще записей с dept=NULL.
Вопрос: что это за "вовлечение владельцев сервисов"? Каких сервисов?
Всё логично. Если какой-нибудь Рамблер захочет подсосаться к белым спискам, то IP-диапазоны его серверов ведомство откуда возьмёт? Должен сам предоставлять, и согласовывать изменения не позднее чем за месяц до их вступления в силу.
Когда не было повального SSL, провайдеры баловались заглушками типа: заходишь на сайт 4pda.ru, а вместо этого "не забудьте оплатить интернет до 1-го числа, а ещё у нас есть новые тарифы и услуги".
Сейчас видимо захотят, чтобы при входе на любой сайт юзер сначала решил гос. капчу, а для этого на устройство надо поставить гос. сертификат. Ну а что, "нет ножек - нет конфетки" (нет серта - нет интернета).
Мне тоже второе мнение ближе. Но в эволюционной борьбе мы обречены вымереть, как динозавры. Потому что сторонники подхода ~"крякает как утка - значит, утка"~ "разговаривает как Джек - значит, Джек" не будут стесняться пользоваться телепортами, которые уничтожают источник, синтезируя копию на другой стороне, не будут стесняться делать свои бекапы и копироваться на другие тела, как-нибудь договорятся между своими копиями о владении собственностью. Когда как сторонники первого будут бояться "ну это же уже не я" и так и помрут от естественных причин (технология, скорее всего, быстрее созреет для первого подхода, чем для второго)
А дальше, за несколько поколений вторых, всё станет настолько привычно, что никто и не будет задаваться вопросами "а что если это не я".
По вашей логике, надо запретить функции выбора, такие как min(x,y), max(x,y), sign(a), abs(a). А то вдруг надо будет не просто выбрать одно из двух, а ещё что-то сделать, например, залогировать выбор. Тогда придётся этот кусок переписывать. Тернарный оператор уместно использовать, если ветвление затрагивает только 1 значение, и нет подходящей встроенной функции. Например, проверка флага и конвертация в bool или string: print( (x & 4) != 0 ? "флаг включен" : "флаг выключен" );
HA - предок LLM-ок. Строил статистическую модель текста и на основе предыдущего фрагмента пробовал предсказать следующий символ. Разницу между прогнозом и фактом писал в output. Чем точнее прогноз, тем сильнее сжатие.
Техническими мерами, без юридической поддержки, заблочить довольно трудно. Тот же Гугл может собирать всё одним ботом, и технически невозможно отличить индексацию от обучения. А то и вовсе, пользуясь своим браузером, собирать данные с IP-адресов пользователей, от их имени, передавая контент на сервера якобы для работы "персонального ИИ-помощника".
А юридические запреты обучения будут натыкаться на лобби "всё пропало, Китай нас обгоняет".
Не зарегулируют, пока есть страшилка в виде Китая. "Вот вы у нас всё зарегулируете, и так вы сами отдадите первенство в ИИ тем, кто не зарегулировал".
Сборщики данных роют подкоп с другой стороны. Они предоставляют своим пользователям "ИИ-помощника", как то "бразуер с ИИ", или вообще кардинальный вариант "Windows Recall". Тут не бот целенаправленно "парсит сайт", а пользователь сам ходит по страницам, а "помощник" это всё себе записывает. Попробуйте запретить такой "парсинг".
Зачем им врать, если они могут отмалчиваться, потому что не обязаны отвечать на вопросы.
Например, LLM-ки обучены на данных Reddit. И что дальше? Reddit не имеет права это запретить, потому что это UGC, а не его личный контент.
Reddit может в принципе заблочить ботов, но тогда потеряет поисковый трафик. В
robots.txtнет такого правила, говорящего "индексировать можно, LLM обучать нельзя".Размер файла определяется в MZ-заголовке 2-м и 3-м словом.
Всё, что за пределами этой черты, ОС не загружает в память, и этот остаток на жаргоне назывался "оверлеем" (там могли быть любые ресурсы, которые программа загружает по своему усмотрению).
У меня сейчас перед глазами файл TURBO.EXE (Turbo Pascal 7.0), его размер 0x628C7, размер в заголовке - 0x16060. На границе видно, что начинается "оверлей".
У меня на старом телефоне разболтался USB-порт: зарядка идёт, а данные нет. Это тоже красная тряпка? Ведь "криминалистические тулзы" уже не подключишь, а глазами отсматривать эту помойку, копившуюся годы, нереально.
Напомнило классический эффект
https://youtu.be/w0rFw88ex4c?t=2595
1000 спрайтов на экране, 50 fps - как это возможно на 3.5 MHz ZX-Spectrum?
Секрет в том, что есть 3 буфера, которые циклически переключаются. В каждый буфер подрисовываем очередной шарик на своей позиции, и всё, больше никакого рендеринга. А дальше - магия зацикленной анимации.
В Windows 11 много чего плохого.
Неотключаемые скругления на окнах, кнопках и т.п. Даже в XP можно было вернуть классические прямоугольники. Раздражает, что если делаешь скрин окна, автоматически захватывается грязь вокруг него в несколько пикселей.
Поломаная кастомизация панели задач. Невозможно создавать на таскбаре свои тулбары, а это было удобно, чтобы не лазить в Пуск.
Поломанные системые часы. Невозможно вывести день недели рядом с датой (ещё с 95-й винды форматную строку даты можно было сделать настройкой в реестре, в 11-й сломали). Поломанные интеграции со сторонними часами в трее, такими как T-Clock, которые могли бы теоретически закрыть эту потребность.
Кажется невозможным.
На реальном железе я так и не прошёл много чего: Battletoads, R-Type.
Потом уже закрыл гештальты в эмуляторе через QuickSave.
По моим воспоминаниям, старые аркады настолько лютые, что приходилось запоминать откуда какая вражина вылезет и заранее к этому готовится. А если дошёл до места, где ещё не бывал - считай, 5 минут жить осталось, и потом всё с самого начала. Зато запомнишь, откуда выпрыгивает новый враг, который тебя грохнул.
Это безумие, писать на каком-то своём диалекте, когда весь мир уже определился, что хочет ANSI SQL, пусть неудобный и кривой, зато везде одинаковый. Да и на проекте с историей сделать ALTER DATABASE слишком рискованно, вероятно что-то да сломается.
Который не помогает например в ситуации из статьи -
dept NOT IN (2,3)и не поддерживается ORM.Не надо такого. Не могу представить ситуацию, когда в
или
нужно будет получить столько разных групп c пустым dept, сколько вообще записей с dept=NULL.
В данном случае не сильно помогает, потому что нельзя применить к задаче
NOT IN (1,2)Можно нормализовать NULL например в (-1)
Не будет работать индекс на dept, если он есть, но в запросе NOT IN индекс и не должен использоваться.
Скажите это "Леста Играм". Хорошо, если сами останетесь на свободе.
Мне очень зашёл аниме-сериал по этой игре.
Всё логично. Если какой-нибудь Рамблер захочет подсосаться к белым спискам, то IP-диапазоны его серверов ведомство откуда возьмёт? Должен сам предоставлять, и согласовывать изменения не позднее чем за месяц до их вступления в силу.
Это подводочка под MITM и гос. сертификат.
Когда не было повального SSL, провайдеры баловались заглушками типа: заходишь на сайт 4pda.ru, а вместо этого "не забудьте оплатить интернет до 1-го числа, а ещё у нас есть новые тарифы и услуги".
Сейчас видимо захотят, чтобы при входе на любой сайт юзер сначала решил гос. капчу, а для этого на устройство надо поставить гос. сертификат. Ну а что, "нет ножек - нет конфетки" (нет серта - нет интернета).
Тут хотя бы чётко просматривается условие между
ifиthenА когда каша ключевых слов в арифметическим выражении, мне такое не нравится.
Мне тоже второе мнение ближе. Но в эволюционной борьбе мы обречены вымереть, как динозавры. Потому что сторонники подхода ~
"крякает как утка - значит, утка"~ "разговаривает как Джек - значит, Джек" не будут стесняться пользоваться телепортами, которые уничтожают источник, синтезируя копию на другой стороне, не будут стесняться делать свои бекапы и копироваться на другие тела, как-нибудь договорятся между своими копиями о владении собственностью. Когда как сторонники первого будут бояться "ну это же уже не я" и так и помрут от естественных причин (технология, скорее всего, быстрее созреет для первого подхода, чем для второго)А дальше, за несколько поколений вторых, всё станет настолько привычно, что никто и не будет задаваться вопросами "а что если это не я".
По вашей логике, надо запретить функции выбора, такие как min(x,y), max(x,y), sign(a), abs(a).
А то вдруг надо будет не просто выбрать одно из двух, а ещё что-то сделать, например, залогировать выбор. Тогда придётся этот кусок переписывать. Тернарный оператор уместно использовать, если ветвление затрагивает только 1 значение, и нет подходящей встроенной функции. Например, проверка флага и конвертация в bool или string:
print( (x & 4) != 0 ? "флаг включен" : "флаг выключен" );