Вы платите миллионы за продукт, а через год выясняется, что он написан на украденном коде или использует «запрещенный» Open Source.
Про Open Source не понял. Я не представляю себе продукта, где так или иначе не использовался бы Open Source. Начнем с того, что большинство языков программирования и их стандартные библиотеки оупенсорсные. Движки, фреймворки и пр. в большинстве своем тоже опенсорсные. Даже в основе андроида лежит оупенсорсный линукс, а в основе macos - оупенсорсная freebsd. Все стеки типа: Django/js/React - оупенсорсные.
Приведите пожалуйста примеры софта, где бы ни в каком виде (включая языки программирования) не использовалось бы опенсорсное ПО. Я не понимаю, о чем речь.
И почему нельзя использовать оупенсорсное ПО в коммерческих разработках? Многие оупенсорсные лицензии это позволяют.
Вот меня тоже достало... 50% англоязычных сайтов с тех документациями тупо не открываются или открываются на десятый раз. А мне срочно надо API посмотреть... Со всех сторон обложили. Наложили санкции с двух сторон, я как между молотом и наковальней.
Блокируют и очень часто. И дело не в политике. Я сам недавно заблокировал (почти) всю заграницу на своем сервере после нескольких ддос-атак на сайт. Ограничился настройками nginx. И это в моем случае сработало. Думаю, аналогично поступают многие - просто блокируют большинство стран (или все кроме своей), не разбираясь.
А есть разрешенные VPN? Пусть он блокирует запрещенные (в РФ) ресурсы, но главное, чтобы пускал к зарубежным ресурсам, которые нас заблокировали. Мне просто нужен доступ к технической документации по разным программным продуктам.
Попросил у КОГО? У неиденфицированного лица? Вообще можно ли выполнить требования законодательства в области ПД в полном объеме, если личность не идентифицирована? Мне кажется, это невозможно. Мы уже на самом первом шаге упираемся в невозможность взять согласие ДО обработки таких технических данных как куки и IP. Т.е. формально нарушение будет в любом случае, как ни крутись.
и тут нужно ориентироваться на судебную практику
Ну вот я пока не видел ни одного дела, где наказали бы только за куки или ip сами по себе, без сбора каких-либо настоящих ПД.
при этом настроил этот сайт так, что пдн посетителя уехали в Гугл.
ПД то откуда взялись? У меня то нет никаких ПД. Сама по себе кука это еще не ПД. А если гугл где-то ранее у себя надыбал реальные ПД и имеет возможность их связать со своей кукой, то логично вопросы задавать к гуглу или к тому, у кого он взял настоящие ПД.
И как по IP вы идентифицируете личность? Предположим, я зашел когда то на ваш сайт - открыл главную страницу и сразу ушел... А потом прихожу к вам, говорю, что я Вася Пупкин и хочу получить от вас информацию, о хранящихся у вас ПД обо мне. И что вы будете делать? Как будете искать меня, Васю Пупкина, по своим логам? Кстати, а вы согласие с меня взяли, прежде чем мой ip адрес логгировать?
Со сценарием 2 не так все ясно. Потому что это конечно обработка ПДн и нарушение, но глобальным наблюдателем, а не владельцем сайта. В случае зарубежных глобальных наблюдателей с учетом сложившейся обстановки видимо спорить бесполезно. В случае отечественных вопрос сложный. Было бы интересно больше подробностей по имеющейся практике.
Смотрите (рассмотрим метрику), куку в браузер посетителя загоняет яндекс, причем напрямую со своего сервера, ваш сервер в этом не участвует. Как мы уже установили, кука сама по себе не может быть ПД. Если яндекс как то сможет сопоставить свою (!) куку с какими то реальными (хранящимися у него) ПД, то кто является обработчиком этих ПД? Логично предположить, что тот, кто владеет реальными ПД.
Основная проблема в том, что если так широко толковать и натягивать сову на глобус, то возникнет много побочных эффектов, под которые подпадут практически все, т.к. практически всё можно будет трактовать как сбор ПД.
Например, при такой натянутой трактовке под обработку ПД подпадают гугл-шрифты, многие рекламные баннеры, любые cdn-скрипты, dns-сервера, шлюзы, видеокамеры (ведь можно же теоретически идентифицировать личность прохожего в красной куртке, прошедшего мимо магазина с видеокамерой... если поднять на ноги милицию, полицию... А ведь некоторые так широко толкуют - дескать, достаточно теоретической возможности установить личность) и т.д. и т.п.
Ну в данном примере ИИ написала стандартный клиент к Gemini, и всё. Аналогичным решением было бы нагуглить статью с пошаговым руководством по установке такого web-клиента.
Я про объективную реальность. Впрочем, и в законодательных нормативных актах про куки вроде ничего не сказано. Всё это натягивание совы на глобус является результатом толкований юристов, которые увидели в этом горячую тему.
Куки сами по себе - это не ПД! Они могут быть лишь способом обработки ПД, если таковые собираются.
Куку вы (ваш сайт) сами формируете и записываете в браузер посетителя.
Если не согласны, ответьте на простой вопрос... Предположим, у вас есть сайт, использующий статистические куки, но не собирающий никаких нормальных ПД.
И вот к вам обратился некий Вася Пупкин с требованием предоставить хранящуюся у вас персональную информацию о нем. Законное требование? Законное! Ведь если он посещал ваш сайт, а куки - это ПД, то вы ведь должны дать ответ. Не так ли? А как ответ то давать будете? Сможете ли вы вообще связать этого конкретного Васю Пупкина со своими статистическими данными? Ведь статистика ваша сводится к тому, что номер 123 (сгенерированный вами же) провел на странице такой то 5 минут. Не сможете? Вот то то же...
Не вижу принципиальной разницы между результатами ИИ и фотографией.
В фотографии вы исследуете реальную реальность (ищете красивое освещение, ракурсы и пр.), потом нажимаете кнопку и фотоаппарат/смартфон всё остальное делает за вас... Да еще и нейросетью дорисует...
При работе с нейросетью вы аналогично исследуете реальность, только не реальную, а виртуальную (подбираете промпты, отбрасываете неудачные результаты, допиливаете промпты, делаете дополнительную обработку, компоновку и пр.).
Почему то многие не понимают, что сам по себе отбор зерен из кучи плевел - это уже творческий процесс.
То же самое с текстами:
Например, я придумал сюжет, главных героев, дал им имена, в общем всё продумал, а потом использовал LLM лишь для конечного синтеза текста. Разве это не творческий процесс?
Первое: Видюха должна быть минимум 4090, а лучше 5090.
Второе: не надо использовать эту вид.ху для вывода изображения на монитор. На монитор выводите изображение через вторую (отдельную или встроенную в материнку) видеокарту. Тогда вы сэкономите пару гигабайт драгоценной видеопмяти.
Третье: использовать квантованные LLM минимум на 27-32B.
Четвертое: нельзя использовать эти модели сами по себе, т.е. нельзя полагаться на ИХ ответы, т.к. область знаний у них урезана. Но некоторые модели очень хорошо говорят по русски, также хорошо анализируют подсунутый им контекст. Поэтому мой главный вывод: локальные модели можно использовать только вместе с технологией RAG, гда факты и прочая инфа будет модели предоставлена.
Интересный кэйс, но со множеством нюансов и сложностей. Первое впечатление, что всё просто, обманчиво.
У меня в задумках и в развитии тоже подобная идея генерации (только на локальных LLM), но... тупо генерить контент - бессмысленно и неинтересно, на первом месте должна стоять РЕАЛЬНАЯ польза для посетителей. Информация должна быть на 99% достоверной (поэтому применение RAG неизбежно). В итоге пришел к выводу, что LLM целесообразно использовать только как тупой синтезатор складного грамотного текста заранее подготовленного достоверного материала. Так что проблема так или иначе упирается в подготовку качественного исходного материала.
Что у меня в итоге получается за полгода? Да ничего пока. Причина? Полностью еще не решил проблемы с достоверностью и (реальной) пользой. А генерить абы что - это тупик
Ну если куки считать персональными данными, то по этой логике и загружаемые по CDN скрипты, включая гугл-шрифты, можно считать перс. данными. Ведь эти загрузки также как и счетчики позволяют отслеживать действия посетителей.
Так это самое интересное. Там много нюансов. Например, когда напрямую встраивать этот код в свой продукт нельзя, но использовать как сервис можно.
Про Open Source не понял. Я не представляю себе продукта, где так или иначе не использовался бы Open Source. Начнем с того, что большинство языков программирования и их стандартные библиотеки оупенсорсные. Движки, фреймворки и пр. в большинстве своем тоже опенсорсные. Даже в основе андроида лежит оупенсорсный линукс, а в основе macos - оупенсорсная freebsd. Все стеки типа: Django/js/React - оупенсорсные.
Приведите пожалуйста примеры софта, где бы ни в каком виде (включая языки программирования) не использовалось бы опенсорсное ПО. Я не понимаю, о чем речь.
И почему нельзя использовать оупенсорсное ПО в коммерческих разработках? Многие оупенсорсные лицензии это позволяют.
Вот меня тоже достало... 50% англоязычных сайтов с тех документациями тупо не открываются или открываются на десятый раз. А мне срочно надо API посмотреть... Со всех сторон обложили. Наложили санкции с двух сторон, я как между молотом и наковальней.
Блокируют и очень часто. И дело не в политике. Я сам недавно заблокировал (почти) всю заграницу на своем сервере после нескольких ддос-атак на сайт. Ограничился настройками nginx. И это в моем случае сработало. Думаю, аналогично поступают многие - просто блокируют большинство стран (или все кроме своей), не разбираясь.
А есть разрешенные VPN? Пусть он блокирует запрещенные (в РФ) ресурсы, но главное, чтобы пускал к зарубежным ресурсам, которые нас заблокировали. Мне просто нужен доступ к технической документации по разным программным продуктам.
Процесс творческий, а результат не творческий? Вижу в этом противоречие.
У меня нет сомнений, что итеративный процесс с отбором (например, по композиции) - это творческий процесс и творческий результат.
Попросил у КОГО? У неиденфицированного лица? Вообще можно ли выполнить требования законодательства в области ПД в полном объеме, если личность не идентифицирована? Мне кажется, это невозможно. Мы уже на самом первом шаге упираемся в невозможность взять согласие ДО обработки таких технических данных как куки и IP. Т.е. формально нарушение будет в любом случае, как ни крутись.
Ну вот я пока не видел ни одного дела, где наказали бы только за куки или ip сами по себе, без сбора каких-либо настоящих ПД.
ПД то откуда взялись? У меня то нет никаких ПД. Сама по себе кука это еще не ПД. А если гугл где-то ранее у себя надыбал реальные ПД и имеет возможность их связать со своей кукой, то логично вопросы задавать к гуглу или к тому, у кого он взял настоящие ПД.
И как по IP вы идентифицируете личность? Предположим, я зашел когда то на ваш сайт - открыл главную страницу и сразу ушел... А потом прихожу к вам, говорю, что я Вася Пупкин и хочу получить от вас информацию, о хранящихся у вас ПД обо мне. И что вы будете делать? Как будете искать меня, Васю Пупкина, по своим логам? Кстати, а вы согласие с меня взяли, прежде чем мой ip адрес логгировать?
Короче, видите, к какому бреду мы приходим?...
Вообще ФИО директора - это офицально открытая информация, поэтому думаю, не надо.
Смотрите (рассмотрим метрику), куку в браузер посетителя загоняет яндекс, причем напрямую со своего сервера, ваш сервер в этом не участвует. Как мы уже установили, кука сама по себе не может быть ПД. Если яндекс как то сможет сопоставить свою (!) куку с какими то реальными (хранящимися у него) ПД, то кто является обработчиком этих ПД? Логично предположить, что тот, кто владеет реальными ПД.
Основная проблема в том, что если так широко толковать и натягивать сову на глобус, то возникнет много побочных эффектов, под которые подпадут практически все, т.к. практически всё можно будет трактовать как сбор ПД.
Например, при такой натянутой трактовке под обработку ПД подпадают гугл-шрифты, многие рекламные баннеры, любые cdn-скрипты, dns-сервера, шлюзы, видеокамеры (ведь можно же теоретически идентифицировать личность прохожего в красной куртке, прошедшего мимо магазина с видеокамерой... если поднять на ноги милицию, полицию... А ведь некоторые так широко толкуют - дескать, достаточно теоретической возможности установить личность) и т.д. и т.п.
Ну в данном примере ИИ написала стандартный клиент к Gemini, и всё. Аналогичным решением было бы нагуглить статью с пошаговым руководством по установке такого web-клиента.
Я про объективную реальность. Впрочем, и в законодательных нормативных актах про куки вроде ничего не сказано. Всё это натягивание совы на глобус является результатом толкований юристов, которые увидели в этом горячую тему.
Ох, опять эти куки...
Куки сами по себе - это не ПД! Они могут быть лишь способом обработки ПД, если таковые собираются.
Куку вы (ваш сайт) сами формируете и записываете в браузер посетителя.
Если не согласны, ответьте на простой вопрос... Предположим, у вас есть сайт, использующий статистические куки, но не собирающий никаких нормальных ПД.
И вот к вам обратился некий Вася Пупкин с требованием предоставить хранящуюся у вас персональную информацию о нем. Законное требование? Законное! Ведь если он посещал ваш сайт, а куки - это ПД, то вы ведь должны дать ответ. Не так ли? А как ответ то давать будете? Сможете ли вы вообще связать этого конкретного Васю Пупкина со своими статистическими данными? Ведь статистика ваша сводится к тому, что номер 123 (сгенерированный вами же) провел на странице такой то 5 минут. Не сможете? Вот то то же...
gpt-oss-20b мне как-то не зашла. В итоге я остановился на qwen3-30B и gemma3-27B.
Не вижу принципиальной разницы между результатами ИИ и фотографией.
В фотографии вы исследуете реальную реальность (ищете красивое освещение, ракурсы и пр.), потом нажимаете кнопку и фотоаппарат/смартфон всё остальное делает за вас... Да еще и нейросетью дорисует...
При работе с нейросетью вы аналогично исследуете реальность, только не реальную, а виртуальную (подбираете промпты, отбрасываете неудачные результаты, допиливаете промпты, делаете дополнительную обработку, компоновку и пр.).
Почему то многие не понимают, что сам по себе отбор зерен из кучи плевел - это уже творческий процесс.
То же самое с текстами:
Например, я придумал сюжет, главных героев, дал им имена, в общем всё продумал, а потом использовал LLM лишь для конечного синтеза текста. Разве это не творческий процесс?
Да, на 128ГБ оперативы макмини - хороший вариант. Но я с маками завязал, обжегся и больше не хочу связываться.
Первое: Видюха должна быть минимум 4090, а лучше 5090.
Второе: не надо использовать эту вид.ху для вывода изображения на монитор. На монитор выводите изображение через вторую (отдельную или встроенную в материнку) видеокарту. Тогда вы сэкономите пару гигабайт драгоценной видеопмяти.
Третье: использовать квантованные LLM минимум на 27-32B.
Четвертое: нельзя использовать эти модели сами по себе, т.е. нельзя полагаться на ИХ ответы, т.к. область знаний у них урезана. Но некоторые модели очень хорошо говорят по русски, также хорошо анализируют подсунутый им контекст. Поэтому мой главный вывод: локальные модели можно использовать только вместе с технологией RAG, гда факты и прочая инфа будет модели предоставлена.
Тогда всё работает достаточно адекватно.
Интересный кэйс, но со множеством нюансов и сложностей. Первое впечатление, что всё просто, обманчиво.
У меня в задумках и в развитии тоже подобная идея генерации (только на локальных LLM), но... тупо генерить контент - бессмысленно и неинтересно, на первом месте должна стоять РЕАЛЬНАЯ польза для посетителей. Информация должна быть на 99% достоверной (поэтому применение RAG неизбежно). В итоге пришел к выводу, что LLM целесообразно использовать только как тупой синтезатор складного грамотного текста заранее подготовленного достоверного материала. Так что проблема так или иначе упирается в подготовку качественного исходного материала.
Что у меня в итоге получается за полгода? Да ничего пока. Причина? Полностью еще не решил проблемы с достоверностью и (реальной) пользой. А генерить абы что - это тупик
Ну если куки считать персональными данными, то по этой логике и загружаемые по CDN скрипты, включая гугл-шрифты, можно считать перс. данными. Ведь эти загрузки также как и счетчики позволяют отслеживать действия посетителей.