Comments / Profile of thethee / Habr

Владимир@thethee

User

ProfileArticlesPostsNewsComments200

«6/10 за строгость доказательства»: математики оценили, как GPT-5.2 Pro решает исследовательские задачи

thethee Jan 24 at 06:29

автоматическая оценка через API не работала из-за таймаутов

Простите, что? Увеличить таймауты или убрать не судьба что ли.

Claude Code теперь можно запускать с локальными open-source моделями

thethee Jan 17 at 18:53

VLLM давно поддерживает claude code

«Чтобы босс не использовал ChatGPT»: Salesforce встроил Claude в Slack

thethee Jan 13 at 23:12

Босс копирует документы в ChatGPT который находится в облаке. Документы утекают. Это плохо.
Claude тоже развернут в облаке. Это тоже плохо, не дадим боссу пользоваться ещё и этим чатом.
Компания пользуется Slack. Это хорошо.
Компания добавляет в хороший Slack чат бота Claude через API. Компания говорит это хорошо, потому что документы находятся в Slack, а Slack это хорошо.
Fin

Если кто не понял, чтобы ответить по документам, confluence и проч, claude все ещё нужно пропустить через себя все документы, а т.к. это внешняя апишка, документы в любом случае утекают вовне. Salesforce оптимизировали утечку, позволив совершать ее в промышленных масштабах.

Да, там в условиях использования API указано что для бизнеса данные не сохраняются и не используются бла бла... А то их ни разу не ловили на том что они используют что-то не совсем законно ;)

Бизнес аккаунт существует и в чатгпт и в клоде, в том числе без апишки, и есть интеграции и MCP которые можно настроить к confluence, и везде можно отключить сохранение и использование данных. Вот только есть Nные европейские (и не только) регуляторы, которые заставляют длительный срок хранить чаты и все данные пользователей, в том числе после удаления. Для восстановления аккаунта их использовать нельзя, а вот для выдачи по предписанию суда - пожалуйста. И для чего нибудь ещё вполне возможно использовать. Аккаунт то удален, галочка "не использовать", тоже удалена, а данные есть. Небольшой loophole которым вполне можно воспользоваться. А если чем то можно воспользоваться, то корпорации этим воспользуются.

Соискатель получил отказ в работе от Авито после фидбэка из Яндекса

thethee Jan 13 at 18:58

Я тоже знаю людей о которых спрашивали и о которых мои знакомые хорошо отзывались и писали письма сопроводительные. Есть люди о которых я бы и сам не прочь хорошо сказать.

Хорошо говори, плохо не говори.

А если серьезно, не понимаю откуда столько плюсов на статье. Выскажу непопулярное мнение: работать лучше надо было, меньше обманывать и стыдиться нечего будет. Есть к сожалению люди о которых хорошо не скажешь не смотря на все старания, но платят нам отнюдь не за старания. Может вообще не его/её это стезя, и надо менять направление. Не всем суждено работать с __________ (заполните свое направление).

Соискатель получил отказ в работе от Авито после фидбэка из Яндекса

thethee Jan 13 at 18:53

Я не на стороне HR-ов, это довольно подло, как по мне, писать такие опасные посты как минимум в непосредственной близости от самой попытки найма, риск деанона естественно увеличивается, и лучше так не делать.

Но то что вы указали в качестве правовой базы не подходит к текущему кейсу. Почитайте, что такое персональные данные, и "субъективные данные" не являются персональными, они являются мнением, а доверять ли мнению лежит на ответственности это мнение принимающего.

Получение фидбэка от предыдущего работодателя даже в случае отсутствия сопроводительного письма сейчас никак не регламентировано. Ваши ФИО вы предоставляете рекрутеру, компании тоже, позвонить по номеру телефона в компанию в которой вы работали ранее не является преступлением. Вот если бы предыдущая компания разгласила ваш адрес регистрации, пол, возраст или номер паспорта - вот это было бы разглашение персональных данных. А рассказать о том что вы плохо работали - не перс данные.

Gemini 3 Pro доделал эмулятор ZX Spectrum за один вечер. Проект был заброшен два года

thethee Jan 10 at 22:04

Если ещё раз прочитать начало, то будет заметно, что проект был заброшен очень давно. Вполне вероятно, что код действительно не придется поддерживать, раз его до сих пор никто не взял и не допилил.

Либо другой вариант, поддерживать придется, т.к. доработка при помощи Gemini принесет популярность проекту, но дорабатывать и исправлять точечные баги будет проще чем монотонно реализовывать все опкоды, на чем автор сдался в прошлый раз.

GPT-4o: технический разбор модели, которая взрывает людям мозги

thethee Jan 8 at 20:04

У меня обратная ситуация, пытался со времен gpt-3 "общаться с ИИ", переромантизировал технологию, особенно после новостей в духе "она сама учится арифметике хотя это не закладывали". Пока не попробовал писать нонсенс на который модель отвечала другим нонсенсом. Это ещё во времена когда можно было легко джейлбрейкнуть и получить ответы на все вопросы. Тогда уже стал с настороженностью относиться и понял что чем больше я вкладываю эмоций, тем больше эмоций могу получить, но не факт что это то что мне на самом деле нужно. Потом попробовал в рабочих задачах и все иллюзии окончательно разлетелись.

Повезло вовремя заметить "зловещую долину", а мог бы оказаться на месте инвестора.

Кстати, говорят что самые подверженные это те кто считают что они не подвержены, я тоже так считал. Сейчас не считаю себя иммунным к проблеме, хотя и очень хочется, т.к. стараюсь не писать на личные темы и все перепроверять лично, используя скорее как продвинутый поисковик и генератор терминов.

Встречайте Gas Town

thethee Jan 8 at 08:42

Gas Town имеет свое мнение

И какое же оно?

Если ИИ не мыслит, то как он решает математические задачи?

thethee Jan 8 at 08:29

LLM нельзя сравнивать с человеком

https://habr.com/ru/companies/bothub/articles/983426/#comment_29352708

Также чуть выше я уже писал коммент по поводу отсутствия гарантий получения предобученных ответов.

https://habr.com/ru/companies/bothub/articles/983426/#comment_29355188

В 999 случаях из 1000 LLM ответит правильно для достаточно простых задач, но в 1 оставшемся случае компания, предоставившая некачественное решение, потеряет деньги.

Если ИИ не мыслит, то как он решает математические задачи?

thethee Jan 8 at 08:24

Вопрос в цели. Школьнику вдалбливаются принципы арифметики, LLM же изначально инструмент и должна всегда вызывать внешние инструменты для факт-чекинга. Будет неловко если 7*6 случайно окажется 48 потому что токены "42" и "48" где то близко стояли в пространстве решений и так решил великий рандом.

Школьник при этом всю свою жизнь помнит как числа складываются, а LLM после пре-трейнинга проходит всякие циклы подстройки и очистки (безопасность, чтоб ее), после которых, как уже доказали ранее, она тупеет. Часть вычислительной мощности отводится на классификатор безопасности ответа, часть на стилистику (смайлики, markdown итд), и нет гарантии что нужный именно вам навык сохранится после всех доп обработок

Если ИИ не мыслит, то как он решает математические задачи?

thethee Jan 8 at 08:16

Попробуйте gpt-5.2. В плане точности следования инструкциям эта модель мне нравится больше всех остальных, особенно на xhigh уровне ризонинга. Долго думает, но потом результат делает ровно то что просил. У нее не очень хорошо с воображением/самовыражением, но для меня это скорее плюс, что от нее очень сложно добиться самодеятельности, помогает именно в рабочих задачах, где не хочется потом вычищать временные скрипты, рандомные логи и md файлы за моделью. Пишу запрос на несколько абзацев, то что у меня 2-3 часа займет и переключаюсь на что нибудь другое (например вопросы в чатике) минут на 10-20, а когда вернусь - минимальные правки.

Тут ещё курсор может чудить, его в последнее время ругают, что он сжимает контекст для собственной экономии, и частенько пережимает слишком сильно. Я запускаю обычно нативно через claude code / gemini-cli / codex-cli, и уже эти cli-утилиты прикручиваю в IDE, либо плагинами, либо через ACP (в Zed такая фича есть).

Если ИИ не мыслит, то как он решает математические задачи?

thethee Jan 8 at 08:04

Кстати, если в ответ достаточно большой LLMки вставить случайное предложение (даже если на ту же тему и хорошо скрываясь), например чуть лучше раскрыть топик, она хорошо находит вставку, если спросить есть ли что-то подозрительное в ее прошлом ответе.

А если не спрашивать - не найдет (потому что не просили), но может довольно быстро слететь с катушек и начать бредогенерацию.

Если ИИ не мыслит, то как он решает математические задачи?

thethee Jan 8 at 08:02

А проблема ли это? Весь ваш аргумент сводится к:

Чтобы делать X, надо уметь делать X.

LLM просто ускоряют этот процесс, являясь инструментом для профессионалов. И да, с этим инструментом надо уметь правильно работать.

Мы проходим этап Гугла, когда люди гуглят симптомы и спорят со врачами. Пройдет, когда мир адаптируется.

40 млн человек ежедневно спрашивают ChatGPT о здоровье. OpenAI хочет, чтобы FDA это узаконила

thethee Jan 8 at 00:13

мужчина без психиатрического анамнеза был госпитализирован с отравлением бромидом — он следовал рекомендации ChatGPT принимать эту добавку

Проверяйте факты в ваших статьях. В исходном сообщении пользователь не спрашивал "чем можно заменить соль", он прочитал о вреде sodium chloride и не разобравшись что это такое (это соль, натрий хлор, но последнее звучит страшнее), полез за советом со словами "чем заменить хлорид натрия", причем неизвестно упоминал ли он диету (скорее всего нет, т.к. даже гпт 3.5 сколько ее ни спрашивай для съедения не предлагала бром, всегда писала что это для уборки). При этом спрашивая химическим термином чатгпт автоматически рассудил что запрос идёт от человека знакомого с химией или хотя бы умеющего читать.

Субъект пошел в продуктовый, не нашел бромида, пошел в аптеку, тоже не нашел, пошел в спец магазин удобрений, купил, и стал бромить еду себе, не прочитав на упаковке "В РОТ НЕ КЛАСТЬ". Возможно ему стоило дать психиатрический диагноз вместо раздувания новости из человеческой тупости.

Медицинский отчет (тык.)

Должен ли был ЧатГПТ спросить "а зачем собсна тебе эта информация?", должен, если подумал бы о том, что sodium chloride это соль и ее кушают, соответственно надо понять зачем кожаный хочет замену искать, но "подумал" это не про LLM. LLM это инструмент который делает сугубо то что скажешь, или сочиняет с три короба, соответственно надо очень четко давать контекст и ставить задачу. Никакие ухищрения во время обучения на научат его эмпатии или здоровой форме паранойи, которая включается у опытных врачей когда они смотрят на пациента и получают подозрительный вопрос. Если тебе нужно чтобы LLM задала вопрос - так и напиши "задай мне 3 уточняющих вопроса", или в системный промпт заполняй. LLM не умеют читать мысли.

Внутри Spec-Driven Development: на что способен Spec Kit

thethee Jan 5 at 09:21

Так это ж он и есть, в этом вся прелесть.

Аджайл угоден бизнесу, возможно, потому что умело прячет расходы в доходах, но я например не считаю, что это лучше ватерфолла того же.

Просто в разработке по требованиям в начале может тратиться очень много времени на первичную проработку, прежде чем можно будет продавать продукт, а в аджайле бац бац и в продакшн. И то что решение сырое, растет технический долг и потенциально конфликты в зависимостях никого не волнует, главное что заказчик уже платит деньги за сырую заготовку, подписку там какую нибудь и фактически обещания сделать лучше, да и можно ведь втюхивать заготовку сразу нескольким заказчикам.

А по теме Spec Driven - он решает основную проблему взаимодействия с LLM в промышленной разработке, а именно отсутствие навыка чтения мыслей и соответственно сильный дрифт и несоответствие ожиданиям. При этом LLM, как и положено, берет на себя рутинную работу, в данном случае по написанию документов. Разработчик берет на себя роль product owner + tech lead, пока LLM отыгрывает бизнес/системного аналитика. Разработчик подмечает детали в процессе ревью, отправляет несколько раз на переработку/доработку документацию на разных стадиях и дальше может быть вполне уверен в полученном результате с минимальным или вообще отсутствующим техническим долгом.

Это на самом деле прилично занимает время, особенно для больших идей/фичей, но при этом позволяет добиться успеха быстрее, чем просто запускать LLM на сложную задачу и затем множество раз ее направлять со словами "тут кнопка делает не совсем то что я хотел" или "перекрась цвета", а потом "неправильно перекрасил, опять перекрась", "вот тут забыл" и т.д.

Spec Driven вообще меньше всего похож на вайб кодинг. Мне кажется, что развитие подобного подхода будет очень полезно в преобразование взаимодействия в настоящую работу с инструментом. Сейчас выглядит так будто на всю планету из космоса прилетела технология без инструкции по использованию и человечество пытается придумать эту инструкцию.

Ваш ноутбук пока не готов к LLM, но скоро это изменится

thethee Jan 4 at 18:31

Никак примерно. Gpt-3.5 помните? Вот примерно на том же уровне. В качестве автокомплита можно, бойлерплейт напишет, но надо перепроверять. Все ещё ускоряет работу в плане нажатия клавиш, но отзывчивость не на gpu, а на npu/m2 будет не такой хорошей и может начать раздражать, особенно если привыкли уже к хорошему

Эволюция методологий версионирования

thethee Jan 4 at 18:16

А это уже культура разработки, которой может не быть, человеческий фактор, не проставил, или проставил не то, не та версия инкрементнулась. В этом плане календарное версионирование решает проблему.

В принципе какая разница что использовать если это используется и обосновано конкретно у вас в компании. Хоть A/B/C пишите вместо версии если вы 3 версии в год выпускаете, главное чтобы клиентам было понятно...

Или пишите четвертую цифробукву в семантическом/календарном версионирование, первые три стандартизированы и дальше хоть id пайплайна, хоть инкрементальный id сборки. Даже после прочтения статьи не очень понимаю какую именно проблему пытается решить автор. Чтобы все использовали новую улучшенную версию версионирования? А смысл?..

Вот у моего приложения одно версионирование, у приложения Яндекс Музыка другое, у JetBrains PyCharm третье, у Ubuntu четвертое. Я вижу что циферка пошла вверх, я понимаю что у меня устаревшая система. Какая вот мне разница это цифра билда или количество звезд на гитхабе в момент сборки...

-1

Пользователям Linux посвящается. Генератор паролей из /dev/random: от one-liner'а к Rust CLI

thethee Jan 4 at 15:46

Кому может понадобиться 10 млн паролей за секунду? Даже в утилитах подбора пароля вычисление хеша или ответ от системы, проверяющей пароль, является узким горлышком, но никак не генерация самого пароля.

Я заметил в примерах слишком мало цифр и много букв. Было бы интересно сравнить ваш подход (rand) в сравнении с другими, которые показали выше (rand -> b64 например) и посмотреть на распределение символов таким образом.

Правда в base64 не понятно как символы получать...

DeepSeek предложила способ обучать ИИ без роста нагрузки на память

thethee Jan 3 at 17:36

Не соглашусь, гпт, клод и гемини не публикуют результаты своих исследований. Раньше до бума ChatGPT постоянно публиковались исследовательские работы, на которых основаны в том числе китайские нейросети, и у этих компаний все ещё остались сильные исследователи, а не только инженеры-программисты. Только вот они перестали публиковаться в отличие от китайцев которые и гигантские модели для бизнеса и доступные модели для консьюмеров выкладывают постоянно, и исследовательские работы продолжают выкладывать.

В общем китайцы большие молодцы, и много делают на общее благо, а американцы, к сожалению, вступили в режим гонки и закрытых технологий, но я более чем уверен, что там не только размер растет, хотя бы потому что Sam Altman в одном из интервью напрямую говорил что модели семейства GPT-5 не такие большие как ему хотелось бы, просто потому что у них сейчас нет вычислительных мощностей на то чтобы предоставить миллионам пользователей большие модели (ссылался на новые датацентры, которые позволят им выпускать большие модели). Да и судя по скорости инференса там явно не больше триллиона параметров, а скорее даже меньше 500млрд, возможно даже ближе к 200 млрд, но это все гадание на кофейной гуще. Триллионная модель есть и у китайцев, причем открытая, и там свои приколы с обучением таких гигантов, и есть замеры скорости генерации на современных GPU с кучей оптимизаций и там сильно медленнее чем GPT и Gemini генерят.

MCP сервер для заказа продуктов из ВкусВилла: сделай своего агента

thethee Dec 30 2025 at 21:33

Однозначно буду пользоваться. Сказать "закажи как обычно и ещё что нибудь сладенького" и потом просто подтвердить корзину, это круто. Хорошо что инфра начинает подтягиваться для работы с новыми инструментами взаимодействия с пользователями.

-1

2 3 ...

9 10