Филатов Антон @positroid
Web-архитектор
Information
- Rating
- 1,963-rd
- Location
- Липецк, Липецкая обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Backend Developer, Software Architect
Lead
PHP
Symfony
Elasticsearch
CMS «1С-Bitrix»
Web-архитектор
Для этого есть @moderator
реферальные ссылки на хостинг в посте
Все так, посыл комментария был как раз в этом. Автор в статье утверждал, что на большом количестве своих проектов передает в контекст весь код через свою утилиту. Отсюда и возник вопрос про размер его типового проекта.
Тоже такая мысль была всю статью - ИИ и под Си на ESP32 код может писать, кажется что распознавание угла стрелки вполне бы заработало непосредственно на контроллере без дополнительного железа.
Тем более что картинка статична, можно вручную задать все необходимые координаты и искажения. Но за реализацию все равно плюс)
С контроллера не замерял, покрытие не равномерное, конечно, плюс куча помех от соседей, но контроллер в пропускную возможность самого wifi даже близко не упирается, тут именно ресурсов контроллера не хватает
Дело не в задержке для управления командами, с http тоже нет ощутимой задержки, хоть она и больше чем на сокетах, дело скорее в скорости передачи картинки средствами контроллера по wifi. Картинка высокого качества больше весит, контроллер банально не успевает это все передавать. Причем если смотреть на загрузку cpu - то она далека от 100%, т.е. все упирается скорее именно в возможности модуля передачи данных.
С огранизацией html верно, тут мне просто было удобнее его компилировать в Си и включать в прошивку при сборке, чем хранить в SPIFFS (здесь чисто вкусовщина, потенциально это может вызвать сложности с OTA, когда/если я доберусь до реализации).
Здесь все еще упирается и в производительность конкретно esp32 и её wifi, камера может выдавать и картинку в 1080p, но это будет слайдшоу с 1 кадром в несколько секунд, и то если кадр полностью в память влезет без сжатия.
Кроме локальности, бесплатности и как следствие автоматизации - никаких, мне просто нужно было много картинок, в условном chatGpt я бы замучался их генерировать (да и в то время еще не было обновления 4o, а Dalle-3 картинки генерировал посредственно).
Про жидкую резину думал, но пока оставил эту затею, как будто TPU достаточно даже чтобы через ножки стула перепрыгивать, на стены мне все же лазить не нужно.
Вы про дорожку на плате, которая проходит между пятаками, или о чем речь? Там плата с косяком вышла из-за того, что я неправильно развел и делитель напряжения и подключение мосфета, в актуальной версии платы уже такого нет, я просто не стал травить новый вариант
del
Это же уже третья статья за неделю про платформу, просто другими словами?
4.1 в этом плане хорош (тоже в cursor) - сам задаёт вопросы и согласовывает то, что он понял перед тем, как идти кодить. Правда, этим же и достаёт, каждый чих надо одобрять.
/s здесь скорее лишний
ИИ - это тот самый умный Ганс, он отвечает то, что вопрошающий хочет услышать.
Не так давно 4o прокачали в этом стремлении угодить пользователю (а это влияет на KPI, место на ллм-арене, бенчмарки и прочее), что он стал соглашаться совсем с абсурдными идеями (уже фиксят).
Оценка бизнес-плана фекалий на палочке
Так в исходном комментарии речь про вопросы на собеседовании. Если в рамках собеседования в решении задач "сомневаться не надо" - чем принципиально отличаются вопросы по архитектуре?
А по саксесс стори - я не уверен что "правильная" архитектура, которая не приведет к проблемам через полгода / годы вообще существует в условиях изменчивости продуктов, особенно если вы упоминаете фаундеров (стартапы?).
Если вы не владеете английским на уровне носителя - эффективнее общаться на своем языке, автопереводы запросов и ответов менее эффективны. Получить результат на любом языке можно просто попросив отдать результат на нужном языке.
А теперь перечитайте ваши первые промпты и подумайте - реально ли по ним было понять, что вам нужно именно то, что получилось в итоге?
У Яндекса, Сбера и прочих компаний внутри страны есть еще большие ограничения по железу, которые вряд ли позволят конкурировать на рынке собственных моделей. С другой стороны, в Европе таких ограничений нет, но нет и топ моделей (ну кроме нишевых для определенных языков Mistral).
Очень надеюсь, что здесь тренд развернется, Альтман анонсировал к лету релизнуть модель в опенсорс уровня o3-mini, что у них происходит внутри с исследованиями - действительно непонятно.
Если вы про OpenAI - это суммаризация настоящих рассуждений. Все остальные упомянутые модели отдают рассуждения без изменений в исходном виде.
Здесь вы, конечно, правы, совсем не моя сфера.
Здесь нет - 4o выпускалась и анонсировалась как мультимодальная модель. Да, через ChatGPT мультимодальности почти не видно, картинкам её подвезли меньше месяца назад, голос в чате - до сих пор через конвертацию.
Advanced voice mode - мультимодальный, но есть только в приложении с конца февраля. Скорее всего вы не следите за обновлениями продуктов OpenAI и вероятно не в курсе.
Допускаю, что можно врать в анонсах про мультимодальность - но вывести работу с картинками на текущий уровень через конвертацию в текст - нет.
Насчет Alphabet - у меня нет никаких аргументов ни в пользу ни против, но они плохо умеют в PR, увы. Тот же выход Gemini 2.0 Flash Experimental с мультимодальной генерацией незаслуженно остался без внимания, пусть качество генераций хуже обновленного 4o - он хорош и релизнулся раньше. Кто в конечном итоге будет двигать прогресс - DeepMind, OpenAI или новая noname компания - стороннему наблюдателю (мне) неважно, главное чтобы был прогресс.
А история, особенно недавняя и IT'шная, помнит огромное количество быстрого замещения компаний, который в моменте являлись безусловными монополистами рынка.
Это же не константа, опытные кадры всегда мигрируют между компаниями или создают свои. Взять авторов гугловской статьи "All you need is attention", положившей начало буму трансформеров. Только один остался в гугле и руководит Gemini, один в OpenAI, один в Antrophic, у остальных свои стартапы или компании.
О каких закрытых фундаментальных исследованиях может идти речь? Да и научная сфера не настолько закрытая, шеринг знаний и статьями и на конференциях присутствует.
Так было во времена DALLE-3 в качестве генератора, генерация картинок мультимодальна в 4o с недавнего времени. Синтез и распознавание речи - тоже, еще раньше релизили live-режим общения с трансляцией видео с камеры.
Да, без фундаментальных исследований далеко не продвинуться, но не стоит делать DeepMind здесь фаворитом только на основании их долгого опыта и имеющихся заслуг, не все открытия делают профессора.
А в чем кардинальное отличие этих вопросов от прикладных? Та же нейронка и архитектуру придумает и что делать в конфликтной ситуации напишет и все остальное.
Увы, нет времени попробовать все, знаю поверхностно только из обзоров и статей. Кардинальных различий нет, и то и то форк VS кода, у обоих есть агентский режим работы ллмок, mcp и вот это все. Интерфейс и UX немного отличается, вроде windsurf попроще, cursor пофункциональнее, но меняется все настолько часто, что обзоры месячной давности уже не актуальны.
Наглая реклама выглядит совсем иначе) Упоминания каналов узаконены, если они не преследуют коммерческих целей (а ля купить подписку можете у меня в ТГ, как было в недавних постах).