Pull to refresh
10
KMiNT21@KMiNT21

old-school

6
Subscribers
Send message

чем строчка с вызовом метода у объекта по его ссылке не "отправка сообщения"?

Тем, что такой подход плодит полную дичь, когда начинаются споры, подобные таким, как были тут комментариях к одной статье на тему ООП.
- pizza.bake / - oven.bake pizza
- cook.turn_on oven / oven.turn_on
- box.wrap_up pizza / pizza.wrap_up_in_box
- и т.п.

Мышление на уровне отправки сообщений уменьшает вероятность того, что программист будет говорить пицце "приготовься". Так легче осознать зоны ответственности. Где данные (как пицца), а где Акторы.

Более того, там, есть язык не заставляет все заворачивать в классы, не нужно их придумывать там, где их нет. Где нужны обычные функции/процедуры.

По силам ли человечеству эта задача?...
Как компьютерная система сможет самообучаться? ...
Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьёзной помощи лингвистов тут не обойтись, если задача вообще решаема.

2025: А теперь бы найти подобное на другую тему, мол компьютеры не смогут... И через 15 лет тоже оценить прогресс. :)

Я вот все ждал, ждал. Наконец-то кто-то про унитаз написал. :) Странно, что так долго никто про это не писал. Простое решение, никакого запаха.

Есть еще другой вариант, кстати, который для некоторых случаев подойдет. Можно программно нарезать на клипы (вроде бы, нейронку видел, заточенную на это дело), а затем уже или вручную, или программно с каждой сцены выбрать лучший кадр. Тогда можно добиться максимальной вариативности в датасете.

А вот Hylang (Lisp на Python) хорош. Там где под Clojure просто не найдешь актуальных либ, Hylang просто прозрачно подключает любые Python-библиотеки. Красота. :)

В MPV может и веселее было, но быстрее было ffmpeg запустить с ключиком, чтобы, например, каждый 30-й кадр сохранило. А потом выбрать понравившиеся. :) 150 - вполне норм, чтоб руками.

А я для Wan 2.1 LoRa ролики "разбирал" на кадры. И вот когда их тысячи, тут уже руками не вариант. Как минимум смазанные кажды (там где излишнее было движение) кое-как можно проредить программно (cv2 Laplacian). Я так итеративно прогонял, контролируя процент отсева.

Дальше еще можно отсеять слишком похожие кадры. Я себе представлял как бы такую кластеризацию. Но LLM-ка предложила перцептивный хэш для сравнения соседних кадров. Интересный вариант, но не дошли руки протестировать, так как устроило и без этого. Но хочется вернуться к этому вопросу позже. Ведь для лор хорошо бы отбирать максимально отличающиеся кадры.

А у многих авторов такая же нога, но болит. :)

После нажатия боковой кнопки часы переходят в режим передачи аудиоданных по RTP протоколу (по UDP) внутри WiFi сети на python-сервер. Нажатие второй кнопки рядом отправляет маркированный RTP пакет, который означает конец передачи (ну либо оно по таймауту сработает). Ну а серверная часть из таких сессий сохраняет все в .wav файлы.

Это первая статья про AI, которая настолько идеально совпадает со всеми моими мыслями на эту тему (и не на эту тоже). :)

Ох, сколько раз я помню ощущение от чтения какой-нибудь статьи на Хабре, что вот-вот кровь из глаз пойдет. :) Несколько раз уже думал, что администрации пора бы уже прикрутить нейронку, которая будет проверять и аппрувить статьи (или указывать на проблемы). Как оказалось, кто-то даже не перечитывает то, что написал (помню, было признание).

Все так. Схема рабочая. Я даже смог перехватить нажатие нижней боковой кнопки на Galaxy Watch 4 (хоть там это и "запрещено"). Хотелось сделать передачу сообщения по удерживанию, но там уже никак. Ну хоть так пока. По качеству звука замечаний вообще нет.

Как по мне, то часы -- единственный реальный вариант иметь "под рукой" AI ассистента круглосуточно.

Мне захотелось перехват хардверной кнопки боковой. Удерживаешь -- говоришь. А каждый раз какие-то там приложения искать запускать -- вообще не интересно. Это во-первых. А во вторых -- это не для заметок, а для чего угодно. Т.е. это может быть и мгновенный ответ от своей LLM-ки на компьютере, но до этого руки так и не дошли.

Я вот для этого дела частично функционал запилил, но отложил, так как другие приоритеты. Как по мне, так реально рабочий вариант вот так выглядит: зажал на часах кнопку, проговорил мысль вслух (ну или то что надо запомнить, внести в базу/таблицу). Аудио-пакетики по RTP прилетели на сервер, там сложились в wav файлики, прогнались через Whisper, полетели дальше на LLM-ку (ну или напрямую, если используется мультимодальная модель). LLM-ка сохраняет все это в локальную векторную базу данных. В дальнейшем языковая модель всегда сама может вытягивать любую информацию из нее, когда контекст этого требует.

Векторная база данных + RAG. Все можно локально.

Даже не так. :) Вот так:

"Пробовал я ваш ***самолет. Даже в космос нельзя улететь!!111 Хайп и развод лохов на деньги!111"

У меня тоже примерно такое соотношение. :) 4090 и Ryzen 7 1700X. Но под новый проц нужна еще новая материнка и новая память -- пока это выглядит неадекватным. Докинул лишь памяти до 64 Гига.

может нараспознавать всякого. Вчера столкнулся - в одном месте фамилия попала под печать, и дипсек везде поменял на кривую, даже там где было пропечатано чётко.

Даже если оставить (зачем-то) бумаги, то подготовленный ИИ-агент справится на порядки лучше человека.

Допустим, где-то там клякса буквы закрыла какого-нибудь контрагента (какие-то буквы). Вот просто мелкий гипотетический пример.

Сразу будут задействованы несколько потоков.
1) Нейронка при сканировании внутри для себя запишет показатели "уверенности" распознавания для каждого слова/буквы. Если обнаружится проблемное место, можно будет сделать поиск по архиву, сопоставить данные по другим признакам и принять адекватное решение. Причем, оно может быть даже отложено. Например, если след. документ заполняет эти пробелы в информации.
2) Параллельно можно проверять данные еще по какому-то общедоступному каталогу юр. лиц, сопоставляя другую доступную информацию.
3) ....

Ну и дальше принимать решение на основе этого анализа. А при пограничных ситуациях будет громко кричать и размахивать руками.

Это может быть другая модель, которая на вход принимает сигналы из предыдущих. Ну или, скорей всего, универсальная мощная агентская система от мировых лидеров рынка.

Все к этому придет, как только будет экономически обосновано. Нет технических препятствий.

но вот как раз тут вполне могут дожать ИИ

Я бы не сказал, что проблема в энергии, проблема в вычислительных мощностях,

Полностью поддерживаю. То же самое хотел написать про сканер и ИИ. Только я бы добавил, что проблема больше в отсутствии специализированных датасетов для обучения. Но все равно к этому все придет. Агентская бухгалтерская система и ошибки сканирования обнаружит (и, например, сопоставит данные из предыдущих документов, оценит вероятности и примет решение, стоит ли "докладывать", записав это в свой лог), и изменения в законодательстве всегда вовремя увидит в тот же день, и даже некоторые ошибки в документах сможет найти и "вытащить наружу" путем анализа других данных и сопоставления...

Все будет основываться на "должностной инструкции" этого агента. При условии, что он был этому обучен на специализированном датасете. И вот подготовка такого датасета -- это будет самая главная статья затрат.

то у меня перед глазами такие яркие черные инвертированные полосы-следы, что аж рябит.

А разве не у всех так? :)

Information

Rating
7,112-th
Location
Украина
Date of birth
Registered
Activity