Comments / Profile of samako / Habr

User

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

Возможно да, правильнее сказать - для логирования. Но я вполне использую этот хелпер и для дебага, когда нужно распечатать 3х мерный тензор в тестах и сравнить его с ожидаемым результатом, ну и для всякого рода sanity checks.

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 5 at 13:31

Да, в JS для 2-х мерного массива это работает. Но речь идёт о дебаге в PHP , когда просто нужно бросить 2-х мерный массив или объект 3-х мерной матрицы в функцию и посмотреть что там внутри.

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 5 at 11:02

Да, для табличного вывода это очень хороший вариант.

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 5 at 09:31

Symfony Console из коробки так НЕ делает, она не умеет "рисовать" массивы как PyTorch/NumPy.

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 5 at 09:18

Извините, но это не работает. Хотя даже если бы и сработало, а что делать, когда 1000 колонок? Идея была в том, что передал массив в функцию без лишних хлопот - и всё!

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 4 at 17:37

увы, но в JS тоже

Когда сидишь в PHP, а мысли — о Python: как я случайно написал свой pprint

samako Dec 4 at 17:29

Что-то подобное есть, вот например: https://github.com/deniskoronets/php-array-table или https://github.com/phplucidframe/console-table
Но это не то, что нужно.

Для дебага такие вещи не очень подходят и к тому же они не работают с 3-х мерными массивами.

«Точка, точка, запятая»: как появились привычные нам знаки препинания и при чём тут Венеция?

samako Dec 1 at 11:06

Спасибо за статью! Это вообще очень увлекательная и жутко интригующая область исследования лингвистики и истории.

Несколько замечаний.

1. У Вас не раскрыт практически тот факт, что по времени между финикийским и греческим с латынью находился и развивался целый пласт: арамейское и древнееврейское (ивритское) письмо. А они появились раньше греческого и римского (латинского) письма. Увы, для многих современных людей картина древнего мира выглядит слегка упрощённо: были какие-то финикийцы, а затем появились греки с римлянами (это понятно, так учат).

Арамейский же язык в своё время был вообще "Лингва франка" в торговле и его влияние на Древний мир было огромно.

Было бы интересно проследить какое влияние на развитие древней пунктуации оказал именно этот пласт, а именно XI-VIII века до н.э

2. Фраза

"Наиболее мощным выражением этого принципа стало финикийское письмо — предок множества современных систем письма, от латиницы и кириллицы через посредство греческого до иврита, арабской вязи и многочисленных индийских систем письма."

исторически не верна, и выглядит как предложение, сгенерированное ИИ. Эта фраза создаёт ложное впечатление о едином происхождении всех перечисленных письменностей.

Кириллица возникла не из греческого напрямую, а как искусственная система, созданная в IX веке, использующая греческие буквы + дополнительные не греческие знаки (например Ц и Ш).

Финикийское письмо не было предком современного иврита напрямую. Современный иврит использует арамейское квадратное письмо, а не финикийское. Арамейское же письмо - это боковая ветвь, хотя тоже семитская и родственная финикийской. То есть, прямой цепочки "Финикийское письмо -> Иврит" нет, она была бы корректной только для палеоеврейского, но не для современного письма.

И на последок, прямой цепочки “Финикийское -> Арабское” тоже нет. Корректная цепочка выглядит так: Финикийское -> Арамейское -> Набатейское -> Арабское письмо.

Создание простой поисковой системы, которая действительно работает

samako Nov 23 at 16:40

Блоки кода в статье добавлены таким образом (копипастом с GPT?), что их почти невозможно прочесть. Я бы наверное попытался в этом разобраться (когда-то сам пытался что-то подобное сделать), но не стал. Пожалуйста приведите статью в удобо-читабелный вид.

Собираем простейшую RAG-систему на PHP с фреймворком Neuron AI за вечер

samako Nov 16 at 21:05

Да, конечно можно - и многие так делают, чтобы не зависеть от облака, снизить стоимость или обеспечить приватность данных. Например: Jina Embeddings (локально + Docker) - docker run -p 8000:8000 jinaai/jina-embeddings-v2

Запускаем в отдельном контейнере, делаем доступ через определённый раут и стучимся туда из PHP обычным HTTP-запросом.

В результате будет что-то вроде

$response = file_get_contents("http://localhost:8000/embed?text=Привет"); 
$emb = json_decode($response, true)["embedding"];`

Границы мысли: Непротиворечивая математика и вопрос Бога

samako Nov 15 at 20:16

Тут я с Вами согласен - движение есть. Возможно в статье я не совсем корректно выразился. Я имел ввиду, что при том, что наши знания и возможности увеличиваются, существует некий предел в достижении абсолютного знания, во всяком случае в том виде и в том мире, в котором мы сейчас существуем. Такова моя научная и религиозная точка зрения - это то, что я хотел выразить.

Границы мысли: Непротиворечивая математика и вопрос Бога

samako Nov 15 at 18:49

Вы имеете ввиду конкретную часть текста? Как мне кажется в религии, в философии и в науке под разумом подразумевают несколько разные вещи. То, что учёный 16-го века не понимает квантовой механики - это не потому, что у него разум "слабый", а потому что знаний не хватает.

Собираем простейшую RAG-систему на PHP с фреймворком Neuron AI за вечер

samako Nov 15 at 18:23

Пока нет :) Эту задачу решал в отрыве от MediaWiki, скорее как универсальный пример на PHP, а затем мы её имплементировали для нашей базы знаний в Confluence и в GitBook. Но при желании этот же подход несложно упаковать и в экстенш к MediaWiki - там главное правильно вытащить текст страниц и обновлять индексацию, благо сам фреймворк позволяет работать с разными типами документов.

AI-агрегатор новостных лент или как выжить в эпоху информационного изобилия

samako Nov 12 at 08:56

Написал в личку

AI-агрегатор новостных лент или как выжить в эпоху информационного изобилия

samako Nov 11 at 10:46

Я как раз пишу что-то подобное для себя на PHP. Интересно будет сравнить подходы. Спасибо за статью.

Однако должен заметить, что github линк на сайте не откывается, регистрация тоже не работает.

Мой первый AI-агент на базе Neuron — PHP-агентного фреймворка

samako Oct 26 at 09:27

По-поводу восторженной воды и мало конкретики - согласен и полностью принимаю. Просто я действительно был рад обнаружить агентный фреймворк на PHP, где больше чем 1-2 коммита и который, судя по репозиторию, продолжает активно развиваться. Для меня - это всегда бальзам на мою PHP-шную душу.
По-поводу конечных автоматов и сложных алгоритмов обработки данных. Я не отказываюсь от них - ни в коем случае. Просто иногда запрограммировать сложное поведение, где есть неопределённость может быть проще с AI-агентом. Поясню, для меня AI-агенты - это что-то вроде "Service 2.0", они не просто обрабатывают запрос, а понимают задачу и контекст.
Например: есть задача, в которой нужно отправить потенциальному кандидату письмо с вопросом, готов ли он встретиться в офисе такого-то числа и в зависимости от его ответа выслать то или иное сообщение.
1. Можно использовать классический подход и парсить его ответ на предмет нахождения в нём слов, типа "Да", "Ок", "Согласен" и т.д. А если там будет что-то вроде: "Ну дык, само собой" или "Да, нет"? Как решать эту проблему?
2. Если же предоставить AI-агенту возможность самостоятельно интерпретировать ответ, он не будет ограничен жёстким списком ключевых слов. Он сможет понять смысл фразы, даже если она выражена неформально, с ошибками
  (sic!) или с контекстом, который выходит за рамки заранее прописанных правил. Вместо if/else по шаблонам, агент воспринимает задачу как намерение пользователя - он не ищет совпадения строк, а пытается определить смысл и намерение ответа. Это и есть ключевая разница: мы перестаём программировать "поведение", и начинаем ставить цели, а агент уже сам подбирает шаги для их достижения. То есть, в примере с письмом, AI-агент может "понять", что "Ну дык, само собой" = согласие, а "Да, нет" - двусмысленный ответ, который требует уточнения. Дальше агент сам решит, что лучше сделать - поблагодарить за согласие или переспросить.
3. Ещё раз - всё это не означает, что стандартный подход уже не нужен - совсем наоборот! Мы можем использовать локальную проверку на нужные слова (захардкоженную, чтобы сэкономить ресурсы) + дополнительную проверку с AI-агентом, если есть сомнения. То есть - существуют ситуации, где использование AI-агента в целом не нужно вообще, например: API, транзакции, CRUD и т.д. А есть ситуации, где это необходимо, например: анализ текстов, писем, логов, автоответы, диалоги и т.п.
Теперь по-поводу "AI-агента внутри PHP-приложения". Если коротко: это объект в коде, который может принимать решения на основе контекста и данных, а не просто выполнять жёстко заданные инструкции. Надеюсь, стало немного понятнее.

Мой первый AI-агент на базе Neuron — PHP-агентного фреймворка

samako Oct 25 at 21:07

Контекст агента не реализован OpenAI - он реализуется в самом фреймворке. Когда агенту Neuronа нужно "подумать" или сгенерировать ответ, он вызывает LLM-провайдер и передаёт в модель текущий контекст, сформированный на своей стороне, примерно в таком виде:

{
  "messages": [
    {"role": "system", "content": "Ты — помощник по анализу статей."},
    {"role": "user", "content": "Проанализируй эту статью..."},
    {"role": "tool_result", "content": "Текст статьи, полученной при помощи..."}
  ]
}

То есть, он хранится внутри Neuron - в PHP-слое

Мой первый AI-агент на базе Neuron — PHP-агентного фреймворка

samako Oct 25 at 21:07

Как я пытался подружить PHP с NER — драма в 5 актах

samako Sep 26 at 09:55

Согласен, это даёт большую экономию. Но с другой стороны, если использовать spaCy в отдельном контейнере, то можно горизонтально маштабироваться, а если запускать spaCy в том же контейнере, что и PHP, то это проблема, так как всё бежит в рамках одного и того же запроса в php-fpm.

Так что у нас дилема.. но пока что мы начали использовать батчинг. SpaCy очень хорош в обработке батчей, - мы отправляем 1000 текстов для обработки в одном запросе. В результате общее время обработки сократилось почти в 30 раз! И это даже без горизонтального маштабирования.

Хотя сам пакет phpy мне очень понравился. Думаю, что можно написать статью по его использованию.

Как я пытался подружить PHP с NER — драма в 5 актах

samako Sep 25 at 12:03

В целом да, но в моём случае ядро программы написано на PHP, поэтому данные приходят в PHP и часть работы по аннотоциям текстов ложится на Python

2 3 4