как строются чанки: есть ли связи по объектам метаданных, есть ли Ast дерево метаданных? Есть ли реранкер? Есть ли ограничение на размер чанков выдаваемых модели или отдаём все как есть забивая контексте окно? Или просто тупо режем на чанки и отдаём модели кучу инфы?
также в папке C:\Users\User\.serena смотри настройки serena_config.yml
gui_log_window: false
# whether to open a graphical window with Serena's logs.
# This is mainly supported on Windows and (partly) on Linux; not available on macOS.
# If you want to see the logs in a web browser, use the `web_dashboard` option instead.
# Limitations: doesn't seem to work with the community version of Claude Desktop for Linux
# Might also cause problems with some MCP clients - if you have any issues, try disabling this
#
# Being able to inspect logs is useful both for troubleshooting and for monitoring the tool calls,
# especially when using the agno playground, since the tool calls are not always shown,
# and the input params are never shown in the agno UI.
# When used as MCP server for Claude Desktop, the logs are primarily for troubleshooting.
# Note: unfortunately, the various entities starting the Serena server or agent do so in
# mysterious ways, often starting multiple instances of the process without shutting down
# previous instances. This can lead to multiple log windows being opened, and only the last
# window being updated. Since we can't control how agno or Claude Desktop start Serena,
# we have to live with this limitation for now.
web_dashboard: true
# whether to open the Serena web dashboard (which will be accessible through your web browser) that
# shows Serena's current session logs - as an alternative to the GUI log window which
# is supported on all platforms.
web_dashboard_open_on_launch: true
# whether to open a browser window with the web dashboard when Serena starts (provided that web_dashboard
# is enabled). If set to False, you can still open the dashboard manually by navigating to
# http://localhost:24282/dashboard/ in your web browser (24282 = 0x5EDA, SErena DAshboard).
# If you have multiple instances running, a higher port will be used; try port 24283, 24284, etc.
log_level: 10
# the minimum log level for the GUI log window and the dashboard (10 = debug, 20 = info, 30 = warning, 40 = error)
trace_lsp_communication: false
# whether to trace the communication between Serena and the language servers.
# This is useful for debugging language server issues.
ls_specific_settings:
bsl:
enable_hash_prefiltering: true #предварительная фильтрация файлов по хешу
file_read_parallelism: 500 #количество параллельных операций чтения файлов (по умолчанию 500)
# Added on 23.08.2025
# Advanced configuration option allowing to configure language server implementation specific options. Maps the language
# (same entry as in project.yml) to the options.
# Have a look at the docstring of the constructors of the LS implementations within solidlsp (e.g., for C# or PHP) to see which options are available.
# No documentation on options means no options are available.
#
# увеличим таймаут инструментов для крупных проектов
tool_timeout: 360
# timeout, in seconds, after which tool executions are terminated
excluded_tools: []
# list of tools to be globally excluded
included_optional_tools:
- create_text_file
- delete_lines
- insert_at_line
- read_file
- replace_lines
- summarize_changes
# list of optional tools (which are disabled by default) to be included
jetbrains: false
# whether to enable JetBrains mode and use tools based on the Serena JetBrains IDE plugin
# instead of language server-based tools
# NOTE: The plugin is yet unreleased. This is for Serena developers only.
default_max_tool_answer_chars: 150000
# Used as default for tools where the apply method has a default maximal answer length.
# Even though the value of the max_answer_chars can be changed when calling the tool, it may make sense to adjust this default
# through the global configuration.
token_count_estimator: CHAR_COUNT
# the name of the token count estimator to use for tool usage statistics.
# See the `RegisteredTokenCountEstimator` enum for available options.
#
# By default, a very naive character count estimator is used, which simply counts the number of characters.
# You can configure this to TIKTOKEN_GPT4 to use a local tiktoken-based estimator for GPT-4 (will download tiktoken
# data files on first run), or ANTHROPIC_CLAUDE_SONNET_4 which will use the (free of cost) Anthropic API to
# estimate the token count using the Claude Sonnet 4 tokenizer.
# MANAGED BY SERENA, KEEP AT THE BOTTOM OF THE YAML AND DON'T EDIT WITHOUT NEED
# The list of registered projects.
# To add a project, within a chat, simply ask Serena to "activate the project /path/to/project" or,
# if the project was previously added, "activate the project <project name>".
# By default, the project's name will be the name of the directory containing the project, but you may change it
# by editing the (auto-generated) project configuration file `/path/project/project/.serena/project.yml` file.
# If you want to maintain full control of the project configuration, create the project.yml file manually and then
# instruct Serena to activate the project by its path for first-time activation.
# NOTE: Make sure there are no name collisions in the names of registered projects.
#указать зарегистрированные проекты
projects:
- E:\DATA1C\BASE (путь к твоей папке с проектом 1С)
не сделан онбординг проекта. В папке с проектом должна появится папка .serena, в ней файл project.yml с настройками языка. Можешь вручную сделать папку и файл.
структура project.yml
ignore_all_files_in_gitignore: true
# list of additional paths to ignore
# same syntax as gitignore, so you can use * and **
# Was previously called `ignored_dirs`, please update your config if you are using that.
# Added (renamed)on 2025-04-07
ignored_paths: []
# whether the project is in read-only mode
# If set to true, all editing tools will be disabled and attempts to use them will result in an error
# Added on 2025-04-18
read_only: false
excluded_tools: []
# initial prompt for the project. It will always be given to the LLM upon activating the project
# (contrary to the memories, which are loaded on demand).
initial_prompt: ""
project_name: "Название проекта"
languages:
- bsl:
included_optional_tools: []
encoding: utf-8
Рабочая схема! Особенно слой с BM25 эффективно работает если количество документации в БД переваливает за 1 млн.статей. Проверял на своем узкоспециализированном MCP 1С
Я также использую markdown с разметкой по разделам/подразделам и.т.п. с переливом по чанкам + заголовки meta.
Но есть одно НО! Мой опыт показывает что при увеличении роста статей в БД и особенно если много разных релизов библиотек с +- одинаковой семантикой модель Qwen3-reranker 0.6B начинает галлюцинировать и выдавать не совсем релевантные чанки.
Я перешел на qwen2.5-7b-instruct: нахожу 50 релевантных чанка с помощью text-embedding-qwen3-embedding-4b, очищаю через BM25 и загоняю модели.
Выдаю агенту результат, но не весь контекст, а искусственно обрезаю через параметр.
Cursor memory bank - можно и его использовать. Только для чего? В serena тебе полный фарш и memory bank и onbording и codestyle и крутой функционал поиска паттернов и экономия токенов - в одной коробке. Cursor memory bank - умеет так делать?)
на счет не юзать opus 4.6? Юзал - очень крутая модель!
с 01.01.2026 Cursor поменял ценовую политику, т.к. они жестко спалились перед anthropic claude и goolge gemini. У них был профит, если используешь их модели в терминале, то стоимость была в 10 раз меньше чем через api. Теперь Cursor в топовые модели ходит только по api, соответственно прайс стал x10. Все профильные форумы об этом уже говорят.
Натуральный ряд и был задуман для того чтобы складывать палки, камушки и овец). В чем смысл дискуссии?
Имеем комнату с двумя дверьми. В одну дверь выпускаем очередь из 50 человек (каждый из которых живет по 100 лет), а через другую выпускаем. Сколько людей выйдет из другой двери? 50 и выйдет. А если за единицу времени взять 100 лет, то выйдет 0 человек?
это уже что-то! А то обычно выложат проекты с передачей голых чанков в модель и удивляются что она так много кушает токенов.
как строются чанки: есть ли связи по объектам метаданных, есть ли Ast дерево метаданных? Есть ли реранкер? Есть ли ограничение на размер чанков выдаваемых модели или отдаём все как есть забивая контексте окно? Или просто тупо режем на чанки и отдаём модели кучу инфы?
какая модель используется для чанков? Это же очень дорогая операция.
Потратить 1 млн. на клавиатуру с нейросетью??? Вот же люди скучно живут! "И спустился с небес он. И глаголил всем “СЛОВО” это “слово”..."
В описании репозитория на github полное описание расширения и что оно умеет. Статью не стал перегружать лишними буквами.
https://github.com/asweetand-a11y/serena
вот проект с ast деревом под 1с.
у Димы просто 3 работы по 300к, вот и не успевает делать рефакторинг. Знаю таких пару вайб кодеров лично.
также в папке C:\Users\User\.serena смотри настройки serena_config.yml
не сделан онбординг проекта. В папке с проектом должна появится папка .serena, в ней файл project.yml с настройками языка. Можешь вручную сделать папку и файл.
структура project.yml
Рабочая схема! Особенно слой с BM25 эффективно работает если количество документации в БД переваливает за 1 млн.статей. Проверял на своем узкоспециализированном MCP 1С
Я также использую markdown с разметкой по разделам/подразделам и.т.п. с переливом по чанкам + заголовки meta.
Но есть одно НО! Мой опыт показывает что при увеличении роста статей в БД и особенно если много разных релизов библиотек с +- одинаковой семантикой модель Qwen3-reranker 0.6B начинает галлюцинировать и выдавать не совсем релевантные чанки.
Я перешел на qwen2.5-7b-instruct: нахожу 50 релевантных чанка с помощью text-embedding-qwen3-embedding-4b, очищаю через BM25 и загоняю модели.
Выдаю агенту результат, но не весь контекст, а искусственно обрезаю через параметр.
абсолютно согласен!
это ты про grep, не смеши)))
смешно)))
В каждом сообщении будешь вставлять свой продающий сайт?
Я покупал у тебя mcp за 6к. Мне не понравились. Особенно кривой поиск по сайту итс.
В какой момент ты включил обиженку? Создаю конкуренцию? Да, бесплатно выложу для людей mcp, пусть пользуются.
у меня свой набор MCP под 1С
Cursor memory bank - можно и его использовать. Только для чего? В serena тебе полный фарш и memory bank и onbording и codestyle и крутой функционал поиска паттернов и экономия токенов - в одной коробке. Cursor memory bank - умеет так делать?)
на счет не юзать opus 4.6? Юзал - очень крутая модель!
с 01.01.2026 Cursor поменял ценовую политику, т.к. они жестко спалились перед anthropic claude и goolge gemini. У них был профит, если используешь их модели в терминале, то стоимость была в 10 раз меньше чем через api. Теперь Cursor в топовые модели ходит только по api, соответственно прайс стал x10. Все профильные форумы об этом уже говорят.
китайские нейронки, Qwen coder, GLM 4.5, очень любят в глобальных модулях создавать переменные:
для экономии токенов и мемори банк использую допиленную под bsl serena. Очень полезный mcp, советую.
Натуральный ряд и был задуман для того чтобы складывать палки, камушки и овец). В чем смысл дискуссии?
Имеем комнату с двумя дверьми. В одну дверь выпускаем очередь из 50 человек (каждый из которых живет по 100 лет), а через другую выпускаем. Сколько людей выйдет из другой двери? 50 и выйдет. А если за единицу времени взять 100 лет, то выйдет 0 человек?