Как стать автором
Обновить

Комментарии 5

Следующим "этапом" будет анализ отчетов эмитентов? Например

https://www.e-disclosure.ru/portal/files.aspx?id=38758&type=5

? :)

+scraping www.e-disclosure.ru + LLM + RAG (на/в бесплатных векторных БД, например, supabase) + скрининг на NLP :).

Будет "интересная" проблема Таблицы (МСФО и РСБУ) и LLM.

Идея хороша. Вы так уже делали?

Фрагментарно. "Я даже не джуниор" (с)

  • Скрапинг. Судя по "aspx", обычным формированием адреса не обойтись. Т.е. Selenium puppeteer etc.

  • В итоге скачал "Отчет эмитента" - архивированный rtf. Собственно текстовка (описание, риски, пресловутые (Борец) акционеры), с картинками (не очень нужными) и важными таблицами (Обеспечения и т.п.). Причем, документ, скорее всего, не регламентирован, а значит, у других эмитентов, внутри все может быть в каком угодно формате/порядке.

  • Отчетность. Тут вроде понятно - статьи баланса, ОПУ, комментарии, аудиторы. Но сканированные страницы. А pytesseract мой "сервер" кладет. Собрался отправить в Mistral OCR (можно даже автоматизировать), но ограничения по объему, а Yandex OCR и по объему и по деньгам. Что такое локальная LLAMA Vision (у буржуинов только "чеки"), пока не понял и новый сервак не собрал.

  • Собственно AI,все просто. Хотя, не удивительно - "хайп в квадрате" (LLM и RAG). Примеров множество. От "nocode" (n8n) ("наивный RAG" - буквально секунды), до юпитеров, коллабов и прочих langchain'ов (минуты). Вот только таблицы... Все говорят и я убедился, что вытащить что-то осознанное из таблицы в plain-text/csv/makdown, засунутую в чанк бесполезно.

  • Получается, что надо "текстовку" векторизовать, таблицы и картинки в реляционную СУБД. Причем привязывая либо к эмитенту и периоду отчетности (собственно РСБУ/МСФО), либо к конкретному чанку. А таблицы у каждого эмитента могут быть разными (какие-то поля jsonb или полноценную "бухгалтерскую АРМ"). И получается "боязно" - придумаешь структуру, а она будет "неправильной".

А в итоге

  • облигаций уже не осталось :) Все приличные торгуются выше номинала.

  • да и для моей "стратегии" (до погашения) главное - вероятность дефолта и нулевого купона после пропущенной оферты. И то и другое легко может наступить "вопреки" отчетам, количествам заправок, количеству лисапедов и прочим "исследованиям".

Т.е. я бы "списал", но лучше бы "подглядел" процесс в спорных моментах.

Я уже давно смотрю. Сейчас, с помощью GigaChat :) , пытаюсь доделать под себя.

  • "Денежный поток" хорошо, но вот бы итого по каждому бонду, деленное на Ask плюс НКД на дату запуска. (Для сравнения "хороших, но выше номинала").

  • Аналогично "доходность" при поиске бондов. Тем более в "первой" функции Вы все равно вызываете "bondization". Вот только для "ароматизированных" бондов пока не проверял. И именно это значение брать за "доходность" для фильтрации бондов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации