Комментарии 5
Следующим "этапом" будет анализ отчетов эмитентов? Например
https://www.e-disclosure.ru/portal/files.aspx?id=38758&type=5
? :)
+scraping www.e-disclosure.ru + LLM + RAG (на/в бесплатных векторных БД, например, supabase) + скрининг на NLP :).
Будет "интересная" проблема Таблицы (МСФО и РСБУ) и LLM.
Идея хороша. Вы так уже делали?
Фрагментарно. "Я даже не джуниор" (с)
Скрапинг. Судя по "aspx", обычным формированием адреса не обойтись. Т.е. Selenium puppeteer etc.
В итоге скачал "Отчет эмитента" - архивированный rtf. Собственно текстовка (описание, риски, пресловутые (Борец) акционеры), с картинками (не очень нужными) и важными таблицами (Обеспечения и т.п.). Причем, документ, скорее всего, не регламентирован, а значит, у других эмитентов, внутри все может быть в каком угодно формате/порядке.
Отчетность. Тут вроде понятно - статьи баланса, ОПУ, комментарии, аудиторы. Но сканированные страницы. А pytesseract мой "сервер" кладет. Собрался отправить в Mistral OCR (можно даже автоматизировать), но ограничения по объему, а Yandex OCR и по объему и по деньгам. Что такое локальная LLAMA Vision (у буржуинов только "чеки"), пока не понял и новый сервак не собрал.
Собственно AI,все просто. Хотя, не удивительно - "хайп в квадрате" (LLM и RAG). Примеров множество. От "nocode" (n8n) ("наивный RAG" - буквально секунды), до юпитеров, коллабов и прочих langchain'ов (минуты). Вот только таблицы... Все говорят и я убедился, что вытащить что-то осознанное из таблицы в plain-text/csv/makdown, засунутую в чанк бесполезно.
Получается, что надо "текстовку" векторизовать, таблицы и картинки в реляционную СУБД. Причем привязывая либо к эмитенту и периоду отчетности (собственно РСБУ/МСФО), либо к конкретному чанку. А таблицы у каждого эмитента могут быть разными (какие-то поля jsonb или полноценную "бухгалтерскую АРМ"). И получается "боязно" - придумаешь структуру, а она будет "неправильной".
А в итоге
облигаций уже не осталось :) Все приличные торгуются выше номинала.
да и для моей "стратегии" (до погашения) главное - вероятность дефолта и нулевого купона после пропущенной оферты. И то и другое легко может наступить "вопреки" отчетам, количествам заправок, количеству лисапедов и прочим "исследованиям".
Т.е. я бы "списал", но лучше бы "подглядел" процесс в спорных моментах.
На счёт облигаций есть хороший вариант: https://github.com/empenoso/moex-bond-search-and-analysis
Сам написал :)
Я уже давно смотрю. Сейчас, с помощью GigaChat :) , пытаюсь доделать под себя.
"Денежный поток" хорошо, но вот бы итого по каждому бонду, деленное на Ask плюс НКД на дату запуска. (Для сравнения "хороших, но выше номинала").
Аналогично "доходность" при поиске бондов. Тем более в "первой" функции Вы все равно вызываете "bondization". Вот только для "ароматизированных" бондов пока не проверял. И именно это значение брать за "доходность" для фильтрации бондов.
Фундаментальный анализ акций в РФ и США