Фундаментальный анализ акций в РФ и США / Комментарии / Хабр

SergNF 12 мая 2025 в 21:06

Фрагментарно. "Я даже не джуниор" (с)

Скрапинг. Судя по "aspx", обычным формированием адреса не обойтись. Т.е. Selenium puppeteer etc.
В итоге скачал "Отчет эмитента" - архивированный rtf. Собственно текстовка (описание, риски, пресловутые (Борец) акционеры), с картинками (не очень нужными) и важными таблицами (Обеспечения и т.п.). Причем, документ, скорее всего, не регламентирован, а значит, у других эмитентов, внутри все может быть в каком угодно формате/порядке.
Отчетность. Тут вроде понятно - статьи баланса, ОПУ, комментарии, аудиторы. Но сканированные страницы. А pytesseract мой "сервер" кладет. Собрался отправить в Mistral OCR (можно даже автоматизировать), но ограничения по объему, а Yandex OCR и по объему и по деньгам. Что такое локальная LLAMA Vision (у буржуинов только "чеки"), пока не понял и новый сервак не собрал.
Собственно AI,все просто. Хотя, не удивительно - "хайп в квадрате" (LLM и RAG). Примеров множество. От "nocode" (n8n) ("наивный RAG" - буквально секунды), до юпитеров, коллабов и прочих langchain'ов (минуты). Вот только таблицы... Все говорят и я убедился, что вытащить что-то осознанное из таблицы в plain-text/csv/makdown, засунутую в чанк бесполезно.
Получается, что надо "текстовку" векторизовать, таблицы и картинки в реляционную СУБД. Причем привязывая либо к эмитенту и периоду отчетности (собственно РСБУ/МСФО), либо к конкретному чанку. А таблицы у каждого эмитента могут быть разными (какие-то поля jsonb или полноценную "бухгалтерскую АРМ"). И получается "боязно" - придумаешь структуру, а она будет "неправильной".

А в итоге

облигаций уже не осталось :) Все приличные торгуются выше номинала.
да и для моей "стратегии" (до погашения) главное - вероятность дефолта и нулевого купона после пропущенной оферты. И то и другое легко может наступить "вопреки" отчетам, количествам заправок, количеству лисапедов и прочим "исследованиям".

Т.е. я бы "списал", но лучше бы "подглядел" процесс в спорных моментах.

Комментарии 5

SergNF 12 мая 2025 в 09:25

Следующим "этапом" будет анализ отчетов эмитентов? Например

https://www.e-disclosure.ru/portal/files.aspx?id=38758&type=5

? :)

+scraping www.e-disclosure.ru + LLM + RAG (на/в бесплатных векторных БД, например, supabase) + скрининг на NLP :).

Будет "интересная" проблема Таблицы (МСФО и РСБУ) и LLM.

empenoso 12 мая 2025 в 10:00

Идея хороша. Вы так уже делали?

empenoso 13 мая 2025 в 02:21

На счёт облигаций есть хороший вариант: https://github.com/empenoso/moex-bond-search-and-analysis
Сам написал :)

SergNF 13 мая 2025 в 14:26

Я уже давно смотрю. Сейчас, с помощью GigaChat :) , пытаюсь доделать под себя.

"Денежный поток" хорошо, но вот бы итого по каждому бонду, деленное на Ask плюс НКД на дату запуска. (Для сравнения "хороших, но выше номинала").
Аналогично "доходность" при поиске бондов. Тем более в "первой" функции Вы все равно вызываете "bondization". Вот только для "ароматизированных" бондов пока не проверял. И именно это значение брать за "доходность" для фильтрации бондов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий