Комментарии 9
Зачем? html и markdown довольно совместимые друг с другом форматы, они и обычным алгоритмом будут конвертироваться ничуть не хуже
Денег не дадут, если в проекте не будут упоминаться волшебные слова "искусственный интеллект", "машинное обучение", "нейросети".
Кидайте ссылку на Иранику. Проварим что из неё обычным плагином для Firefox можно будет вытащить потом бы, конечно сравнить с результатом модели.
Проблема модели в том что не ясно что она вам вытащить. Она же не гарантирует 1-1 воспроизведение.
И скорее всего если вы ее несколько раз на те же данные запустите то разный результат получите. Он конечно прикольно но работает с этим тяжело.
Извлечение информации не тривиальная задача, достаточно посмотреть исходный код любой страницы. Автоматом конвертнуть можно, наверное, но 90% из этого всякий мусор для разметки и рекламы.
Погодите, а разве конвертеры на основе классических подходов к разработке софта не существуют уже со времен динозавров?
Разработчики представили Reader-LM — языковую модель для конвертации HTML в Markdown