По-быстрому провел сравнительное тестирование Google Tesseract и Mistral OCR путем отправки одной картинки моему упомянутому выше боту и боту, описанному в этой статье.
Tesseract распознал больше половины текста, Mistral OCR - нисколько 🤷♂️
Спасибо, интересно! Жаль, что Mistral OCR оправдал не все ожидания ;-)
Я уже давненько добавил в своего Телега-Обсидиан бота функцию OCR на базе бесплатного Google Tesseract, и она оказалась неожиданно удобна как в пути (для сохранения в заметочнике текстом чего-то ценного), так и за компом (как интерфейс для быстрого OCR). Качество распознавания не супер-супер, но в большинстве случаев годится.
нет, серьезно, как можно удобно использовать математику и не потратить неделю только на её изучение?
Obsidian не очень заходит тем, кто слез с Notion, потому что их ожидания почти гарантированно не будут оправданы. А также тем, кто любит всё настраивать «под себя», потому что в этом можно банально утонуть (попутно обвинив в этом инструмент).
Зато он подходит тем, кому от заметок нужно быстро и стабильно «ехать», а не «шашечки». И для этого не надо быть программистом и вообще айтишником.
Данное решение как раз покрывает активность "ведется протокол встречи". Зачем тратить на это время живого человека, если можно это сделать автоматически, а руками только подрихтовать косяки? Если случается по несколько совещаний в день, то на протоколы уходит уйма времени.
Практикую подобное локальное решение на Whisper (модель turbo) и Llama 3.3 80B, получается норм. Пробую локальный DeepSeek R1 Qwen 32B - кажется, получается ещё лучше.
В Обсе таблицы отображались вроде всегда нормально, а в прошлом году появился прекрасный визуальный редактор таблиц. По-моему, все, что можно было выжать из Markdown-таблиц, Обсидиан выжал.
70B работает на 64 ГБ ОЗУ под виндой (Xeon e5), но медленно - 0.5-1 слово в секунду. Поэтому кажется, что в большом объеме ОЗУ смысла нет, т.к. большая модель запустится, но работать будет настолько медленно, что ею будет невозможно пользоваться.
Спасибо! Выглядит дороговато. Для рядового пользователя есть варианты проще/дешевле:
- Через Yandex Cloud можно за 5 т.р. в месяц распознать 138 часов звука (по копейке за секунду) с довольно высокой скоростью, это 6 часов аудио каждый рабочий день.
- По цене трёх месяцев такого VPS можно купить б/у GTX 1080 Ti с 11 ГБ RAM и (при наличии остального десктопного компа) транскрибировать аудиозаписи со скоростью 10x (для модели Whisper medium).
У меня на домашнем вечновключённом компе крутится телеграм-бот с функциями транскрибации и ocr. Иногда думаю вынести его на хостинг, но не могу найти достаточно аргументов 😁
Прочитал комменты выше. Люди, вы хоть пробовали использовать этот продукт, прежде чем ругать его?
За один вечер встроил предыдущую версию Tesseract в личного бота-секретаря, теперь отправляемые боту картинки сохраняются вместе с рассказанным текстом - красота.
Фу под руководством такого начальника работать
Можно использовать российского аггрегатора ИИ-API с оплатой за рубли и доступом к любым ИИ без вот этих вот приключений
По-быстрому провел сравнительное тестирование Google Tesseract и Mistral OCR путем отправки одной картинки моему упомянутому выше боту и боту, описанному в этой статье.
Tesseract распознал больше половины текста, Mistral OCR - нисколько 🤷♂️
Спасибо, интересно!
Жаль, что Mistral OCR оправдал не все ожидания ;-)
Я уже давненько добавил в своего Телега-Обсидиан бота функцию OCR на базе бесплатного Google Tesseract, и она оказалась неожиданно удобна как в пути (для сохранения в заметочнике текстом чего-то ценного), так и за компом (как интерфейс для быстрого OCR).
Качество распознавания не супер-супер, но в большинстве случаев годится.
Исходник бота: https://github.com/dimonier/tg2obsidian
нет, серьезно, как можно удобно использовать математику и не потратить неделю только на её изучение?
Obsidian не очень заходит тем, кто слез с Notion, потому что их ожидания почти гарантированно не будут оправданы. А также тем, кто любит всё настраивать «под себя», потому что в этом можно банально утонуть (попутно обвинив в этом инструмент).
Зато он подходит тем, кому от заметок нужно быстро и стабильно «ехать», а не «шашечки». И для этого не надо быть программистом и вообще айтишником.
Сравнения с Google Tesserаct есть?
А то непонятно, «зачем платить больше» ©
Скайп был норм, но после покупки MS и переделки UI стал сильно тормозить и скатываться в 💩
Результат вполне ожидаемый - отток пользователей и забвение
У вас DeepSeek бракованный 😃
Мне так ответил (R1):
У Анны 3 сестры и 1 брат. Это означает, что в семье всего **5 детей**: Анна, её 3 сестры (всего 4 девочки) и 1 брат (мальчик).
Теперь рассмотрим вопрос: **сколько сестер у брата Анны?**
С точки зрения брата, его сестры — это все девочки в семье. Поскольку их **4** (Анна + 3 сестры), у брата **4 сестры**.
**Ответ:** 4.
Данное решение как раз покрывает активность "ведется протокол встречи". Зачем тратить на это время живого человека, если можно это сделать автоматически, а руками только подрихтовать косяки? Если случается по несколько совещаний в день, то на протоколы уходит уйма времени.
Практикую подобное локальное решение на Whisper (модель turbo) и Llama 3.3 80B, получается норм. Пробую локальный DeepSeek R1 Qwen 32B - кажется, получается ещё лучше.
В Обсе таблицы отображались вроде всегда нормально, а в прошлом году появился прекрасный визуальный редактор таблиц. По-моему, все, что можно было выжать из Markdown-таблиц, Обсидиан выжал.
70B работает на 64 ГБ ОЗУ под виндой (Xeon e5), но медленно - 0.5-1 слово в секунду. Поэтому кажется, что в большом объеме ОЗУ смысла нет, т.к. большая модель запустится, но работать будет настолько медленно, что ею будет невозможно пользоваться.
Такое имя не найдено, а если "мосты" написать правильно, то находится
Спасибо!
Выглядит дороговато.
Для рядового пользователя есть варианты проще/дешевле:
- Через Yandex Cloud можно за 5 т.р. в месяц распознать 138 часов звука (по копейке за секунду) с довольно высокой скоростью, это 6 часов аудио каждый рабочий день.
- По цене трёх месяцев такого VPS можно купить б/у GTX 1080 Ti с 11 ГБ RAM и (при наличии остального десктопного компа) транскрибировать аудиозаписи со скоростью 10x (для модели Whisper medium).
Tesseract: https://github.com/tesseract-ocr/tesseract
Для меня он самописный, для других - готовое решение: https://github.com/dimonier/tg2obsidian
У меня на домашнем вечновключённом компе крутится телеграм-бот с функциями транскрибации и ocr. Иногда думаю вынести его на хостинг, но не могу найти достаточно аргументов 😁
Сколько памяти и CPU должно быть у vps, чтобы это решение взлетело? Без этого непонятно, насколько оно рентабельно и, соответственно, жизнеспособно.
Чем такой документ должен отличаться от транскрибации?
Интересненько, спасибо!
Пробовал Kanban в Обсе когда-то, он показался корявым и бесполезным. Присмотрюсь ещё раз.
Dataview - ❤️❤️❤️
Прочитал комменты выше. Люди, вы хоть пробовали использовать этот продукт, прежде чем ругать его?
За один вечер встроил предыдущую версию Tesseract в личного бота-секретаря, теперь отправляемые боту картинки сохраняются вместе с рассказанным текстом - красота.