Комментарии 25
Даниил, подборка впечатляет. Единственное - приложения типа Ada, на мой взгляд, не должны быть в широком доступе. В мире очень много мнительных людей, которые выводы алгоритма сочтут за 100% правду, проигнорив надпись про "не является медицинским заключением". Кстати, подобные приложения ошибаются чаще, чем это можно представить. Знаю реальные случаи, когда они - простите - путали признаки метеоризма с беременностью...
Спасибо большое!
Мне показалось интересным приложение. Тем более я решил опубликовать его именно на хабре, так как тут люди сидят понимающие (надеюсь), что всему, что связано с нейросетями и ИИ пока что доверять не стоит на 100%. А так просто интересный проект, с интересной задумкой.
Но, как я в статье указал, эту вещь можно использовать в качестве чего-то обучающего. Например, сейчас есть куча стартапов в медицине/сфере здравоохранения, которые смогут для себя что-то узнать новое в этом приложении.
Мне кажется, что это идеальный вариант для врачей. В идеале все медицинские справочники оцифровать - чтобы если врач не знает что за болезнь (а такое часто случается, нельзя же все помнить) - просто ввел симптомы, получил уточняющие анализы, ввел анализы - получил диагноз с очень большой точностью. Особенно актуально, если болезнь редкая.
Посыл был в том, чтобы показать, что сейчас даже помимо chatGPT есть много крутых сервисов)
А то из каждого утюга только про chatGPT и Midjorney слышно
ChatGPT любит галлюцинировать, давайте не будем забывать об этом. На данный момент он полезен лишь в умелых руках, для масс он ещё непонятная игрушка, хотя бы потому что контекст он забывает быстро, не проверяет свои высказывания на действительность и, малость, не актуален: данные, на которых он был обучен датируются 2021м годом, и нет пока способа адекватно и надолго его обучить при желании.
Лично я тоже рад такой нейросетке, стараюсь выжимать пользу из нее по полной и очень жду обновлений и дальнейшего полезного развития от неё :)
Результат обработки фото в Replicate Codeformer в примере всё же содержит артефакты.
Глаза, особенно у малыша посередине, стали неестественно голубоватыми.
Похоже исходное фото сканировалось в цветном режиме, а программа усилила цвет.
Нужно было ещё принудительно перевести в оттенки серого на каком-то этапе, как я понимаю.
позволяет сгенерировать музыку по описанию, которую можно использовать без АП.
Расшифруйте, пожалуйста, что АП — это авторские права.
P.S. А потом сервис не заявит свои АП на сгенерированную музыку ;)
Ada - так и не понял зачем для "ответов на несколько вопросов" ставить себе, путь и бесплатное, приложение. Мода прям какая-то. Все хотят следить - данных, даже официально, они собирают прилично.
SteosVoice
то что нужно чтобы наконец озвучить некоторые игры без русской озвучки.
Например max payne 3 или Batman Arkham
Первую секунду прям рванулся регистрироваться и делать. Потом остыл))
Ну раз уж отписался спрошу. Нету такого генератора которому прямо даешь файлы с озвучкой из игры\фильма а он тебе уже выдает переведенное и с теми же голосами и актерской игрой?
Я еще пару лет назад и сам усомнился в таком. Но сегодня... если и нету то будет уже в прямом смысле через неделю.
Кста, может кому встречалось что-нибудь наподобие codeformer, только для видео? Нужно "отретушировать" ранее оцифрованные 8мм ролики (убрать dust&scratches, local fading etc.). Когда-то давно (сразу после оцифровки) я немного повозился c AviSynth и понял, что усилия, которые я мог инвестировать в процесс, не давали желаемого результата. Вдруг сейчас в этом деле уже способоен пособить ИскИн?
Вот это действительно интересно, особенно дальнейшее развитие.
Какого-нибудь сервиса распознования речи, куда аудио лекции на час-полтора закидываешь и получаешь текст, нету случайно? Давно ищу...
В Adobe Premiere можно использовать функцию транскрибирования: https://helpx.adobe.com/ru/premiere-pro/using/speech-to-text.html
...только библиотеку для русского языка надо скачать дополнительно.
Replicate Codeformer
все нейросети хороши "издали" и ужасны в близи)
Я б вам показал, что она сделала с моими армейскими снимками)))) - очень интересный эффект , на манимальном зуме - вроде фотография стала контрастнее , лица четче, фоновые артефакты то же четче, каково же было мое изумление , когда я взял отрендеренный снимок, навел на свое лицо и сделал максимальный зум - там был просто абсолютно другой человек, причем смутно напоминавший какого-то актера ))) -точно не я... , шапка "афганка" - превратилась в колпак из дерюги клеткой в 0.5 см)) пальцы.... - ну после Stable Diffusion вы представляете сколько там было пальцев))) можно еще долго рассказывать , в общем в масимальной детализации это был совсем другой снимок
Попробовал SteosVoice. На сайте даже нельзя прослушать примеры голосов, бесплатно доступно только 100 символов, чего не достаточно даже для того чтобы два голоса просто послушать. Какое-то неадекватное ограничение. При этом в Телеграм-боте интерфейс гораздо лучше и доступно довольно много символов бесплатно.
Сами голоса к сожалению оставляют желать много лучшего (слушал только английские). Из доступных английских голосов всего один звучал более менее реалистично, но на живых данных он запинался, неправильно читал некоторые слова и ритм речи был явно искусственным. В целом на рынке есть решения намного более качественные и реалистичные.
Могу дополнить список парой инструментов которыми пользуюсь сам:
https://github.com/abb128/LiveCaptions - самый простой для использования на десктопе ASR - Automatic Speech Recognition. Работает как и с микрофона, так и с воспроизводимого аудио. Использует свою модель / библиотеку April-ASR
https://github.com/ggerganov/whisper.cpp - С++ имплементация ASR использующая модель Whisper от компании OpenAI (знакомое имя?). Понимает русский, кстати. За счёт того, что консольный, легко использовать в связке с другими инструментами в сценариях типа "скачать ютуб видео | распознать весь текст оттуда".
https://gitlab.com/TheEvilSkeleton/Upscaler - простой в использовании но очень крутой апскейлер. Скромный разработчик даже не потрудился как следует снабдить своё репо примерами "до и после". Вот тут есть обзор - https://ubuntu-news.ru/howto/kak-uluchshit-izobrazhenie-s-nizkim-razresheniem-v-linux-prilozhenie-upscaler
https://github.com/coqui-ai/TTS - если нужен Text-To-Speech. Куча разных моделей на любой вкус и цвет, так что голова идёт кругом. По качеству тоже на любой вкус - есть быстрые но немного механические, есть прям вполне отличные, уровня Яндекса Алисы, не к ночи будет упомянута.
5 классных сервисов на основе ИИ (с примерами)