Pull to refresh
17
0
Дмитрий Прилипко @kometa_triatlon

User

Send message
Привет, Муаммар!
Хе, а я и не в курсе был насчет пятничной молитвы :)
Судя по всему, жизнь в Яндексе продолжается?
Речь не о синтезе на базе СММ (технология действительно стандартная), а о придании синтезу эмоционального звучания.
Да, сейчас у меня есть подарочный VIP-статус, поэтому я хочу заставить это заработать и проплатить дальше, если взлетит.
Но нифига не работает :(
Я думаю, это из-за ограничения плагина torrent-TV, которому нужен только TS-Proxy. А его у меня как раз нет :(
Вот здесь http://torrent-tv.ru/viewing_on_xbmc.php явно говорится, что для просмотра нужен VIP статус. И судя по всему, TS-Proxy.
Вроде бы такая настройка не требует TS-Proxy?

Потому что у меня поставился софт, открылся плагин torrent-tv, и даже получилось завести AceStream:

acestreamengine --client-console
2015-01-05 00:33:46,087|acestream|enable debug: 0
2015-01-05 00:33:46,087|acestream|version=2.1.6 revision=293 date=2013-09-18
2015-01-05 00:33:46,087|acestream|get_default_api_version: 2
2015-01-05 00:33:46,087|acestream.coreapp|use fixed i2i_port: 62062
2015-01-05 00:33:46,094|acestream.coreapp|cannot load session config, use default
2015-01-05 00:33:46,108|acestream.SocketHandler.InterruptSocket|bound on 127.0.0.1:43201
2015-01-05 00:33:46,108|acestream.LM|listen on 8621
2015-01-05 00:33:46,119|acestream.VideoServer|start: addr=127.0.0.1 port=6878
2015-01-05 00:33:46,125|acestream.SocketHandler.InterruptSocket|bound on 127.0.0.1:38311
2015-01-05 00:33:46,125|acestream.APIServer|run: ready to receive remote commands on 62062



А вот запустить какой-то канал из плагина не вышло: ошибка проигрывания, Could not load file list. Думал, не может подконнектиться из-за файрвола, открыл ему руками порт 8621, но нет. Вот что он мне отвечает при попытке запустить канал:

2015-01-05 00:34:25,504|acestream.coreapp|external_connection_made: ip=127.0.0.1 port=56089 myip=127.0.0.1 myport=62062 connections=1
2015-01-05 00:34:25,504|acestream.coreapp|got command: HELLOBG
2015-01-05 00:34:25,504|acestream.BGInstanceConnection|send HELLOTS version=2.1.6 key=b6bdb3880d
2015-01-05 00:34:26,505|acestream.coreapp|got command: READY key=n51LvQoTlJzNGaFxseRK-b4c065c95f53f107845d7f35c71cfcbc81e4ee9d
2015-01-05 00:34:26,505|acestream.BGInstanceConnection|send AUTH 0
2015-01-05 00:34:26,506|acestream.coreapp|got command: LOADASYNC 1282839341 PID de23e2db2549ac068f4de56edb0700ccc219cbc2
2015-01-05 00:34:26,634|acestream.BGInstanceConnection|send_load_response: request_id=1282839341 response={"status": 100, "message": "bad bencoded data"}
2015-01-05 00:34:26,705|acestream.coreapp|connection_lost: ip=127.0.0.1 port=56089
2015-01-05 00:34:26,706|acestream.coreapp|got command: SHUTDOWN
2015-01-05 00:34:26,706|acestream.BGInstanceConnection|shutdown: shutdownplugin=1
2015-01-05 00:34:26,707|acestream.BGInstanceConnection|send STATE 0
2015-01-05 00:34:26,707|acestream.BGInstanceConnection|cleanup_playback
2015-01-05 00:34:26,707|acestream.BGInstanceConnection|shutdown: shutdownplugin=1
2015-01-05 00:34:26,707|acestream.coreapp|connection_lost: ip=127.0.0.1 port=56089



HELLOTS — HELLOBG как бы намекает, что коннект есть. Затем response={«status»: 100, «message»: «bad bencoded data»}. Может, он пытается использовать TS-Proxy, которого у меня нет.
Если вы имеете ввиду полноценное встроенное распознавание речи на устройстве — то это весьма сложная задача, учитывая размеры моделей и ресурсы, требуемые для распознавания в реальном времени. Но мы над этим работаем.

Мы сейчас говорим о мобильных устройствах, или о десктопе?
Яндекс.Диктовка — это приложение, прежде всего демонстрирующее возможности SpeechKit Mobile SDK. Поэтому цель постоянно «слушать эфир», как в Google Now, не ставилась. Кстати, по умолчанию, мой Nexus тоже не реагирует на «Ok, Google» в фоне.

Впрочем, под андроид можно создать приложение с использованием Mobile SDK, которое бы слушало микрофон постоянно.
Обычные MFCC. i-vectors — это немного про другое, они не могут быть низкоуровневыми признаками речи, такими как MFCC или PLP.
Голосовая активация активна только если запущено приложение «Диктовка». Так что, беспокоиться не стоит :)
Голосовая активация — это модуль, который постоянно «слушает эфир» и реагирует на ключевую фразу. То есть, для нее нужно а) постоянно отсылать звук и б) реализовать VAD и keyword spotting. И если второй момент — не проблема для веб-сервиса (более того, keyword spotting планируется реализовать в облаке), то с первым будут явные проблемы.
Залез на Android Device Manager — местоположение тоже не определяется.
Определилось, когда позвонил оттуда на телефон.
Вспоминается анекдот про автоматическую бреющую машину:
— Но у людей же отличается форма лица!
— Да, но только в первый раз…
Какие интересные вопросы… Постараюсь ответить =)

1. Я думаю, Signal-to-noise ratio и Signal-to-interference ratio должны подойти в качестве метрики.

2. Никогда не слышал ни о чем подобном. Робот позвонил в хелпдеск, а нам том конце тоже робот? =) Могу предположить, что качество распознавания будет неплохим (лучше чем для человеческой речи), если натренировать модели на синтезированной речи.

3. Для начала, невозможно провести такую черту, потому что сфинкс часто используется, и весьма успешно, в коммерческих разработках. В любом случае, алгоритмы в основе лежат те же. Поэтому сравнивать нужно не движки, а акустические и языковые модели, фронтенды отвечающие за шумопонижение, вобщем весь тот обвес, который и создает в конечном итоге систему распознавания. Сфинкс — как лего. Если собрать из него гоночную машину, она застрянет на огороде, где проедет проприетарный трактор. А конкретно не скажу, не сравнивал. Да и корректное сравнение очень тяжело провести. Например, моя система на основе сфинкса работает лучше Google Speech API для одной специфической задачи. Но только потому, что у гугла языковая модель «для всего» и огромный словарь, а моя система конкретно заточена под предметную область. Впрочем, в коммерческих системах активно внедряется акустическое моделирование на DNNs (глубоких нейронных сетях) вместо GMMs, и языковые модели тоже на нейронках. Сфинкс тут пока отстает, но я думаю в скором времени эти техники будут реализованы и в нем.
Ха-ха. Кто вам сказал про неспешную и прекрасную жизнь?
Жизнь ученого — это постоянная гонка за деньгами. Даже если ты профессор, деньги нужно искать для своих аспирантов.
Постоянных ставок мало и постдоки кормятся в основном с проектов и грантов. Нужно постоянно играть на упреждение и писать новые проекты за год до окончания текущих. Обычное дело, когда заявку мурыжат полгода-год и потом отклоняют из-за урезания финансирования. А чтобы получать деньги, нужно бежать наперегонки с коллегами и выдавать значимые результаты, что совсем не тривиально.
Вобщем, ученым лучше быть где-нибудь на ставке, но это не так часто выпадает.
Скорее feature selection.
Статья дает представление о некоторых фундаментальных проблемах машинного обучения, хотя ничего похожего на описанный алгоритм не делается ни в PCA, ни в алгоритме обучения нейронной сети.
RPi:
а) Маленький, так что его можно заныкать с глаз долой
б) Абсолютно бесшумный. Все-таки, и тонкие клиенты и ноуты имеют кулеры. Если спать в той же комнате — напрягает.
Это делает его идеальным решением для медиа-центров. И весьма спорным для домашнего сервера ввиду производительности.

Information

Rating
Does not participate
Location
Berlin, Германия
Date of birth
Registered
Activity