Как стать автором
Обновить

Комментарии 39

Вы ошиблись топиком, или хотите пошутить?
Это я шучу? Так вы что не в курсе кто эта женщина? И Все сразу сливать бегут.

www.youtube.com/watch?v=W3wygIJ2DUw

Это пипец космческого масштаба. Для тех кто еще не смотрел… лучше не надо…
Честно не знал, поэтому и переспросил чтоб не горячиться кнопочки вверх/вниз клацать. Тетка жжет, «дайте мне это развидеть» как говорится.
Да я сам виноват. Светлана Пеунова это чертовски интересная личность. Для меня такие люди — откровенно загадка. Это просто кладезь информации о психологии человека. Такие люди нужны чтобы почесать затылок — а не сошел ли я сума? Это существующий феномен и это реальность.
Партия Воля — звездные войны отдыхают.
Но это ведь не новость совсем. Давно уже эта функция существует…
НЛО прилетело и опубликовало эту надпись здесь
Обнаружил недавно, посмотрел что на хабре про это не говорили решил опубликовать, возможно пригодится.
видать все от видео зависит. Снимал видео с велосипеда зимой, после того как включил стабилизацию все плавать начало и при просмотре от такого эффекта просто рвотный рефлекс)) Больше не пользовался
Видать на борту снегохода держать по-другому телефон неудобно, иначе долго его потом искать в снегу))
Да функция интересная.
Объясните, что движет людьми, когда они снимают видео вертикально.
Зачем мне кому-то что-то объяснять :-)) Гораздо интереснее узнать, построена ли вся жизнь исключительно на рефлексах вроде «увидел видео, снятое в вертикальной пропорции — сделай трололо, и не важно, что там вообще снято». Не думал об этом, честное слово ;-)
Фишки youtube: распознавание текста речи|голоса(в текст), автоматические субтитры
Было бы неплохо, если бы еще эти субтитры можно было скачать.
Ждем статью «Фишка ютьюба: просмотр видео». Эта функция есть давно уже. Или статья про новую иконку на одном сайте? Ппц.
Почему же автоматических титров нет на моих видео, где говорит человек?

А потому что это не автоматические титры, а заботливо переведённые множеством «китайцев» и закачанных по обычному интерфейсу:

image

Распознавания (компьютерного) голоса в текст на текущий момент не существует, ибо люди давно бы пользовались этим и писали бы тексты комментариев на хабре или курсовые в своих редакторах голосом.

Всё, что показывают сегодня везде — это демонстрация интерфейсов доступа к живым людям-переводчикам. То есть, если вам говорят, что вы можете позвонить по телефону и компьютер переведёт ваш голос в текст, это означает только то, что на том конце провода вас будет внимательно слушать один из тысяч нанятых переводчиков (как раньше был сервис под названием «пейджер»).
Т. е. это тоже фальсификация? :)



Какой смысл тогда было презентацию делать?
* был
Это не более чем маркетинговая фишка.

Вероятно, это и компьютер. Какой-нибудь кластер в тысячи процессоров подключили на короткое время (затратив на это миллионы долларов), чтобы показать публике простейший алгоритм поиска и сравнения среди готовой подготовленной базы голоса, которую обучили перед этим.

Но чтобы выпустить это в широкий рынок, у них нет на это мощностей. Чтобы обслуживать миллионы людей — вряд ли.

У них нет алгоритма прямого преобразования голоса в текст.
я просто не понимаю откуда такая уверенность, что этого нет и быть не может? У меня тоже конечно нет особо оснований, кроме догадок. Но когда вопросом распознавания голоса занимаются светлые умы человечества не один год, создание таких систем — вопрос времени. С учетом имеющихся вычислительных мощностей гугла, они могут позволить себе подобные самообучающиеся системы.
Конечно, могут. И делают. Это работает.

Например, тот же перевод с англ на русский сейчас очень даже литературный.
Но подобный перевод годится всё равно только для ограниченного набора применений.
Распознавание речи есть и работает. В том же Андроиде к примеру ваш голос в поисковом запросе распознается сразу и довольно точно. Этот функционал уже используют конечные приложения, от гуглового андроидного переводчика до нашенского «Помнить все».
Пролистал вниз, можете не отвечать. Ваша позиция понятна. Перфекционизм конечно про «без единой ошибки» и можно долго спорить том, что любые технологии в реализации эволюционируют а не сразу готовенькими на 100% выкатываются но смысла в таком споре будет немного.
Тут ещё такой момент: человек, хотя бы немного понимающий язык, не смог бы написать такой несвязный набор слов, который выдаёт машина.
Взять хотя бы автоматические субтитры к этому же ролику.

Что говорит диктор.
Now, I want to come back to the topic of natural user interfaces. One of the most natural interfaces for people is human speech. And for the last sixty years computer scientists have been trying to find a ways to understand and recognize human speech. Now, at the beginning, for people first started tackling this problem, they looked at it largely as a pattern matching problem, and the earlier systems attempted to take the waveforms that came out of speaker's voice.
«Сейчас я хочу вернуться к теме естественных интерфейсов пользователя. Одним из наиболее естественных интерфейсов для людей является человеческая речь. И последние шестьдесят лет учёные пытались найти способы понять и распознать человеческую речь. Так вот, сперва люди, которые начинали штурмовать эту проблему, в основном смотрели на неё, как на проблему сравнения образцов, и ранние системы пытались брать звуковые фрагменты из голоса диктора».

Что распознала машина.
Now parlor i want to come back sousa ta of naturally surveys. What are the most natural interfaces for people is human speech. And for the last sixty years computer scientists at the trying to find ways to understand and right now humans to be. Now at the beginning put people first cards are homeless problem they look at it largely as a pattern matching in the early ancestors attempted to take the way before they came out uh… speakers boils.
«Сейчас кабинет я хочу вернуться соуса та естественных исследований. Что является наиболее естественным интерфейсом для людей – это человеческая речь. И последние 60 лет учёные в попытке найти способы понять и прямо сейчас людьми быть. Теперь в начале поместило людей первые карты – это бездомная проблема, на которую они смотрели в основном как на сравнение образцов в ранних предках, пытавшихся пойти путём до того, как они вышли а… дикторов фурункулов».

Тем более, что каждую минуту сейчас загружают 72 часа видео – чтобы просто смотреть это всё в реальном времени (а ещё ведь нужно переводить и набирать субтитры), потребовалось бы 4320 человек, работающих круглосуточно.

А раз это не люди, то есть алгоритмы. :)
Собственно, докладчик об этом и говорил – что сперва пытались сравнивать образцы, потом начали строить статистические модели речи, а сейчас используют технологии, подобные работе мозга – нейронные сети, что ещё больше увеличило степень распознавания.
Попробуйте хотя бы клавиатуру Swift для Android. Она, на мой взгляд, имеет отлично реализованный движок, который преобразует вашу речь в текст. Не думаю, что за доли секунды она передает запись голоса китайцам, те его распознают, набирают в текст и он волшебным образом появляется у меня в смартфоне в окне набора СМС.
Благодарю, мне не нужно объяснять, что в телефон не «встроен китаец». :)
К тому же, полагаю, Methos имел в виду пользователей YouTube в целом.
Почему же автоматических титров нет на моих видео, где говорит человек?


Скорее всего, что видео было загружено до того, как эта функция появилась на русскоязычных роликах

А потому что это не автоматические титры, а заботливо переведённые множеством «китайцев» и закачанных по обычному интерфейсу:


Мне кажется это не так. Понимаю, что множество китайцев нечем занять, но какая выгода? Известно давно что гугл занимается голосовыми движками.
Не более чем игрушка которой невозможно пользоваться.

Попробовал сейчас надиктовать текст для комментария, вот что вышло:

Болгария комментарии для того чтобы он написал его в поле ввода комментариев заказать талон голосового вызова нибулон

То есть, для надиктовки длинных текстов это не годится.

Если же диктовать медленно, а потом править ошибки, то быстрее всё равно писать на клавке.

Вот медленно:

Вообще очень полезны ли сейчас я диктую мне пожалуйста напишите здесь без регистрации

Хотя последние слова мои были " пожалуйста напишите здесь это без ошибок". То есть, видно, что их система использует словарь для исправления ошибок распознавания.

Короткие же тексты люди быстрее напишут на клавке, чем будут нажимать на какие то клавиши и диктовать.
Я сам, можно сказать профессионально, стенографирую различные материалы по работе (чуть позже опубликую свой самодельный девайс для этого). Понимаю, что технически это очень сложная задача — распознавание текста. Да пусть даже в такой убогой реализации распознавания — этим можно пользоваться в своих личных интересах. Чем нам рядовым пользователям от этого хуже?
*распознование речи (не текста)
Конечно, для личных можно. Но для массового рынка пока рановато, именно это я и хотел подчеркнуть =)

Ошибок не должно быть вообще, ни при каких обстоятельств. Тогда продукт готов к рынку, иначе это поделка, которой никто не будет доверять.
этот текст надиктовывать на андроид планшет

так что и правда не все так радужно.
Вы чего курили? Может и Siri тоже на самом деле специальный колл-центр из китайцев обслуживает?
В интернете уже есть сайт, где собраны самые топовые ролики с самыми смешными субтитрами — funny-sub.com
funny-sub.com
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.