Комментарии 63
тоже об этом подумал =). Разве если подсунуть субтитры 300.ya.ru результат выйдет не абсолютно таким же?
))
Как мы научили YandexGPT пересказывать видео
• Статья представляет собой описание процесса создания системы суммаризации видео и статей.
• Система использует языковые модели для пересказа видео и текстов.
• Система проводит 51 гипотезу и размещает 27 моделей, отбраковывая часть датасета.
• Обучение моделей происходит на неидеальных субтитрах, что может привести к ошибкам.
Если в конце ссылки стоит временной отрезок, например, t=1194s, то система не работает
Привет, а можешь дать пример такой ссылки? И где ты ей пользуешься: на 300 или в браузере?
Вот ссылка, на которой проверял
https://www.youtube.com/watch?v=HgAAtjbaurc&t=1194s
Но сегодня оно уже работает как надо. Может оперативно починили?
Крутая, статья! Спасибо, что поделились своим опытом!
Крутая статья, спасибо. Хорошо бы ещё научиться делать сумаризацию видео на яндекс диске или хотя бы из Yandex Object Storage
А были ли эксперименты с мультимодалками? Вы вскользь их упомянули, понятно, что на первом этапе был выбран подход, о котором идет речь, но, возможно, Вы достигли уже того уровня качества, когда следующая ступень — это докручивание мультимодальности?
Пересказы, классная фича, хотя положа руку на сердце, пересказывает-то она так-себе, но для предварительной оценки и навигации годится, и это уже хорошо!
О боже, неужели.
Как же я ненавижу современный тренд делать видео на каждый чих. Вот мне нужна какая-то одна простая единица информации. Например, какую кнопку надо нажать в ПО чтобы получить нужный мне результат. Вся суть моего запроса обычно укладывается в одно предложение и одно изображение. Максимум - в один абзац текста, на который я потрачу не более 10 секунд.
Но нет, надо же сделать видео на ютубе минут на 5-10 (а в клинических случаях - и еще дольше). Из которых сперва будет пять минут пересказа темы видео, кликбейтный заголовок (опционально под пердящий хреновый микрофон), затем еще пять минут рекламных интеграций, всех этих "пук-среньк-ставьте лайки-подписывайтесь на канал". И где-то между ними в середине может быть затеряется десять секунду того, что мне было реально нужно. Ой, то есть не десять секунд, а раз в пять больше, потому что дикторы из большинства таких "блогеров" хреновые, говорят медленно, растекаются мыслью по древу.
Причем чем дальше, тем меньше полезной актуальной информации можно найти в виде текста, и тем больше этого затянутого видеоговна. Ух как я с этого сгораю.
Отдельно у нас припасён фоновый процесс, который заранее обработал
популярные каналы и сложил суммаризации в кеш, чтобы на старте мы не
упали под нагрузкой.
А различаете видео только по url?
В этот кеш не попадают менее популярные видео, которые распознавали пользователи?
Здорово. А научите его маты в видео запикивать. Только не буквально запикивать, а как-то более приятно на слух чтобы было.
Только не буквально запикивать, а как-то более приятно на слух чтобы было.
Так?
Дети в детском саду стали ругаться матом. Проводится разбирательство, в чем причина. Выяснилось: накануне двое электриков чинили в детском саду проводку. Вызывают их и начинают песочить, мол, как вам не стыдно, рядом же дети, а вы ругаетесь!
Один из них оправдывается:
— А кто ругался? Мы не ругались. Дело было так. Работаем мы в коридоре, Серега на стремянке проводку паяет, а я стремянку держу. И тут мне за шиворот стало капать расплавленное олово. А я Сереге так вежливо и говорю: «Сергей! Неужели ты не видишь, что твоему товарищу капает за шиворот расплавленное олово?». А Серега мне отвечает: «Извини меня, пожалуйста!»
Это было бы идеально) Так сказать перевод с матерного русского.
Я предполагал какой-то другой звуковой эффект или мьютить.
Или вот так: https://angryemailtranslator.com/
«А я ему и говорю — „Рядовой Петров, держите паяльник аккуратнее, пожалуйcта! Неужели не видно, что капли расплавленного припоя падают вашему боевому товарищу прямо за шиворот?“»
Хах, как можно пересказывать видео не анализируя картинку? картинка может менять смысл на противоположный или значительно дополнять смысл. Поэтому это годится лишь для подкастов/разговорных видео.
Спасибо! Удивительно и полезно.
А будет ли это работать когда-нибудь для Vimeo?
В 2021 обещали подумать на тему отдать сырые транскрипты ( https://habr.com/ru/companies/yandex/articles/576438/comments/#comment_23456434 ) — может можно или никогда не ждать?
Спасибо, насчет вопросов
А будет ли это работать когда-нибудь для Vimeo?
Сейчас мы активно работаем над тем, чтобы расширяться на разные площадки. Я точно всех деталей не знаю. Возможно, появится, но не в ближайшее время.
В 2021 обещали подумать на тему отдать сырые транскрипты
Если честно, то, кажется, в планах такой фичи не было :(
Напомнил ответственным за это, ближайшим вероятным кандидатом на эту фичу, вероятно, будет 300.ya.ru, а не браузер.
У вас же есть список "стоп слов"? Что происходит если модель наткнётся на что-то подобное в видео? Остановится, пропустит этот кусок или на ходу заменит на что-то более правильное с точки зрения модели?
Очень интересная статья )
Hidden text
Почему нет пимпачки "Summarize"?
"Link To Summary" на 300.ya.ru прекрасен. Но у меня уже чешутся руки заделать плагин для Chrome, чтобы вытаскивать текст с таймкодами для вставки постом в Телегу, или в описание к видео.
Очень интересно было читать! Спасибо за труд)
Я был обрадовался, т.к. функция мне как ПМу очень полезная, подводить итоги совещания. Но по факту вышло не очень. Главное, слишком мало деталей. Для сравнения автоматический и ручной итог совещания
Примечание: ссылку на видео не дам, корпотайна + всю чувствительную информацию замазал в виде NNN
Что я получил от GPT чата:
Hidden text
Обсуждение проекта
• Участники обсуждают проект, связанный с сайтом и его задачами.
• Обсуждают планы по разработке новых страниц и доработке существующих.
Аудит сайта и задачи
• Участники обсуждают необходимость аудита сайта и задачи, которые нужно выполнить.
• Обсуждают возможность проведения аудита и оценки задач.
Взаимодействие с хостингом и доступ к серверу
• Участники обсуждают возможность доступа к серверу и взаимодействие с хостингом.
• Обсуждают необходимость доступа к серверу в случае срочных проблем на сайте.
Использование гида проекта
• Участники обсуждают возможность использования гида проекта и необходимость доступа к нему.
• Обсуждают возможность подключения гида проекта и его использования для работы над проектом.
Аудит и задачи
• Обсуждение аудита и его стоимости, решение о времени и ресурсах для аудита.
• Обсуждение задач и их приоритетности, использование фильтров для выбора задач и статусов.
Обновление карты и эксель
• Обсуждение обновления карты и эксель, предоставление эксель с координатами точек для обновления карты.
• Обсуждение оптимизации процесса обновления карты и возможности оптимизации загрузки файла.
Уход от NNN (Прим: вырезано корпотайна)
• Обсуждение сотрудничества с NNN (Прим: вырезано корпотайна) по другому проекту, проблемы с реализацией и расторжение договорных отношений.
Обсуждение проекта
• Обсуждение проекта за погоны, проблемы с дедлайнами и работой над сайтом.
• Необходимость технической экспертизы и поддержки от подрядчика.
Тестирование и статус задач
• Обсуждение тестирования и статуса задач, необходимость проведения аудита перед тестированием.
• Тестирование на деф и прот, принятие на деф и прот.
Работа с дизайнерами
• Обсуждение работы с дизайнерами, создание дизайн-концепта и передача его в работу.
• Работа с дизайнерами через джиру.
Обсуждение работы с сайтом
• Обсуждение нюансов работы с сайтом, включая возможные затишья и планирование работы.
• Обсуждение необходимости создания технической документации и стратегии продвижения.
Технические аспекты работы с сайтом
• Обсуждение необходимости перевода картинок в формат ВП для улучшения поисковой оптимизации.
• Обсуждение возможности использования тестового сервера для быстрой настройки и развертывания сайта.
Планирование работы и оплата
• Обсуждение необходимости оплаты за NNN часов работы, даже если они не были использованы.
• Обсуждение возможности оплаты дополнительных часов работы в случае необходимости.
Обсуждение работы
• Участники обсуждают детали работы и договариваются о времени выполнения задач.
• Они решают использовать телеграм-чат для коммуникации и планируют активно использовать его в течение месяца.
Завершение встречи
• Участники благодарят друг друга за продуктивную встречу и прощаются.
• Они отмечают, что телеграм-чат будет основным средством коммуникации с другим техподрядчиком.
Что я написал руками в пиьсме:
Hidden text
Обсудили, что пока будем обслуживать только сайт NNN (Прим: вырезано корпотайна)
Первая задача с которой будем начинать работу - это аудит сайт, на него изначально будет выделено NNN часов разработчика, по итогам его проведения, будет принято решение, нужно ли продолжать аудит и какие действия рекомендовано.
Договорились, что в случае расхода часов свыше NNN (Прим: вырезано корпотайна) в месяц, необходимо известить об этом заказчика
Договорились, что в случаи приоритетных багов, разработчики могут подключаться и работать с ними до устранения или вплоть до NNN часов (далее необходимо произвести согласование с заказчиком)
Задачи могут браться в работу без переоценки, если занимают не более NNN часов работы разработчика.
На проект будет полноценно подключен тестировщик, все задачи будут проходит этап тестирования и после этого с соответствующими статусами передаваться заказчику
С хостингом заказчик старается общаться самостоятельно
Статусы задач (чтобы исполнители увидели, что есть изменения в задаче, у нее должен измениться статус. Просто комментария не достаточно. Статусы: NNN
Предварительно согласовали проведения аудита тестировщиками, для обнаружения имеющихся проблем
Необходимость для старта работ предоставить доступ к Git проекта (если это невозможно дать Root доступ для настройки Git)
Для обеспечения наличия ресурса разработчиков, крайне желательно проводить ежемесячное планирование, до NNN числа, сообщать ПМу проекта о планируемых на следующий месяц работах.
Актуальной документации по проекту на данный момент нет. На текущий момент договорились двигаться без документирования, в дальнейшем если будет необходимость будем вернемся к данному вопросу.
У меня набралось уже 1800 трансляций лайв-кода. Опытным путём выяснил, что больше 4 часов не обрабатываются. Придётся прерываться, а то я могу и по 12 часов сидеть иногда.
Привет, да, это правда, сейчас есть ограничение на 4 часа, это не столько техническое ограничение, сколько для экономии железа на момент релиза. Мы активно думаем о моменте, когда это ограничение можно увеличить или убрать.
Я пробовал faster-whisper & whisper.cpp для экономии вычислительных ресурсов. Но тут под капотом что-то другое, очевидно. https://habr.com/ru/articles/783128/
Если обрезал видео, чтобы укладываться в лимит, то Summary никак не включить.
мы решали схожую задачу саммаризации больших объемов (больше, чем контекстное окно моделей) и тоже для видео (правда как один из кейсов). у нас получились почти те же наблюдения, только для поиска чанка мы вместо классификации взяли кластеризацию, тк она более устойчива к смене темы и возврату к теме в будущем
bug report. запись чата трансляции мешает получить summary. кнопка тупо не работает. но если закрыть чат - о чудо.
Никита, а вижу, что есть API для https://300.ya.ru/ чтобы скормить ссылку на видео. Есть ли возможность отправить субтитры для суммаризации ( распознаем сами и есть большой объем)
Было бы здорово, если севис суммаризации именно по субтитрам был доступен в .cloud.yandex.ru так же как и YandexGPT API. Если что готов принять участие в тестировании
tg: @AESokolov
А не пробовали предобученную на пересказ модельку YandexGPT через API?
Там есть такая:
https://cloud.yandex.ru/ru/docs/yandexgpt/operations/finetune
https://cloud.yandex.ru/ru/docs/yandexgpt/concepts/models
Обнаружил, что только некоторые видосики копируются постами в телегу без временных ссылок в саммари:
ссылок нет - https://www.youtube.com/watch?v=HhaILh2nnaQ
ссылки есть - https://www.youtube.com/watch?v=7i-Y9agQBFQ
История циклична. Вначале от статей авторы ушли в видео, теперь Яндекс возвращает нам текст обратно)
А вообще крутая фича и за https://300.ya.ru/ отдельное спасибо!
Вот эту трансляцию почти на 4 часа вчера сразу после записи не мог обработать несколько раз ("Try Again"). А сегодня вообще убрал кнопочку "Summarize". И обрезка трансляции до 3 часов 20 минут ничего не изменила.

feature_request. Хорошо бы иметь возможность скармливать/исправлять понятия-определения. Это же поможет обучать модель в ручном режиме.
пересказывать видео
Что-то ужасно знакомое...
Он вытащил из внутреннего кармана машинописные листочки и разгладил
их.
— Я тебе уже о них рассказывал. Я хочу, чтобы ты их прочитал, прежде чем мы займемся другими делами. Вот.
— Давай свои заметки, — не слишком охотно сказал Фэй, протягивая руку. Он поймал шелестящие листки, выскользнувшие из пальцев Гастерсона, аккуратно разровнял их у себя на колене, а затем, передал через плечо своему щекотуну, который защелкнул клешни на полях с обеих сторон и довольно быстро стал вести верхний лист дюймах в шести от своего единственного глаза.
— Но я хотел, чтобы это прочитал ты, — ошеломленно сказал Гастерсон, не отрывая глаз от происходящего.
— Пух-Бах сделает это лучше меня, — заверил его Фэй. — Уловит суть, не выплескивая с водой ребенка.
— Но, черт подери, это ведь все о нем, — еще настойчивее сказал Гастерсон. — Он не будет объективен.
— Он сделает лучше, — повторил Фэй, — и более объективно. Пух-Бах настроен на подробное реферирование. Перестань беспокоиться. Это беспристрастная машина, а не подверженный ошибкам эмоционально неустойчивый человек, сбитый с толку обманчивым сознанием.
[...]
Гастерсон вышел, толкнув вращающиеся двери. Он уже примерился сделать шаг на медленно движущуюся транспортную ленту. А потом, подчинившись порыву, резко толкнул дверь и заглянул внутрь.Погрузившись в вялую задумчивость, Фэй сидел в той же позе, в какой Гастерсон его оставил. Пух-Бах на его плече торопливо сучил своими маленькими металлическими ручонками, разрывая заметки на все более мелкие клочки.
Фриц Лейбер. "Ночь волка"
Здорово!
Интересно каким образом вам удалось справиться с проблемой маленьких чаптеров?
А вот такой кейс. Записал трансляцию на 4 часа (проглядел). Ожидаемо, что Summary недоступно. Хорошо, я отрезал кусок - теперь 3 часа, но Summary всё равно недоступно.
https://www.youtube.com/watch?v=ec5Nfnc5iEc
Ещё давно заметил баг Яндекс-Браузера. Превью десктопов МакОС показывает основное окно со смещением вправо (в реальности окно развёрнуто на весь экран), хотя контекстное меню для Summary отображается на верной позиции.

https://www.youtube.com/watch?v=KZNPTj7ndjg
Так и появилась кнопочка "Summarize" на этой трансляции. Хотя прошло уже пару дней. А там всего лишь 2 часа. Пробовал включать перевод - не помогло. Можно ещё попробовать отрезать кусочек...
Как мы научили YandexGPT пересказывать видео