Как автоматизированно извлекать текст из видео на YouTube?
Пример кода
Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?
В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.
Но есть нюансы: ⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах) ⚠️ Использует неофициальное API Вот что пишет создатель проекта:
Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!
Как использовать? 1️⃣ Установить библиотеку youtube-transcript-api (PYPI) 2️⃣ Взять ID интересующего видео (поддается автоматизации) 3️⃣ Запустить скрипт (📖 официальная документация)
Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал BritLab!
Продолжаем делиться темами докладов конференции GoCloud 2025 ☁️
В первой части выступления мы напомним, что такое дата-платформа, зачем она нужна и из каких сервисов состоит. А еще расскажем про новые фичи и что у нас в планах.
Ася Грибанова — руководитель направления разработки Evolution Data Platform в Cloud.ru
Во второй части доклада расскажем, что такое BI-система и как она помогает бизнесу в визуализации данных. За несколько простых шагов создадим инстанс Managed BI и покажем, как визуализировать данные, подключать источники и гибко настраивать дашборды. А еще на реальном кейсе разберем, как построить аналитику.
Константин Добратулин — старший python-разработчик BI в Cloud.ru
Трек: Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.
Какие проблемы решает алгоритм FastCDC при дедупликации данных
FastCDC — это алгоритм разбиения данных на блоки переменной длины (Content Defined Chunking, CDC). В отличие от нарезки с фиксированной длиной блока, FastCDC решает проблему смещения границ (boundary-shift problem), которая возникает при вставке новых данных в файл. Например, если в начало файла добавить байт, то при использовании разбиения с фиксированной длиной все последующие блоки изменятся.
Алгоритмы с переменной длиной блока, такие как FastCDC, устраняют эту проблему, поскольку устанавливают границы блоков на основе содержимого данных, используя хеш-функцию для определения неких избранных последовательностей байтов. Впрочем, если байт будет добавлен в середину какого-то блока, то этот блок будет потерян, а граница будет корректно определена уже для следующего от него блока.
FastCDC выделяется среди других алгоритмов высокой скоростьюобработки потока байтов. Основная вычислительная нагрузка на систему создается операциями разбиения данных на блоки и их сжатия, поэтому оптимизация алгоритма разбиения напрямую влияет на общую производительность.
Основная идея FastCDC заключается в следующем: среди всех возможных последовательностей байтов (множество A) выделяется подмножество B. Когда в файле обнаруживается последовательность из множества B, алгоритм устанавливает границу блока (anchor) сразу после этой последовательности.
Так как хранение подмножества B напрямую невозможно из-за огромного количества возможных последовательностей, используется хеш-функция. Она преобразует каждую последовательность байтов в числовое значение, которое определяет класс этой последовательности.
После нахождения опорного байта (anchor) алгоритм проверяет, удовлетворяет ли он дополнительным условиям. Например, FastCDC не создаст новый блок, если точка находится слишком близко к границе предыдущего блока и минимальный размер блока еще не достигнут. Если опорные байты не найдены, система отрежет блок по его максимально допустимому размеру.
Добавление всего одного нового байта 0 сдвигает все предыдущие байты вправо, что приводит к изменению содержимого каждого блока:
Эксперт по разработке ПО отдела систем обработки данных в YADRO Ростислав Ефремов в статье подробно объяснил, что такое дедупликация данных, какую роль она играет в системах резервного копирования и как работает в СХД TATLIN.BACKUP
Сколько релизов и обновлений случилось в марте в Рег.ру — делимся главными новостями нашей облачной платформы:
Запустили комплексную защиту от кибератак Anti-DDoS и Anti-DDoS + WAF
Вместе с компаниями StormWall и Positive Technologies запустили решения для усиленной защиты критически важных ресурсов от кибератак. Anti-DDoS фильтрует вредоносный трафик и помогает блокировать DDoS-атаки на всех уровнях — от сетевого до прикладного (L3, L4 и L7). Anti-DDoS + WAF сочетает фильтрацию трафика и интеллектуальный WAF, который анализирует поведение пользователей и блокирует вредоносные действия.
Добавили Astra Linux 1.8
Теперь в облаке Рег.ру доступны новые версии — с Astra Linux SE 1.8.1 «Орел» и Astra Linux SE 1.8.1 «Воронеж». Добавили ядра Linux 6.1 и 6.6, автоматизировали обновления и улучшили профили настроек средств защиты информации. Сервер с новой версией можно потестировать на сайте.
Перешли на обновленный Pay-As-You-Go учет
Продолжаем переход от модели хостинг-провайдера в части работы с облачными ресурсами. В облаке Рег.ру ввели новую систему учета ресурсов, о которой подробнее рассказали на сайте. Теперь стоимость услуг определяется типом и объемом заказанных ресурсов, независимо от тарифного плана. Еще мы выделили в отдельную услугу плавающий публичный IP-адрес, который входил в тариф и отдельно не учитывался. Теперь за него взимается фиксированная стоимость, но при желании от него можно отказаться.
Ускорили работу с облачной аналитикой в 2 раза
Совместно с IT-компанией «Фабрика Данных» провели высоконагруженные вычисления с Big Data и ускорили работу с облачной аналитикой. Для своих задач компания использует наши облачные серверы с GPU. Уровень отказоустойчивости сервиса достигает 100%. Также почти на четверть повысили точность принятия решений при работе с аналитическими сервисами. Подробнее о результатах проекта рассказываем на сайте.
Ждем, что нового принесет апрель — поделимся с вами!
Веб-ресурсы, мобильные приложения и API ежедневно подвергаются DDoS- и бот-атакам. В 2024 году число заблокированных запросов ботов выросло на 30% по сравнению с предыдущим годом — об этом говорит отчет компании Curator «DDoS-атаки, боты и BGP-инциденты в 2024 году: статистика и тренды».
На вебинаре расскажем, почему защита от ботов — это отдельная задача, которая требует особых методов и которую не заменить решениями классов Anti-DDoS и WAF. Покажем методы эффективной защиты публичных веб-ресурсов и типовые схемы подключения для максимальной безопасности ресурса.
Управление уязвимостями (vulnerability management) — один из ключевых аспектов в поддержании информационной безопасности IT-инфраструктуры. На вебинаре обсудим базовые меры профилактики и защиты от киберрисков на уровне микросервисов, контейнеров и окружений под управлением Kubernetes.
Ответ: Это Shield box — экранированная коробка, внутри которой размещаются сотовые телефоны. Ее используют тестировщики телеком-оборудования. Коробка обеспечивает изоляцию сигнала и предотвращает возможность подключения сторонних абонентов к «тестовой» сети.
Если вы знакомы с этим оборудованием или хотите с ним познакомиться, вас могут заинтересовать несколько вакансий в команде Телекома в YADRO.
→ Некоторые из них требуют образования по специальностям Радиотехнологии или Телекоммуникации и опыта работы с системами GSM/LTE.
Команда занимается тестированием функционала базовой станции LTE/GSM на системном уровне в лаборатории или на площадке заказчика. Специалисту нужно будет разрабатывать тестовые сценарии и готовить требования к тестам радиоподсистемы LTE/GSM. Здесь у кандидата должно быть высшее образование в области телекоммуникаций или радиотехнологий, а также знание стандартов GSM//LTE, топологии и интерфейсов мобильной сети.
Команда готовит тестовые сценарии для драйв-тестов, проводит их по подготовленным тест-планам и измеряет ключевые показатели производительности базовых станций LTE/GSM с помощью измерительных комплексов. Здесь также от кандидата требуются знания принципов и законов радиосвязи, базовое понимание теории антенн и их характеристик.
→ А вот несколько вакансий, где глубокое знание телеком-технологий не является решающим фактором при отборе кандидатов.
Команда занимается тестированием собственного железа и ПО. Направление создает конкурентную линейки RAN-продуктов для мобильных сетей последних поколений — базовые станции LTE/GSM и удаленные системы управления ими. Опыт работы с телекоммуникационными системами GSM/LTE будет преимуществом.
Команда ищет инженеров по автоматизированному тестированию в несколько команд в направление разработки решений для телекоммуникаций. Необходимый опыт в автоматизации с использованием Jenkins GitLab — от двух лет. Здесь ждут кандидатов с уверенным знанием Python, Linux и пониманием сетей, базирующихся на TCP/IP.
Вам больше по душе ручное тестирование? Есть вакансия и для вас. Здесь ждут кандидатов с уверенным знанием теории тестирования (опыт — от трех лет), Linuх и пониманием сетей, базирующихся на TCP/IP.
О направлении
Команда Телеком с нуля создает телекоммуникационные решения для беспроводных мобильных сетей и сопутствующих услуг. Инженеры разрабатывают первые в России базовые станции стандартов GSM/LTE, реализуя полный стек телекоммуникационных протоколов для базовых станций и элементов ядра сети, а также системы управления и мониторинга. Здесь вы будете в хорошей компании: продукт создают профессионалы с многолетним опытом, многие из них работали в ведущих мировых телекоммуникационных корпорациях.
А как тестируют функции базовой станции, читайте по ссылке →
Мы запустили новую линейку тарифов с выделенным процессором. «Выделенные CPU» — это гарантированная 100% доля CPU. Линейка подойдет для аналитики, обработки данных, высоконагруженной базы данных, машинного обучения и других задач, где требуются постоянные высокие нагрузки на процессор без рисков снижения производительности.
Пользователи смогут арендовать серверы с гарантированными вычислительными мощностями и исключить влияние других пользователей на производительность системы. Что еще интересного в выделенном CPU:
линейка на процессорах AMD EPYC 2,8 ГГц и NVMe-накопителями;
закрывает задачи проектов, которые требуют гарантии выделения ресурса.
В линейку облачных серверов Рег.ру также входят серверы с GPU и высокочастотные серверы. Подобрать сервер с необходимой конфигурацией можно у нас на сайте.
Что ждет вас на GoCloud 2025? Рассказывают ведущие треков 💭
Всем привет! В треке «AI & ML» мы поговорим про то, как построить эффективный инференс, расскажем про агентные и мультиагентные системы и поделимся, как применяем их у себя. Конечно, не обойдется без упоминания LLM-платформ и окружения, которое поможет вам все это настроить и использовать.
Если вы до сих пор не выбили 90 токенов в секунду на DeepSeek-R1 и хотите получить готовое окружение для работы с искусственным интеллектом — ждем вас на GoCloud 2025!
Дмитрий Юдин — технический лидер по развитию искусственного интеллекта в Cloud.ru, ведущий трека «AI & ML»
📅 Когда: 10 апреля в 10:00 мск
📍 Где: онлайн или офлайн в Москве в Цифровом деловом пространстве (ЦДП)
«Яндекс» в честь 1 апреля решил добавить чуточку уюта на всех «ТВ Станциях» и «Станциях Макс» при подключении к любому телевизору через HDMI. Просто скажите: «Алиса, включи заставку», — и ваш экран моментально облачится в виртуальное кружево. Красота и ламповость — всё как в детстве! А самые внимательные заметят на кружевной салфетке особенно дорогой для «Алисы» символ. Завтра праздничный декор исчезнет так же внезапно, как и появился.
Как мы меняем клиентский сервис с помощью AI — расскажем на IT-конференции GoCloud 2025 ☁️
Привет! Внедрение искусственного интеллекта и создание AI-агентов стали одними из самых обсуждаемых тем за последние два года. В своем выступлении я расскажу о практическом применении этих технологий в процессах поддержки пользователей, покажу, на какие метрики можно повлиять, зачем это делать и какие усилия потребуются.
Обсудим co-pilot и боты в поддержке, новые инструменты, аналитику, будущее AI-агентов и реальные результаты.
Максим Михайлов — менеджер продукта в Cloud.ru
Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию.
В честь "Всемирного дня бэкапа" решил частично проверить восстановление той части резервного копирования, что описана у меня сколько-нибудь подробно здесь (на Дзене, в той же статье короткие воспоминания о бэкапах в 80-е годы). Скрипты копирования такие:
@start "split into BD-RE slices" %comspec% /k py .\bd_split.py %~nx1
#! python3.13
import sys
BUF_SIZE = 1024 * 1024
FS_SIZE = 2048 * 512 # кратно BUF_SIZE, значит можно использовать сравнение count == BD_DISK_SIZE
BD_DISK_SIZE = 25025314816 - FS_SIZE
file_name = sys.argv[1]
source = r"K:\backup\2311\{0}".format(file_name)
dest_head = r"D:\kvk\YandexDisk\Acronis\{0}".format(file_name)
with open(source, "rb") as input:
part = 1
while True:
count = 0
with open(dest_head + ".{0:02d}".format(part), "wb") as output:
bytestring = input.read(BUF_SIZE)
while bytestring:
count += output.write(bytestring)
if count == BD_DISK_SIZE:
part += 1
break
elif count > BD_DISK_SIZE:
raise Exception("Превышен максимальный размер диска для части {0}...".format(part))
bytestring = input.read(BUF_SIZE)
else:
break
Поскольку облако не специализированное, подписываю GnuPG подписью получившиеся кусочки для последующего возможного контроля целостности.
Сегодня в процессе проверки подключил внешний жёсткий диск с бэкапами, для самой маленькой резервной копии из недавних посчитал SHA256, восстановил её же из облака вместе с подписями, проверил их, собрал эту инкрементную резервную копию из кусочков, проверил SHA256. Совпали. Последний раз проверял по такой схеме наверно более 10 лет назад, ну и сегодня "на всякий случай" :)
А вообще у меня бэкапы проверяются периодически (какие автоматически после каждого резервного копирования, какие вручную еженедельно), а восстановление из копии при изменениях в "железе" и обновлении софта обычно.
На гребне технологий: первые результаты партнерского тестирования zVirt 4.3
На митапе эксперты К2Тех расскажут, как будет работать новая версия zVirt на практике, чем она будет полезна, и поделятся результатами сравнения функционала продукта с другими отечественными решениями по виртуализации.
Внимание, админы! Broadcom опять закручивает гайки и вводит штрафы задним числом для подписчиков VMware.
Никогда такого не было, и вот опять. В сети появилась новость, что Broadcom в очередной раз закручивает гайки для мелких подписчиков VMware.
Из ключевых изменений: 1. Повышен порог минимального числа ядер в лицензии с 16 до 72 штук на командную строку. Соответственно, более мелкие тарифы устранены. 2. Штрафы в 20% от стоимости первого года подписки, если вы не продлили свою лицензию до истечения срока действия текущей.
Самое неприятное, что пункт №2 будет применяться задним числом, об этом прямо сообщает Broadcom в своем меморандуме (скрин от The Register тык).
На вопрос "зачем?" ответ простой: избавиться от vSphere Foundation и vSphere Enterprise Plus, которыми пользуются мелкие компании, и продвинуть свой пакет Cloud Foundation (VCF), который и дороже, и серверов для своего управления требует больше.
Ситуация вокруг VMware, в целом, развивается ровно по тому сценарию, о котором говорил любой участник рынка с двухзначным IQ: Broadcom контора-соковыжималка, и если регулятор разрешит им купить VMware, они тут же станут крутить гайки. Если эта история прошла мимо вас, то напомню: менеджмент Broadcom мамой клялся обещал не усложнять жизнь малым и средним предприятиям и оставить продукты VMware такими же доступными для всех участников рынка, как и прежде. Под эти разговоры они и смогли протащить сделку по покупке VMware.
Хватило этого обещания примерно на полгода, а с тех пор мы только и видим, как новые владельцы занимаются планомерным отстрелом "неэффективных направлений".
Короче говоря, если вы еще пользуетесь продуктами VMware, но при этом не способны внезапно повысить расходы на лицензию в 2-3 раза в течение ближайших пары лет, то стоит всерьез присмотреться к другим решениям. Потому что останавливаться новые хозяева не собираются.
Март подошел к концу, и мы знакомим вас с обновлениями на платформе, которые произошли за прошедший месяц.
Развиваем функционал для командной работы. Добавили поддержку совместной работы для проектов. Теперь вы можете пригласить в проект новых пользователей и назначить им одну из ролей: admin, editor или viewer. Управление пользователями доступно в проекте в разделе «Настройки / Пользователи»
Добавили «Системные переменные» для контейнеров, которые автоматически добавляются к контейнеру при страте. А также улучшили наши «Сетевые сервисы», сделав их работу быстрее, а потребление памяти меньше.
Продолжаем развивать наш каталог и в марте добавили 3 новых приложения:
n8n — это open source инструмент для автоматизации рабочих процессов, который позволяет планировать задачи, собирать отдельные действия в сценарии, а также извлекать и перемещать данные между множеством приложений, платформ и сервисов, которые вы и ваша команда используете ежедневно.
Grafana — это мощная платформа для визуализации данных и мониторинга, которая позволяет преобразовывать любую информацию в понятные дашборды, графики и диаграммы, эффективно работая с различными источниками данных, включая базы данных, сервисы мониторинга и статистические материалы.
Flowise — это open source платформа, позволяющая создавать специализированные приложения на основе больших языковых моделей (LLM) и агентов искусственного интеллекта с помощью визуального интерфейса, построенного по принципу Drag‑and‑Drop. Она построена на базе фреймворка LangChain и поддерживает интеграцию с более чем 100 инструментами и сервисами ИИ/LLM, такими как OpenAI, Hugging Face, Google Vertex AI, Pinecone и др.
Dockhost— облачная платформа для хостинга приложений на основе Docker‑контейнеров (боты, сайты, базы данных и т. д.), которая позволяет запускать и масштабировать как простые проекты, так и сложные микросервисные приложения без необходимости настраивать и контролировать инфраструктуру.
В Академии Selectel появился бесплатный курс «Погружение в компьютерные сети». Он поможет разобраться в принципах работы, понять ключевые термины и уверенно ориентироваться в основах. Всего час — и сложные вещи станут простыми.
Курс подходит новичкам, которые хотят разобрать тему по полочкам. Но и опытным специалистам будет полезно: с этими материалами вы восполните пробелы в знаниях и вспомните все, что забылось со временем.
Начните обучение в Академии Selectel прямо сейчас ➡️
📡 Инженеры установили квантовую связь Китаем и Южной Африкой через недорогой микроспутник и наземные станции связи – это новый рекорд для линии квантовой связи. Как это повлияет на нашу жизнь?
Да самым прямым образом. Вся информация, которой мы обмениваемся, хоть с точкой доступа, хоть с интернет-сервером на другом конце земли должна быть зашифрована, чтобы наши явки и пароли не утекли к хакерам. Для кого-то это закончится ненужными данными и фото в интернете, у кого-то украдут все деньги со счёта, да и устройства будут слушаться уже не хозяина, а хакера.
Конечно, интернет работает, значит, текущие методы защиты пока надёжны. Но регулярно мы слышим об утечках информации, и часто она происходит из-за утекших ключей, которыми шифруется информация. И вот законы квантовой физики позволили придумать идеальную систему. Иногда говорят, что хакеры не могут её прослушать. Не совсем так, но как только они прослушают первый бит, об этом сразу же станет известно собеседникам, и они сменят канал.
Квантовая связь идеальна для передачи пароля? Хорошо бы, но в оптоволокне фотоны иногда взаимодействуют с атомами, нарушается тайна передачи – больше 400 км линии сделать не получилось. Как передать сигнал без проводов? Лазером через космос! И если раньше для этого требовались сложные дорогие спутники, то теперь это удалось сделать через массовый кубсат.
Это говорит о том, что малые и сверхмалые космические аппараты приближают новую эру надёжной связи. Поэтому RUVDS тестирует на орбите свой пикоспутник, чтобы находиться во главе прогресса. Исчезнут ли хакеры? Вряд ли, но квантовая связь через космос осложнит им жизнь кардинально!
Рассказываем, какие темы ждут вас на конференции GoCloud 2025 ☁️
Сегодня разработка ML-моделей требует не только мощной инфраструктуры, но и удобных инструментов для экспериментов, развертывания и масштабирования решений. В своем докладе я расскажу, как новые продукты AI Factory нашей платформы Cloud.ru Evolution помогают ML-инженерам и исследователям работать быстрее, эффективнее и проще.
Приходите послушать доклад, чтобы узнать:
как эффективно использовать вычислительные ресурсы и динамически управлять нагрузкой на GPU;
какие инструменты будут доступны для адаптации моделей, чтобы ускорить вывод решений в продакшн;
как сделать мощные ML-технологии доступными не только разработчикам, но и обычным пользователям без глубоких знаний в коде.
Дмитрий Юдин — технический лидер по развитию искусственного интеллекта в Cloud.ru
Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию.
Вебинар: «Импортозамещение в госсекторе — от операционной системы до оперативного управления компанией»
Кто проводит: эксперты компаний РЭД ОС и «Первая Форма»
Кому полезно: техническим специалистам, бизнес-аналитикам, директорам по ИТ и инновациям в госкомпаниях и ведомствах
Почему это важно:
С 1 января на объектах КИИ запрещено зарубежное ПО. Также Минцифры рекомендует госкомпаниям и ведомствам использовать только российские операционные системы и офисные программы.
Но на практике большая часть настольных компьютеров в госучреждениях по-прежнему работает на продуктах Microsoft.
На вебинаре мы рассмотрим пример внедрения ПО для полного импортозамещения – low-code BPM-системы на отечественной операционной системе РЕД ОС.
Что узнают участники:
какие технологические и правовые аспекты нужно учитывать при импортозамещении в госсекторе.
какие процессы можно автоматизировать в едином решении — от управления госпрограммами до планирования отпусков.
как свои процессы оцифровали в Аналитическом центре при Правительстве РФ, Академии Ростеха и других компаниях.
Как попасть:
Участие бесплатное, по предварительной регистрации. Вебинар состоится 16 апреля в 12:30.
Приглашаем на вебинар «Топ-5 ошибок при миграции в облако и как их избежать».
📅 Когда: 1 апреля в 11:00 мск
📍 Где: онлайн
На встрече технический менеджер Александр Тетеркин поделится опытом реализации проектов миграции на примере реальных кейсов, поможет выбрать эффективные инструменты, а также предложит пошаговое руководство для быстрого переезда в облако.
На вебинаре вы узнаете:
что такое традиционные приложения и чем они отличаются от cloud native;
как проходит миграция — расскажем, как подготовиться и чего ожидать;
какое облако вам подходит — представим три платформы Cloud.ru и их отличия;
как мигрировать быстро и избежать типичных ошибок;
как развивать приложение в облаке после миграции.
По итогу встречи вы будете знать, как правильно организовать миграцию в облако и какие перспективы открываются после переезда.
Кому будет полезно: IT-директорам и руководителям отделов инфраструктуры, облачным архитекторам и системным администраторам, DevOps и SRE инженерам, а также всем, кто планирует миграцию из облака в облако или из собственного дата-центра в облако.