Articles / Bookmarks / Profile of the

Сергей Плаксиенко @the_toon

User

ProfileArticles6Posts1NewsComments244

vladbataev Apr 28 at 09:01

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

12 min

29K

Яндекс corporate blogArtificial IntelligenceMachine learning*SoundNatural Language Processing*

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд.

Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

+76

IlyaDziub Jan 21 at 07:00

Металлолом наносит ответный удар

11 min

148K

ОМК — ИТ corporate blogIndustrial Programming*Project management*

Мы многого не знали про железнодорожные вагоны:

Вагоны в поезде не умеют обгонять друг друга. Но обгоняют.
Один из вагонов обычно не может взять и переехать на параллельный путь.
Считается, что вагоны одинаковой типовой длины. Но это не гарантирует, что последний будет в одном и том же месте, если выравнивать первый.

И, наконец, знакомьтесь, вагон, который приехал к нам по железной дороге:

Наши коллеги из НЛМК в какой-то момент сделали анализ металлолома в вагонах. Вагон фотографируется по мере разгрузки по слоям, потом приходит модель и оценивает засорённость и качество лома. Мы съездили к ним в гости, посмотрели и решили внедрить у себя.

В этот момент и проявилась разница между тем, что бывает в теории и на практике. Точнее, она проявлялась несколько раз по ходу процесса, что доставляло нам массу радости.

Читать дальше →

+247

204

jurassimo Nov 21 2024 at 16:41

Пишем свою Diffusion модель с нуля

Medium

12 min

16K

Machine learning*Artificial IntelligencePython*Mathematics*

FAQ

Всем привет, думаю у вас на слуху разного рода Diffusion модели последние 2 года. На его основе генерируют реалистичные изображения и видео, поэтому мне захотелось копнуть поглубже и узнать какова кроличья нора...

Меня зовут Юра, я - разработчик, фаундер и ML энтузиаст, также пишу свои заметки в своем ТГ канале. Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал. На гифке изображены примеры итоговых картинок на моей финальной модели.

Если вам тоже интересно, то читайте дальше

+47

stein_osint Nov 26 2024 at 15:35

OSINT: Анализ доменов компаний

3 min

Information Security*Domain names administrating*

Анализ сведений домена позволяет добыть массу полезной, а порой, критической информации: начиная от данных владельца и заканчивая внутренними документами компании...

frontwise Nov 27 2024 at 06:20

Взрывная роботизация: как отлаживать софт бурового станка в другом полушарии или Пробурили мы дыру из Бурятии в Перу

Easy

16 min

3.5K

Цифра corporate blogIndustrial Programming*RoboticsPopular science

Case

Рассказ о дрели на гусеницах, роботизации буровзрывных работ, симуляторе бурового станка, ретрофите и альпаках.

+25

BabayMazay Jul 12 2024 at 09:00

Постройка простой проволочной КВ антенны с согласующим устройством

Medium

8 min

29K

RUVDS.com corporate blogDIY

Tutorial

Живя вне города с его чудовищной помеховой обстановкой и периодически проводя время с паяльником в руках, грешно не прикоснуться и к миру радио, естественным образом начинающегося с антенны и заземления. Антенно-мачтовое хозяйство — пожалуй, самое крупное, материалоёмкое и дорогостоящее сооружение для КВ радиоустановки — на низкочастотных радиолюбительских диапазонах: это десятки метров вверх и в длину. Существуют, однако, и более скромные укороченные варианты с худшими, но всё ещё приемлемыми параметрами. Ими и займёмся.

Читать дальше →

+94

101

V-Moskalenko Dec 14 2023 at 06:11

Бенчмарк HTML парсеров в Python: сравнение скорости

Easy

4 min

5.8K

Страховой Дом ВСК corporate blogHigh performance*Python*Data Mining*

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга.

При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией.

GehtSo Dec 5 2023 at 21:17

О троице, которая хакнула настоящий поезд. Даже целых 30 поездов

10 min

81K

Information Security*Reverse engineering*IOT

Reportage

Translation

Поезд, сделанный польской компанией, внезапно сломался во время техобслуживания. Специалисты были беспомощны — поезд был в порядке, только никак не хотел ехать. Доведённые до отчаяния, они вызвали на помощь команду Dragon Sector, члены которой нашли такие чудеса, о которых машинисты даже и не мечтали.

В этой истории мы отправимся в необычное путешествие. Путешествие, полное неожиданных открытий и событий, путешествие под давлением времени и больших денег, а также необычных технологий. Путешествие, в котором поезд играет самую важную роль — хотя, к сожалению, он не едет, а должен был бы. Пристегнитесь — или, по крайней мере, сядьте поудобнее, потому что дальше будут крутые повороты.

+251

284

Pono Apr 25 2022 at 14:26

Куда уходит время? Боремся за миллисекунды в Kubernetes

7 min

22K

Ozon Tech corporate blogIT Infrastructure*Kubernetes*High performance*System administration*

Technotext Winner 2022

Привет, Хабр! Меня зовут Вова, я разрабатываю observability-платформу в Ozon. Как-то раз в наш уголок на 42 этаже заглянули коллеги — и поделились наблюдением. Если открыть рядом графики времён запросов и ответов двух живущих в Kubernetes и общающихся между собой микросервисов, то иногда можно наблюдать большую разницу в высоких квантилях: клиент считает, что один ответ из сотни ему приходит за сто миллисекунд, сервер же говорит, что успевает ответить за десять.

Куда ушло время? Можно ли его вернуть? Под катом расскажу о том, с какими граблями может столкнуться микросервис, живущий в типичной инсталляции Kubernetes.

+136

gus_belaya_raduga Dec 15 2020 at 07:04

Как раздвинуть кости черепа, чтобы легче дышалось: место, где в стоматологии сошлись сразу три новые технологии

10 min

40K

Белая Радуга corporate blogBiotechnologiesHealthPopular science

Этими винтами хочется попадать в нужное место кости очень точно и под очень правильным углом.

Привет, Хабр! Меня зовут Гусейн, я стоматолог, который специализируется на сложной ортодонтии — перемещении зубов. В общем, я в соавторстве ещё с парой итальянских коллег и одним немецким изобрёл математическую модель расчёта оптимального места под винты, которые мы вкручиваем в нёбо, используя их как опору для аппаратов. И такой метод их вкручивания, что врачу не остаётся почти никакого шанса на ошибку. И техническую реализацию всего этого.

Коротко это выглядит так: делаем оптический слепок рта внутриротовым сканером изнутри, накладываем поверх этого данные КТ, загоняем в аналог Архикада для ортодонтов (Dolphin), совмещаем, рассчитываем оптимальное место для имплантов — мини-винтов, печатаем навигационный шаблон из пластика и выпекаем лазером аппарат, потом вставляем одно в другое, потом вкручиваем это в пациента и радуемся. Получается идеальная точность. А это, знаете ли, важно, когда вы решаете взять и раздвинуть кости черепа ребёнку.

Зачем раздвигать нёбо ребёнку? Потому что так получилось, что детям нужно дышать. И иногда из-за неправильного развития мышц или генетики нёбо получается не той формы, чтобы кислород в достаточном количестве попадал к мозгу. Ребёнок начинает отставать в развитии и приобретает вид юного алкоголика (я имею в виду мешки под глазами).

Раньше винты вкручивали на глаз, и это было более травматично и немного неточно. Чуточку. Раз в пять. Под катом будет несколько фотографий фрагментов головы человека с не совсем привычных ракурсов, поэтому, если вы кушаете, то, возможно, стоит сначала доесть, а потом открывать пост.

Читать дальше →

+137

VlK Mar 24 2020 at 10:17

Strace в Linux: история, устройство и использование

17 min

70K

Badoo corporate blog*nix*Configuring Linux*Programming*System administration*

Technotext 2020

В Unix-подобных операционных системах общение программы с внешним миром и операционной системой происходит через небольшой набор функций — системных вызовов. А значит, в отладочных целях полезно бывает подсмотреть за выполняемыми процессами системными вызовами.

Следить за «интимной жизнью» программ на Linux помогает утилита strace, которой и посвящена эта статья. К примерам использования «шпионского» оборудования прилагаются краткая история strace и описание устройства подобных программ.

Читать дальше →

+86

germn Dec 24 2019 at 14:33

Краткая и на 146% точная история языков программирования

4 min

84K

Programming*History of IT

Translation

1800

Жозеф Мари Жаккар учит ткацкий станок читать перфокарты, создавая первый многопоточный процессор. Изобретение в штыки приняли ткачихи, которые уже тогда что-то подозревали.

1842

Ада Лавлейс, устав от положенного по социальному классу безделья, делает наброски в блокноте, которые станут известны как первая компьютерная программа. С поправкой, конечно, на то, что компьютеров тогда ещё не было.

Читать дальше →

+166

154

nuclight Oct 24 2019 at 17:24

Критика протокола и оргподходов Telegram. Часть 1, техническая: опыт написания клиента с нуля — TL, MT

60 min

74K

API*Perl*System Analysis and Design*Abnormal programming*Network technologies*

В последнее время на Хабре стали чаще появляться посты о том, как хорош Telegram, как гениальны и опытны братья Дуровы в построении сетевых систем, и т.п. В то же время, очень мало кто действительно погружался в техническое устройство — как максимум, используют достаточно простой (и весьма отличающийся от MTProto) Bot API на базе JSON, а обычно просто принимают на веру все те дифирамбы и пиар, что крутятся вокруг мессенджера. Почти полтора года назад мой коллега по НПО "Эшелон" Василий (к сожалению, его учетку на Хабре стёрли вместе с черновиком) начал писать свой собственный клиент Telegram с нуля на Perl, позже присоединился и автор этих строк. Почему на Perl, немедленно спросят некоторые? ~~Потому что на других языках такие проекты уже есть~~ На самом деле, суть не в этом, мог быть любой другой язык, где еще нет готовой библиотеки, и соответственно автор должен пройти весь путь с нуля. Тем более, криптография дело такое — доверяй, но проверяй. С продуктом, нацеленным на безопасность, вы не можете просто взять и положиться на готовую библиотеку от производителя, слепо ему поверив (впрочем, это тема более для второй части). На данный момент библиотека вполне работает на "среднем" уровне (позволяет делать любые API-запросы).

Тем не менее, в данной серии постов будет не так много криптографии и математики. Зато будет много других технических подробностей и архитектурных костылей (пригодится и тем, кто не будет писать с нуля, а будет пользоваться библиотекой на любом языке). Итак, главной целью было — попытаться реализовать клиент с нуля по официальной документации. То есть, предположим, что исходный код официальных клиентов закрыт (опять же во второй части подробнее раскроем тему того, что это и правда бывает так), но, как в старые времена, например, есть стандарт по типу RFC — возможно ли написать клиент по одной лишь спецификации, "не подглядывая" в исходники, хоть официальных (Telegram Desktop, мобильных), хоть неофициальных Telethon?

Ответ на этот вопрос неоднозначен

+177

241

Oxyd Sep 12 2019 at 07:55

Нетипичный «ls» — Habr Edition

2 min

16K

*nix*Abnormal programming*Shells*

Всем привет!

После вчерашнего поста о замене штатного ls другими штатными (или не очень) утилитами, я просто не мог пройти мимо комментов, особенно учитывая то что пост взлетел на вершины хит-парадов и за сутки его прочитало 18k, с хвостиком человек. Хабровчане подарили миру много новых способов избавиться от ls. Я их все (но это не точно) проверил, некоторые «причесал», что бы они соответствовали условиям задачи, и хочу поделиться с вами. Наслаждайтесь!

Читать дальше →

+32

EasyGrow Sep 5 2019 at 11:06

Kafka и микросервисы: обзор

9 min

124K

AvitoTech corporate blogDatabase Administration*Data storage*Microservices*

Всем привет. В этой статье я расскажу, почему мы в Авито девять месяцев назад выбрали Kafka, и что она из себя представляет. Поделюсь одним из кейсов использования — брокер сообщений. И напоследок поговорим о том, какие плюсы мы получили от применения подхода Kafka as a Service.

Читать дальше →

+53

109

khovansky Aug 8 2019 at 15:04

Генерируем одноразовые пароли для 2FA в JS с помощью Web Crypto API

9 min

28K

JavaScript*Information Security*Programming*Website development*

Tutorial

Translation

Введение

Двухфакторная аутентификация сегодня повсюду. Благодаря ей, чтобы украсть аккаунт, недостаточно одного лишь пароля. И хотя ее наличие не гарантирует, что ваш аккаунт не уведут, чтобы ее обойти, потребуется более сложная и многоуровневая атака. Как известно, чем сложнее что-либо в этом мире, тем больше вероятность, что работать оно не будет.

Уверен, все, кто читают эту статью, хотя бы раз использовали двухфакторную аутентификацию (далее — 2FA, уж больное длинное словосочетание) в своей жизни. Сегодня я приглашаю вас разобраться, как устроена эта технология, ежедневно защищающая бесчисленное количество аккаунтов.

Но для начала, можете взглянуть на демо того, чем мы сегодня займемся.

Читать дальше →

+23

m1rko Jul 8 2019 at 18:52

Ещё лучшая ZIP-бомба

25 min

138K

Open source*Information Security*Software

Translation

В статье показано, как создать нерекурсивную zip-бомбу, которая обеспечивает высокую степень сжатия путём перекрытия файлов внутри zip-контейнера. «Нерекурсивная» означает, что она не зависит от рекурсивной распаковки декомпрессорами файлов, вложенных в zip-архивы: здесь всего один раунд. Выходной размер увеличивается квадратично от входного, достигая степени сжатия более 28 миллионов (10 МБ → 281 ТБ) в пределах формата zip. Ещё большее расширение возможно с помощью 64-разрядных расширений. Конструкция использует только наиболее распространённый алгоритм сжатия DEFLATE и совместима с большинством парсеров zip.

zbsm.zip 42 kB → 5.5 GB
zblg.zip 10 MB → 281 TB
zbxl.zip 46 MB → 4.5 PB (Zip64, менее совместима с парсерами)

Исходный код:

git clone https://www.bamsoftware.com/git/zipbomb.git

zipbomb-20190702.zip

Данные и исходники иллюстраций:

git clone https://www.bamsoftware.com/git/zipbomb-paper.git

Читать дальше →

+176

RLRR Mar 6 2019 at 05:19

Быстрая генерализация маркеров на WebGL-карте

8 min

7.9K

2ГИС corporate blogJavaScript*WebGL*Geoinformation services*Programming*

Маркеры — дело полезное. Полезное в разумных количествах. Когда их становится слишком много, польза улетучивается. Как поступить, если требуется отметить на карте поисковую выдачу, в которой десятки тысяч объектов? В статье я расскажу, как мы решаем эту задачу на WebGL-карте без ущерба для её внешнего вида и производительности.

Генерализируем

+36

tsafin Sep 25 2015 at 11:38

Утилиты командной строки могут быть в 235-раз быстрее вашего Hadoop кластера

7 min

46K

High performance*Algorithms*Hadoop*Big Data*

Translation

Примечания tsafin:

Перед публикацией своего цикла статей по MapReduce в Caché, мне показалось важным озвучить данную прошлогоднюю точку зрения из статьи Адама Дрейка «Command-line tools can be 235x faster than your Hadoop cluster». К сожалению оригинальная статья Тома Хайдена, на которую он ссылается стала уже недоступна на сайте Тома, но её, по-прежнему, можно найти в архивах. Для полноты картины предлагаю ознакомиться и с ней тоже.

Введение

Посещая в очередной раз свои любимые сайты, я нашел крутую статью Тома Хайдена об использовании Amazon Elastic Map Reduce (EMR) и mrjob для вычисления статистики отношения выигрыш/проигрыш в наборе данных со статистикой по шахматным матчам, которую он скачал с сайта millionbase archive, и c которой он начал играться используя EMR. Так как объем данных был всего 1.75GB, описывающий 2 миллиона шахматных партий, то я скептически отнесся к использованию Hadoop для данной задачи, хотя были и понятны его намерения просто поиграться и изучить плотнее, на реальном примере, утилиту mrjob и инфраструктуру EMR.

Читать дальше →

+62

Dreadatour Sep 24 2015 at 07:58

19 советов по повседневной работе с Git

14 min

289K

VK corporate blogGit*Programming*Website development*

Tutorial

Translation

Если вы регулярно используете Git, то вам могут быть полезны практические советы из этой статьи. Если вы в этом пока новичок, то для начала вам лучше ознакомиться с Git Cheat Sheet. Скажем так, данная статья предназначена для тех, у кого есть опыт использования Git от трёх месяцев. Осторожно: траффик, большие картинки!

Содержание:

Параметры для удобного просмотра лога
Вывод актуальных изменений в файл
Просмотр изменений в определённых строках файла
Просмотр ещё не влитых в родительскую ветку изменений
Извлечение файла из другой ветки
Пара слов о ребейзе
Сохранение структуры ветки после локального мержа
Исправление последнего коммита вместо создания нового
Три состояния в Git и переключение между ними
Мягкая отмена коммитов
Просмотр диффов для всего проекта (а не по одному файлу за раз) с помощью сторонних инструментов
Игнорирование пробелов
Добавление определённых изменений из файла
Поиск и удаление старых веток
Откладывание изменений определённых файлов
Хорошие примечания к коммиту
Автодополнения команд Git
Создание алиасов для часто используемых команд
Быстрый поиск плохого коммита

Читать дальше →

+146

2 3 ...

9 10