Search
Write a publication
Pull to refresh
31
0

Пользователь

Send message

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

Reading time8 min
Views14K


Open In Colab


При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).


Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.


По этой причине мы бы хотели поделиться с сообществом системой, которая:


  • Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
  • Работает на 4 языках (русский, английский, немецкий, испанский);
  • По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
  • Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

История одного НЕ-ОТВЕТА на stackoverflow

Reading time25 min
Views22K

Недавно наткнулся на stackoverflow на такой вопрос Need to check if code contains certain identifiers и в ходе размышлений преобразился из «маленького помощника Санты» в «адвоката дьявола». Что, конечно, гораздо веселее. Но мораль не в этом.

Читать далее

Про уязвимости в системе и баг-хантинг

Reading time3 min
Views1.9K

Ну, здравствуй, Хабр. Так уж сложилась моя личность, что будь я персонажем ролевой игры, моей способностью, однозначно, было бы накидывание экскрементов на промышленный вентилятор. Шутки шутками, но тема злободневная - я нашел уязвимость бизнес-профиля Google, позволяющую получить доступ к конфиденциальным данным компаний и их клиентов.

Читать далее

Города, инверсии и логистика: разбор задач для QA-инженеров

Reading time9 min
Views5.7K
Друзья, недавно мы опубликовали разбор задач из отборочного контеста на курс «Автоматическое тестирование веб-сервисов на Go». А теперь предлагаем поломать голову над задачами для QA-инженеров: сначала попробуйте найти решение самостоятельно, а потом сравните с нашими вариантами.


Читать дальше →

Даосская модель «выгорания»

Reading time6 min
Views7.7K

В статье простым языком описана работающая даосская модель, полезность которой доказана тысячелетней историей.

Главное требование к модели – полезность. Обеспечивает ли её применение стабильный и ожидаемый результат? Это можно узнать исключительно на практике.

С другой стороны, даже бросая дротик с завязанными глазами, можно время от времени попадать «в яблочко».

Какой подход выбрать? Когда последствия выбора влияют на человеческую жизнь – решение всегда за конкретным человеком.

Но тут мы сталкиваемся с труднопреодолимым противоречием.

Большинство людей и пальцем не пошевелит, пока не узнает «как работает мозг» и как называется вещество, от которого нам становится хорошо (пусть, например, дофамин или серотонин). Их не смущает что:

«Если больной узнает, как называется болезнь на латыни, ему легче не станет».

Противоречие:

чтобы узнать, нужно применить,

чтобы применить, нужно знать.

Даосы традиционно разрешают это противоречие через доверие. Не через слепую веру, заметьте. Доверие это «точка входа», но не критерий истинности.

«Не разбив яиц, не сделаешь омлет». И не узнаешь, хорош ли рецепт.

Статья может оказаться полезной как «точка входа». Из-за ограниченности формата и заявленной темы в ней нет ответов на вопрос «Как?»

Если тема окажется сообществу интересной, то продолжение последует.

Читать про модель

Байесовская Сеть Доверия: Практика

Reading time9 min
Views10K

Мы продолжаем нашу серию статей, связанных с байесовскими методами, один из которых — Байесовские Сети Доверия (БСД). Теоретическую основу БСД вы можете найти в этой статье.

В этой статье мы сначала вкратце вспомним теорию. Дальше будет, что называется, только хардкор: на примере данных “Титаника” мы будем строить БСД.

Читать далее

Becoming a web security expert, или Как я готовился и сдавал OSWE

Reading time9 min
Views6.7K

Привет, Хабр! Меня зовут @killinem, и я работаю ведущим экспертом отдела анализа защищенности компании Angara Security. В этом посте я хочу рассказать о своем опыте прохождение курса AWAE и сдачи экзамена OSWE от Offensive Security. Это, пожалуй, ведущая на текущий момент международная сертификация, подтверждающая навыки и знания в области практического анализа защищенности веб-приложений.

В этом посте я расскажу:

* какие знания и скиллы нужны для сдачи экзамена,

* как к нему готовился лично я,

* о процессе прохождения самого экзамена,

* является ли сертификат пунктом, после которого можно сказать «я знаю о веб-хакинге все».

Читать далее

Книга «Танец с кубитами. Как на самом деле работают квантовые вычисления»

Reading time9 min
Views9.7K
image Привет, Хаброжители! От создателя IBM Q. Квантовые вычисления заставляют нас изменить отношение к компьютерам. Кубиты способны решать задачи, которые еще совсем недавно казались неразрешимыми. Вы узнаете о принципиальных различиях между квантовыми и классическими вычислениями, вспомните матанализ, чтобы разобраться с такими понятиями, как суперпозиция, запутанность и интерференция, от алгоритмов и схем перейдете к физическим и техническим идеям, лежащим в основе создания железа для квантовых вычислений. Загляните в будущее и узнайте, как развитие технологий повлияет на нашу жизнь!

Прежде чем мы попробуем разобраться в том, как работают квантовые вычисления, придется обратиться к классике. И это нужно не только для сравнения. Я полагаю, что будущее — за гибридами классических и квантовых компьютеров.

Лучший способ усвоить что-то — начать с базовых принципов, а затем двигаться по восходящей. Это позволит вам самостоятельно рассуждать об осваиваемой теме, не полагаясь на механическое запоминание или ошибочные аналогии.
Читать дальше →

Применение онтологии к решению практических задач ИБ (часть 1)

Reading time11 min
Views26K

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями

Атака Ферма на RSA

Reading time4 min
Views17K

В 1643 году Пьер де Ферма предложил метод факторизации. Этот метод позволяет эффективно раскладывать целые числа на простые множители.

Алгоритм шифрования и подписи RSA основывается на том, что факторизация — это задача с высокой сложностью. Открытый ключ RSA содержит составное число (обычно называемое N), которое является произведение двух простых чисел (обычно p и q).

Если ключи RSA генерируются из «близко стоящих» простых чисел, то RSA можно взломать с помощью метода факторизации Ферма. И хотя это довольно известный факт, но, насколько я знаю, уязвимые ключи RSA не обнаруживались в «дикой природе» — до сегодняшнего дня.

Я применил метод факторизации Ферма к большим наборам открытых ключей RSA. И я смог обнаружить небольшое количество уязвимых ключей, которые принадлежали принтерам Canon и Fujifilm (первоначально выпускавшихся под маркой Fuji Xerox). В этих устройствах используется криптографический модуль от компании Rambus.
Читать дальше →

Удивительное приключение в стране оптимизирующих компиляторов

Reading time17 min
Views25K

Приглашаю вас в небольшое приключение выходного дня, в котором никто никому ничего не будет доказывать. Мы просто будем реализовывать один и тот же несложный алгоритм, разыскивающий простые числа в некотором диапазоне, на нескольких языках программирования: C, C++, Scheme и Python - и смотреть, что этим кодом могут сделать современные оптимизирующие компиляторы. В процессе приключения мы увидим, что «динамический» не означает «совсем уж медленный», и посмотрим на приёмы программирования на Scheme, что, как мне кажется, можно сравнить с путешествием на экзотический остров.

Читать далее

Невидимый Javascript-бэкдор

Reading time4 min
Views29K

Несколько месяцев назад мы увидели пост в сабреддите r/programminghorror: один разработчик рассказал о своих мучениях с поиском синтаксической ошибки, вызванной невидимым символом Unicode, скрывавшемся в исходном коде на JavaScript. Этот пост вдохновил нас на мысль: что если бэкдор в буквальном смысле нельзя было бы увидеть и таким образом он бы избежал тщательных проверок кода?

Как раз когда мы завершали написание этого поста, команда из Кембриджского университета опубликовала статью с описанием такой атаки. Однако её подход сильно отличается от нашего — в нём упор делается на механизм двойного направления текста в Unicode (Bidi). Мы реализовали подход, который в статье называется Invisible Character Attacks и Homoglyph Attacks.

Без лишних предисловий перейдём к бэкдору. Сможете его найти?
Читать дальше →

6 наблюдений о хорошем сюжете для видеоигр

Reading time5 min
Views18K

Даже с малым бюджетом инди-проекты регулярно попадают в топы и собирают восторженные отзывы игроков. Не только благодаря геймплею, но очень часто нарративной части, в которой разработчики могут себе позволить выйти далеко за рамки привычных AAA-историй.

Своими наблюдениями об игровых сюжетах поделился сценарист инди-игр, а мы перевели.

Дисклеймер: под катом идет мнение автора оригинальной статьи. Местами очень спорное, местами любопытное. Делитесь своим в комментариях.

Читать далее

Лямбда-исчисление в 397 байтах

Reading time22 min
Views16K

Лямбда-исчисление — это язык программирования с единственным ключевым словом. Это асфальтовая топь Тьюринга, обнаруженная научным руководителем Тьюринга. В этом посте я расскажу о совершенно новой 397-байтной реализации двоичного лямбда-исчисления в виде Linux ELF для x86-64. Также в нём представлены удобно портируемый код на C и собранные двоичные файлы APE для других платформ.
Читать дальше →

Трилемма блокчейна

Reading time3 min
Views7K

Трилемма блокчейна относится к общепринятому представлению о том, что с точки зрения децентрализации, безопасности и масштабируемости децентрализованные сети могут обеспечить только два из трех свойств в любой момент времени.

Ученые разработали теорему постоянства (consistency), доступности (availability) и устойчивости к разбиению (partition tolerance) - CAP в 1980-х годах, чтобы выразить наиболее значительные из этих свойств. Теорема CAP утверждает, что децентрализованное хранилище данных, такое как блокчейн, может одновременно удовлетворять только двум из трех упомянутых выше свойств.

Эта теорема превратилась в трилемму блокчейна в контексте современных распределенных сетей. Широко распространено мнение, что общедоступная инфраструктура блокчейна должна жертвовать безопасностью, децентрализацией или масштабируемостью.

В результате святой Грааль технологии блокчейна состоит в том, чтобы создать безопасную сеть в широко децентрализованной сети, а также обрабатывать транзакционную пропускную способность в масштабе Интернета.

Прежде чем углубляться в динамику трилеммы, давайте определим масштабируемость, безопасность и децентрализацию в общих чертах:

1) Масштабируемость блокчейна относится к его способности обрабатывать больший объем транзакций.

2) Безопасность относится к способности защищать данные в блокчейне от различных типов атак и защите блокчейна от двойного расходования средств.

3) Децентрализация — это тип избыточности сети, который гарантирует, что сеть не контролируется меньшим количеством объектов.

Читать далее

Потери ~40 000 р. при скликивании контекстной рекламы ботами из Китая. Как это происходит?

Reading time4 min
Views7.8K

Ввиду того, что мы не можем раскрывать данные клиентов, мы удалили с изображений ниже часть данных, но поверьте, что для понимания масштаба кликфрода, это будет не критично. В данном кейсе люди теряли деньги, т.к. на их рекламные кампании, нацеленные на города России, кликали "веселые" боты из Китая, Латвии и т.п.

Читать далее

Если гипотеза Римана не верна…

Reading time2 min
Views29K

Как известно, в военное время значение косинуса может достигать трех. К счастью, это не касается простоты чисел - как ни бейся лбом об стену, число 17 простое и ни на что не делится, кроме себя и 1.

Или нет? Что если мы грубо пошуруем ломиком в святая святых математики и подвигаем нетривиальные нули зета функции? Сдвинутся ли со своих мест простые числа? Вас ждут картинки и видео, и очень мало формул.

Читать далее

Термоядерный синтез [своими руками]

Reading time3 min
Views27K

В этой статье я хочу рассказать подробнее о фузоре Франсуорта-Хирша. Впервые об этом творении я узнал из видео с канала "Физика от Побединского" и мне сразу же захотелось повторить показанный в видео продукт. Собственно само видео.

Читать далее

Электронный микроскоп в гараже. Чёрный вакуум

Reading time7 min
Views24K
Если вы пропустили предыдущие выпуски — обязатально почитайте.

Форвакуум в микроскопе оказался сильно мотивирующим фактором для продолжения работы :) Ведь самое интересное — получить высокий вакуум и запускать электронно-лучевую систему!



Для этого потребуется оживить диффузионный (паромасляный) насос. В нём отсутствует одна важная часть — нагреватель, а в остальном он исправен, и в нём даже осталось некоторое количество родного вакуумного масла, называемого рабочей жидкостью.

Information

Rating
7,814-th
Registered
Activity