Articles / Bookmarks / Profile of v1000 / Habr

@v1000

Пользователь

ProfileArticles5PostsNewsComments3.6K

snakers4 Oct 6 2021 at 13:56

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

8 min

14K

Big Data*Natural Language Processing*Python*Machine learning*

При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).

Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.

По этой причине мы бы хотели поделиться с сообществом системой, которая:

Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
Работает на 4 языках (русский, английский, немецкий, испанский);
По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

+22

CSDev Apr 21 2022 at 21:13

История одного НЕ-ОТВЕТА на stackoverflow

25 min

22K

.NET*C#*

Недавно наткнулся на stackoverflow на такой вопрос Need to check if code contains certain identifiers и в ходе размышлений преобразился из «маленького помощника Санты» в «адвоката дьявола». Что, конечно, гораздо веселее. Но мораль не в этом.

+45

jesusadmin Apr 19 2022 at 01:47

Про уязвимости в системе и баг-хантинг

3 min

1.9K

Information Security*

Ну, здравствуй, Хабр. Так уж сложилась моя личность, что будь я персонажем ролевой игры, моей способностью, однозначно, было бы накидывание экскрементов на промышленный вентилятор. Шутки шутками, но тема злободневная - я нашел уязвимость бизнес-профиля Google, позволяющую получить доступ к конфиденциальным данным компаний и их клиентов.

xe1by Apr 18 2022 at 15:44

Города, инверсии и логистика: разбор задач для QA-инженеров

9 min

5.7K

VK corporate blogOzon Tech corporate blogEntertaining tasksIT Infrastructure*Studying in IT

Друзья, недавно мы опубликовали разбор задач из отборочного контеста на курс «Автоматическое тестирование веб-сервисов на Go». А теперь предлагаем поломать голову над задачами для QA-инженеров: сначала попробуйте найти решение самостоятельно, а потом сравните с нашими вариантами.

Читать дальше →

+22

vic_butorov Apr 17 2022 at 13:49

Даосская модель «выгорания»

6 min

7.7K

Reading roomPopular scienceHealth

В статье простым языком описана работающая даосская модель, полезность которой доказана тысячелетней историей.

Главное требование к модели – полезность. Обеспечивает ли её применение стабильный и ожидаемый результат? Это можно узнать исключительно на практике.

С другой стороны, даже бросая дротик с завязанными глазами, можно время от времени попадать «в яблочко».

Какой подход выбрать? Когда последствия выбора влияют на человеческую жизнь – решение всегда за конкретным человеком.

Но тут мы сталкиваемся с труднопреодолимым противоречием.

Большинство людей и пальцем не пошевелит, пока не узнает «как работает мозг» и как называется вещество, от которого нам становится хорошо (пусть, например, дофамин или серотонин). Их не смущает что:

«Если больной узнает, как называется болезнь на латыни, ему легче не станет».

Противоречие:

чтобы узнать, нужно применить,

чтобы применить, нужно знать.

Даосы традиционно разрешают это противоречие через доверие. Не через слепую веру, заметьте. Доверие это «точка входа», но не критерий истинности.

«Не разбив яиц, не сделаешь омлет». И не узнаешь, хорош ли рецепт.

Статья может оказаться полезной как «точка входа». Из-за ограниченности формата и заявленной темы в ней нет ответов на вопрос «Как?»

Если тема окажется сообществу интересной, то продолжение последует.

Читать про модель

Farruh7 Apr 14 2022 at 15:52

Байесовская Сеть Доверия: Практика

9 min

10K

OTUS corporate blogArtificial IntelligenceMachine learning*Mathematics*Python*

Tutorial

Мы продолжаем нашу серию статей, связанных с байесовскими методами, один из которых — Байесовские Сети Доверия (БСД). Теоретическую основу БСД вы можете найти в этой статье.

В этой статье мы сначала вкратце вспомним теорию. Дальше будет, что называется, только хардкор: на примере данных “Титаника” мы будем строить БСД.

killinem Apr 13 2022 at 09:23

Becoming a web security expert, или Как я готовился и сдавал OSWE

9 min

6.7K

Angara Security corporate blogIT careerInformation Security*

Привет, Хабр! Меня зовут @killinem, и я работаю ведущим экспертом отдела анализа защищенности компании Angara Security. В этом посте я хочу рассказать о своем опыте прохождение курса AWAE и сдачи экзамена OSWE от Offensive Security. Это, пожалуй, ведущая на текущий момент международная сертификация, подтверждающая навыки и знания в области практического анализа защищенности веб-приложений.

В этом посте я расскажу:

* какие знания и скиллы нужны для сдачи экзамена,

* как к нему готовился лично я,

* о процессе прохождения самого экзамена,

* является ли сертификат пунктом, после которого можно сказать «я знаю о веб-хакинге все».

+10

ph_piter Apr 12 2022 at 14:14

Книга «Танец с кубитами. Как на самом деле работают квантовые вычисления»

9 min

9.7K

Издательский дом «Питер» corporate blogQuantum technologiesProfessional literature*

Привет, Хаброжители! От создателя IBM Q. Квантовые вычисления заставляют нас изменить отношение к компьютерам. Кубиты способны решать задачи, которые еще совсем недавно казались неразрешимыми. Вы узнаете о принципиальных различиях между квантовыми и классическими вычислениями, вспомните матанализ, чтобы разобраться с такими понятиями, как суперпозиция, запутанность и интерференция, от алгоритмов и схем перейдете к физическим и техническим идеям, лежащим в основе создания железа для квантовых вычислений. Загляните в будущее и узнайте, как развитие технологий повлияет на нашу жизнь!

Прежде чем мы попробуем разобраться в том, как работают квантовые вычисления, придется обратиться к классике. И это нужно не только для сравнения. Я полагаю, что будущее — за гибридами классических и квантовых компьютеров.

Лучший способ усвоить что-то — начать с базовых принципов, а затем двигаться по восходящей. Это позволит вам самостоятельно рассуждать об осваиваемой теме, не полагаясь на механическое запоминание или ошибочные аналогии.

Читать дальше →

+13

CyberLympha Apr 6 2022 at 13:11

Применение онтологии к решению практических задач ИБ (часть 1)

11 min

26K

Entertaining tasksData visualization*Machine learning*Data Engineering*

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями

Stedihabr Apr 5 2022 at 13:49

Атака Ферма на RSA

4 min

17K

Timeweb Cloud corporate blogInformation Security*Mathematics*

Translation

В 1643 году Пьер де Ферма предложил метод факторизации. Этот метод позволяет эффективно раскладывать целые числа на простые множители.

Алгоритм шифрования и подписи RSA основывается на том, что факторизация — это задача с высокой сложностью. Открытый ключ RSA содержит составное число (обычно называемое N), которое является произведение двух простых чисел (обычно p и q).

Если ключи RSA генерируются из «близко стоящих» простых чисел, то RSA можно взломать с помощью метода факторизации Ферма. И хотя это довольно известный факт, но, насколько я знаю, уязвимые ключи RSA не обнаруживались в «дикой природе» — до сегодняшнего дня.

Я применил метод факторизации Ферма к большим наборам открытых ключей RSA. И я смог обнаружить небольшое количество уязвимых ключей, которые принадлежали принтерам Canon и Fujifilm (первоначально выпускавшихся под маркой Fuji Xerox). В этих устройствах используется криптографический модуль от компании Rambus.

Читать дальше →

+25

mikhanoid Apr 3 2022 at 12:53

Удивительное приключение в стране оптимизирующих компиляторов

17 min

25K

C*Lisp*C++*Programming*Python*

Приглашаю вас в небольшое приключение выходного дня, в котором никто никому ничего не будет доказывать. Мы просто будем реализовывать один и тот же несложный алгоритм, разыскивающий простые числа в некотором диапазоне, на нескольких языках программирования: C, C++, Scheme и Python - и смотреть, что этим кодом могут сделать современные оптимизирующие компиляторы. В процессе приключения мы увидим, что «динамический» не означает «совсем уж медленный», и посмотрим на приёмы программирования на Scheme, что, как мне кажется, можно сравнить с путешествием на экзотический остров.

+62

Bee_brightside Mar 30 2022 at 11:24

Невидимый Javascript-бэкдор

4 min

29K

билайн бизнес corporate blogInformation Security*JavaScript*

Translation

Несколько месяцев назад мы увидели пост в сабреддите r/programminghorror: один разработчик рассказал о своих мучениях с поиском синтаксической ошибки, вызванной невидимым символом Unicode, скрывавшемся в исходном коде на JavaScript. Этот пост вдохновил нас на мысль: что если бэкдор в буквальном смысле нельзя было бы увидеть и таким образом он бы избежал тщательных проверок кода?

Как раз когда мы завершали написание этого поста, команда из Кембриджского университета опубликовала статью с описанием такой атаки. Однако её подход сильно отличается от нашего — в нём упор делается на механизм двойного направления текста в Unicode (Bidi). Мы реализовали подход, который в статье называется Invisible Character Attacks и Homoglyph Attacks.

Без лишних предисловий перейдём к бэкдору. Сможете его найти?

Читать дальше →

+97

thenonsense Mar 26 2022 at 16:23

Экономическая модель для ММО

12 min

8.9K

System Analysis and Design*Game development*Algorithms*Prototyping*Cryptocurrencies

Некоторые соображения о том, как концептуально может быть устроена идеализированная экономика обмена в ммо-игре.

Lightmap Mar 16 2022 at 16:11

6 наблюдений о хорошем сюжете для видеоигр

5 min

18K

Lightmap corporate blogGame development*Games and game consolesGame design*

Translation

Даже с малым бюджетом инди-проекты регулярно попадают в топы и собирают восторженные отзывы игроков. Не только благодаря геймплею, но очень часто нарративной части, в которой разработчики могут себе позволить выйти далеко за рамки привычных AAA-историй.

Своими наблюдениями об игровых сюжетах поделился сценарист инди-игр, а мы перевели.

Дисклеймер: под катом идет мнение автора оригинальной статьи. Местами очень спорное, местами любопытное. Делитесь своим в комментариях.

+54

PatientZero Mar 15 2022 at 06:47

Лямбда-исчисление в 397 байтах

22 min

16K

Programming*Mathematics*

Translation

Лямбда-исчисление — это язык программирования с единственным ключевым словом. Это асфальтовая топь Тьюринга, обнаруженная научным руководителем Тьюринга. В этом посте я расскажу о совершенно новой 397-байтной реализации двоичного лямбда-исчисления в виде Linux ELF для x86-64. Также в нём представлены удобно портируемый код на C и собранные двоичные файлы APE для других платформ.

Читать дальше →

+68

Alex_210 Mar 14 2022 at 19:53

Трилемма блокчейна

3 min

Information Security*

Translation

Трилемма блокчейна относится к общепринятому представлению о том, что с точки зрения децентрализации, безопасности и масштабируемости децентрализованные сети могут обеспечить только два из трех свойств в любой момент времени.

Ученые разработали теорему постоянства (consistency), доступности (availability) и устойчивости к разбиению (partition tolerance) - CAP в 1980-х годах, чтобы выразить наиболее значительные из этих свойств. Теорема CAP утверждает, что децентрализованное хранилище данных, такое как блокчейн, может одновременно удовлетворять только двум из трех упомянутых выше свойств.

Эта теорема превратилась в трилемму блокчейна в контексте современных распределенных сетей. Широко распространено мнение, что общедоступная инфраструктура блокчейна должна жертвовать безопасностью, децентрализацией или масштабируемостью.

В результате святой Грааль технологии блокчейна состоит в том, чтобы создать безопасную сеть в широко децентрализованной сети, а также обрабатывать транзакционную пропускную способность в масштабе Интернета.

Прежде чем углубляться в динамику трилеммы, давайте определим масштабируемость, безопасность и децентрализацию в общих чертах:

1) Масштабируемость блокчейна относится к его способности обрабатывать больший объем транзакций.

2) Безопасность относится к способности защищать данные в блокчейне от различных типов атак и защите блокчейна от двойного расходования средств.

3) Децентрализация — это тип избыточности сети, который гарантирует, что сеть не контролируется меньшим количеством объектов.

makasin4ik Mar 14 2022 at 11:59

Потери ~40 000 р. при скликивании контекстной рекламы ботами из Китая. Как это происходит?

4 min

7.8K

Contextual advertising*Internet marketing*

Ввиду того, что мы не можем раскрывать данные клиентов, мы удалили с изображений ниже часть данных, но поверьте, что для понимания масштаба кликфрода, это будет не критично. В данном кейсе люди теряли деньги, т.к. на их рекламные кампании, нацеленные на города России, кликали "веселые" боты из Китая, Латвии и т.п.

Tzimie Mar 13 2022 at 16:07

Если гипотеза Римана не верна…

2 min

29K

Mathematics*Popular science

Как известно, в военное время значение косинуса может достигать трех. К счастью, это не касается простоты чисел - как ни бейся лбом об стену, число 17 простое и ни на что не делится, кроме себя и 1.

Или нет? Что если мы грубо пошуруем ломиком в святая святых математики и подвигаем нетривиальные нули зета функции? Сдвинутся ли со своих мест простые числа? Вас ждут картинки и видео, и очень мало формул.

+20

flushka Mar 12 2022 at 16:27

Термоядерный синтез [своими руками]

3 min

27K

Energy and batteriesElectronics for beginnersPhysicsManufacture and development of electronics*Popular science

From sandbox

В этой статье я хочу рассказать подробнее о фузоре Франсуорта-Хирша. Впервые об этом творении я узнал из видео с канала "Физика от Побединского" и мне сразу же захотелось повторить показанный в видео продукт. Собственно само видео.

+30

reactos Feb 21 2017 at 02:39

Электронный микроскоп в гараже. Чёрный вакуум

7 min

24K

DIYPhysicsGadgetsPopular scienceOld hardware

Если вы пропустили предыдущие выпуски — обязатально почитайте.

Форвакуум в микроскопе оказался сильно мотивирующим фактором для продолжения работы :) Ведь самое интересное — получить высокий вакуум и запускать электронно-лучевую систему!

Для этого потребуется оживить диффузионный (паромасляный) насос. В нём отсутствует одна важная часть — нагреватель, а в остальном он исправен, и в нём даже осталось некоторое количество родного вакуумного масла, называемого рабочей жидкостью.

+86

1 2 ...

15 16

18 19 ...

150 151