Pull to refresh

Comments 24

Ллойд оценивает, что 60 кубитов хватит для кодирования такого количества данных, которое человечество производит за год [...] И это только если принять, что каждая амплитуда представляет один классический бит. На самом деле [...] каждая из них может хранить до 15 битов, говорит Ааронсон.

Бррр. Какая каша. В оригинале, кстати, то же самое.


Есть теорема Холево (Александра Семёновича), которая утверждает, что из системы n кубитов нельзя извлечь больше n классических бит. Так что о хранении огромных объемов информации можно говорить только как в анекдоте про архиватор, который сжимает всё в бесконечное число раз. Осталось только распаковщик придумать.


То, о чём, говорят Ллойд и Ааронсон — количество бит, требуемое для хранения состояния квантовой системы из n кубитов на классическом компьютере. Ллойд говорит об объеме, который потребуется, если каждое чистое состояние в суперпозиции кодировать одним битом. Ааронсон, видимо, имел в виду, что одного бита будет мало, и для достаточно точной симуляции квантового компьютера потребуется не менее 15 бит на чистое состояние для кодирования комплексной амплитуды.

а разреженные данные вообще интересны для машинного обучения?
Очень. Обработка текстовой информации как раз упирается в обработку крайне разреженных матриц. В качестве решения проблемы предлагается заранее тренировать Embedding, вроде того же GloVe, чтобы затем использовать это семантическое представление. Но в случае русского языка, например, данный подход крайне затратен в силу огромного количества словоформ для каждого слова, и, соответственно, огромных разреженных матриц для учёта каждой словоформы. В качестве костыля я держу словарь словоформ, перевожу каждое слово в начальную форму и добавляю one-hot биты с номером словоформы к embedding-ам, но и это решение неоптимально, т.к. невозможно создать полный словарь словоформ. Если бы квантовые вычисления могли снять ограничение на размер матрицы, все эти танцы с бубном потеряли бы актуальность.
Интересно. В порядке ликбеза, заранее извиняюсь за дилетантский вопрос (никогда этой темой не интересовался, погуглил что такое GloVe и возник вопрос)…
Проблема обработки разреженных матриц собственно в чем состоит? Если дело в том что матрицы дюже здоровые, то это скорее проблема размерам оперативки — но те же GPU давно уже есть с десятком гиг оперативки на борту… Или десяток гиг это ниочем для матриц в таких задачах? Или же оперативы хватает штатно но не хватает скорости вычислений — но тогда опять таки кластер из GPU вполне решает проблему (ибо параллеляться такие задачи очень хорошо). Или же проблема алгоритмическая — т.е. нет хороших и быстрых путей проводить обучение по таким разреженным матрицам? Или проблем вобщем-то и нет но просто хочется чтобы оно легко крутилось на обычном домашнем компе? )
Т.е. в какой именно части квантовые вычисления потенциально могут помочь в рамках борьбы с разреженными матрицами?
Если дело в том что матрицы дюже здоровые, то это скорее проблема размерам оперативки… но те же GPU давно уже есть с десятком гиг оперативки на борту…
Можно элементарно прикинуть размер cooccurence matrix: число_словоформ^2 * sizeof(тип). В русском языке миллионы словоформ. Пусть словоформ даже 1 миллион, а кодировать частотность мы будем всего 1 байтом. В таком случае понадобится порядка 1 ТБ RAM. Либо не RAM, но в таком случае процесс сбора статистики может затянуться.
Или проблем вобщем-то и нет но просто хочется чтобы оно легко крутилось на обычном домашнем компе? )
Проблем на суперкомпьютерах нет, но у меня банально нет суперкомпьютера, потому приходится изворачиваться :)
Т.е. в какой именно части квантовые вычисления потенциально могут помочь в рамках борьбы с разреженными матрицами?
Они могли бы помочь, если было бы возможно пропустить этап построения cooccurence matrix в памяти, проведя весь алгоритм используя квантовые состояния, и выдав лишь результирующие embeddings. Я не специалист в квантовых вычислениях, не могу сказать, насколько это реалистично.
В русском языке миллионы словоформ

Спасибо за ответ. Теперь понятно. Я и не подозревал о таком многообразии словоформ — полагал что поскольку в обычном разговорном словаре обычного человека порядка 1000 слов, то словоформ будет больше на порядок-полтора (т.е. 10-30 тыщ), миллион тут цифра которая меня сильно удивила. Век живи, век учись…
Посмотрел свой словарь, у меня разобрано только около 1.3 млн уникальных словоформ. Если брать ещё и омонимичные словоформы, то значительно больше, более 2 млн, но чтобы их различать, пришлось бы несколько усложнить алгоритм, у меня пока не сформировалось чёткое представление, как это осуществить при обучении на немаркированных данных. Вероятно, нужна вспомогательная программа, которая будет оценивать уместность той или иной омонимичной формы в заданной позиции на этапе обучения.

Тысяча слов — это у мигранта-грузчика. Да и речь всё же про письменную речь, там явно больше слов, чем в разговорной.

Про ~порядок разницы между базовыми словами и словоформами правильно, а вот оценка самой базы сильно подвела.
У среднего человека с образованием и хотя бы немного читающего, для которого русский язык родной словарный запас составляет порядка 50 тысяч слов. А вместе со всеми формами — порядка 500к.
Полный же объем русского языка (без привязки к какому-то одному конкретному человеку, а в принципе все существующее) примерно на порядок больше — до порядка 500к слов и 5М словоформ.

А 1К слов это действительно уровень иностранца с трудом изъясняющегося на ломаном русском только на простейшие темы. Ну или школьника только недавно начавшего учить язык как иностранный.

Сначала, всё-таки, взлом RSA. Усиление ИИ — это уже потом.

А почему сравнение только с обычными классическими процессорами? Ведь задачи расчета нейронных сеточек выполняют видеокарты, а это совсем другая архитектура.
Это также классические машины фон Неймана. Как БМВ(видео) и Камаз(x86 проц).
представляет ли это опасность для технологий основанных на блокчейн?
Я считаю, концентрация buzzwords на квадратный сантиметр недостаточна. Нужно так: «выпущенная в рамках ICO квантовая нейронная сеть на нанотрубках, запущенная на квадрокоптере, угрожает блокчейну».
квантовые вычисления как бы могут легко «вскрыть» современную криптографию на которой блокчейн основан. Так что у вас что-то с фантазией если вы в моем коментарии buzzwords увидели.
Это у Вас что-то с логикой, если Вы считаете, что наличие buzzwords как-то мешает вскрывать криптографию.
bits.media/news/dzhon-martinis-iz-google-kvantovye-kompyutery-ne-ugrozhayut-bitkoinu
Джон Мартинис (John Martinis) из Google не считает, что квантовые вычисления могут представлять прямую угрозу криптовалютам в ближайшем будущем. Выступая на международной конференции Crypto 2017 в Калифорнийском университете в Санта-Барбаре, он заявил, что пройдёт не менее десятилетия, пока будут реализованы квантовые вычисления, поскольку создание квантового компьютера намного сложнее, чем создание классического ПК…
криптовалютное сообщество серьезно воспринимает угрозу и намерено предотвратить её задолго до того, как квантовые вычисления станут реальностью
Работающие квантовые компьютеры обесценят биткоин. Но возможно до этого биткоину удастся перейти на квантовое шифрование. Китайцы квантовым шифрованием уже вплотную занимаются - наземная линия, спутник квантовой связи
спасибо за наводку :)
биткоин все равно бесполезен,
а вот на блокчейн много надежд возлагается

Интересно, RSA все еще используется или уже все перешли на эллептические кривые?

Используются во всю в множестве мест и программ.
Потому что им пока что ничего реально не угрожает — легко ломать шифры сможет не любой работающий квантовый компьютер, а только достаточно большой и надежный/точный = с достаточным количеством кубит и с допустимым уровнем ошибок при вычислениях.

Для криптографии самый минимум о которым имеет смысл задумываться в плане опасности взлома — КК с количеством кубит превышающим длину ключа (в битах) в используемом алгоритме.

В RSA сейчас ключи длиной минимум 1024 бит используют и вплоть до 4096 бит.
А лучшие квантовые компьютеры смогли пока осилить только работу с несколькими десятками кубит. И шли к этому результату больше 10 лет от первых рабочих образцов на несколько кубит до нескольких десятков, несмотря на усилия тысяч ученых и инженеров и вложения миллиардов долларов в разработки.
Искусственный интелект подобие нашему, значит можно сравнивать. А это значит, что когда появятся роботы, то ни одна программа не спасет от убийства человека роботом. Причина в том, что человек не должен убивать человека или даже животного, кроме собственной защиты или охоты на животных, чтоб прокормить себя, а также убивать просто нельзя, но воимя науки???? Наука это развитие. Искусственный интелект также должен развиваться. Как вы думаете, это может быть подобием терминатора?
Ну когда же уже наконец будет честный бенчмарк быстродействия на любой задаче хотя бы по сравнению со стандарным архаичным ПК IBM 286? Надоели абстрактные новости о невероятных прорывах и грандиозных перспективах. Нужно с чем-то сравнивать.
'Любая задача' плохо кладётся на квантовые вычисления, насколько я знаю. Но на специализированных прирост фантастический. Поищите информацию в сети, она там есть. Вот хотя бы:

www.dailytechinfo.org/infotech/3256-reshenie-tyazheloy-zadachi-potrebovalo-84-kubitov-kvantovogo-kompyutera-i-vsego-270-millisekund-vychislitelnogo-vremeni.html

Для доказательства того факта, что область квантовых вычислений движется вперед, ученый компании D-Wave Зэнгбинг Биэн (Zhengbing Bian) использовал один из компьютеров компании для решения очень ресурсоемкой вычислительной задачи, которая является построением двухцветного графа чисел Рамсея… Все дело в том, что решение этой задачи для компьютера является невероятно трудным с точки ресурсов и вычислительной мощности, на решение этой задачи обычному компьютеру средней мощности потребовалось бы 10^250 лет времени. Так вот… квантовому компьютеру D-Wave на это потребовалось всего 270 миллисекунд.
Sign up to leave a comment.

Articles