Запущен прототип Абстрактной Википедии

    Ввод:
    Subclassification(Wikipedia, Encyclopedia)
    Результат:
    Английский: Wikipedias are encyclopedias.
    Немецкий: Wikipedien sind Enzyklopädien.

    Фонд Wikimedia представила новый энциклопедический проект — Абстрактную Википедию. Идея в том, что здесь пользователи вводят информацию в абстрактном виде, используя слова и сущности из Wikidata. Поскольку Wikidata представлена на разных языках, то и «абстрактный» текст становится доступным на всех языках, без необходимости в дополнительном переводе.

    Это первый новый проект фонда Wikimedia за последние семь лет.

    Wikidata (Викиданные) — это свободная совместно редактируемая база знаний обо всём на свете, доступная для чтения и редактирования как людьми, так и машинами. Хранилище проекта предоставляет данные на всех языках проектов Wikimedia и позволяет создать технологические условия для централизованного доступа к данным. База используется для обеспечения централизованного хранения данных, которые могут содержаться в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и т. п.


    Терминология утверждений в Викиданных

    Абстрактная Википедия — это фактически новый способ генерирования энциклопедического контента на нескольких языках. Авторы идеи считают, что она позволит большему числу авторов и читателей делиться большим количеством знаний на большем количестве языков.

    Проект впервые предложен в 22-страничной статье Денни Врандечича (Denny Vrandečić), основателя Wikidata, в апреле 2020 года. Он выдвинул новую идею создавать контент, используя абстрактные обозначения, которые затем могут быть переведены на различные естественные языки, более равномерно «уравновешивая» контент независимо от вашего языка.


    Пример двух предложений в Абстрактной Википедии с описанием Сан-Франциско, из статьи Денни Врандечича


    Рендер на английский язык некоторых конструкторов из предыдущего примера, из статьи Денни Врандечича


    Рендер на немецкий язык некоторых конструкторов из первого примера, из статьи Денни Врандечича

    Денни Врандечич предложил проект для ввода информации в виде абстрактной нотации, а также инструмент под названием Wikilambda с набором функций, которые могут превратить нотацию в текст на естественном языке. По его мнению, проект не требует серьёзного прорыва в современных знаниях о генерации естественного языка или представлении лексических знаний.

    Глобальная цель проекта в том, чтобы все версии Википедии, независимо от языка, приблизились по масштабу к англоязычной Википедии с точки зрения содержания.

    В официальном объявлении упоминается, что это экспериментальный проект, который является особо ценным для некоторых сообществ, в то время как участники на других языках могут принимать меньшее участие в нём.

    Теперь проект одобрен. После официального запуска волонтёры смогут переводить абстрактные «статьи» на свои языки с помощью программного инструмента. Врандечич присоединится к Фонду Wikimedia в качестве штатного сотрудника и возглавит эту инициативу.

    Прототип инструмента Wikilambda для Абстрактной Википедии опубликован на GitHub.

    См. также: «„Архив Интернета“ поставил новый рекорд трафика ресурса: 60 Гбит/с в любой момент»
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 14

      0
      Наконец, если что-то придумать и подождать 10 лет, то это кто-то сделает. Очень горячо поддерживаю это начинание. Интересно как они будут решать вопрос кросскультурности, ибо на разных языках в вики часто очень разное написано, и попытка привести статью к единому контенту на разных языках приведёт к войне правок, с которой отлично борется разное мнение (при всём стремлении вики быть без мнения) на разных языках.
        +1
        Не взлетит.
        С таким же успехом можно просто оставитить только английскую версию и переводить её машинным переводом на остальные языки.
        Почему так не делают? Не из-за низкого качества машинного языка(с этим по большей части проблем уже нет), а потому что куча народу не знает английского, но может писать статьи на своём языке.
        Здесь же предлагается освоить еще один «универсальный» язык, чтобы потом с него переводить на все остальные. Ну и остается ровно таже проблема: вместо того чтобы писать на родном языке предлагается освоить еще один язык. Далеко не все захотят это делать. То есть проблема не решается.
          +1

          Тут всё сильно зависит от критериев «взлёта». Пока многое непонятно, но если не ставить себе задачу писать сложные статьи по истории, а всего лишь сделать мультиязычные информационные страницы на любую тему (например, такую), элемент для которой сейчас есть в Викиданных, то она вполне решаема и уже решена для отдельных разделов Википедии. И тогда осваивать язык придётся нескольким десяткам человек, которые будут поддерживать структуру статей, а остальным будет достаточно использовать уже готовые наработки по темам.


          Сейчас проблемы с созданием таких статей в том, что во-первых, для обычной Википедии на текущем уровне это довольно невысокое качество (а для нового раздела такой планки качества не будет), а во-вторых, в том, что подобные наработки разобщены по разным проектам. В общем, Абстрактная Википедия продолжает уже существующие тенденции, и что-то интересное из неё вполне может получиться. Даже если она не сложится как отдельный проект, что вполне может когда-нибудь снова стать частью языковых проектов. Время покажет.

          0
          Было бы очень неплохо и даже прекрасно, если бы нечто подобное создавалось и для научных статей. Википедия, конечно, хорошо, но это такая информационная «попса». А структурировать, в первую-то очередь, нужно научные знания.
            0
            Пару лет назад я тоже хотел создать подобный проект на базе wiki, но пришёл к выводу, что он обречён на провал, поскольку заниматься формализацией утверждений в ручном режиме — дело очень трудоёмкое и неэффективное. В одиночку его невозможно поднять, а найти единомышленников тоже вряд ли удастся. Этот процесс нужно автоматизировать — например, обучить нейросеть, которая бы преобразовывала человеческий текст в структурированные данные.

            И, надо сказать, что та модель структуризации, которая используется на Викиданных — не самый лучший вариант. Она сводится к тому, чтоб указать для каждой сущности множество утверждений вида «свойство»-«значение», где в качестве свойства может выступать очень ограниченное число сущностей (например, таких, как «подкласс от», «часть от», «дата основания/создания/возникновения» и т.п.). Соответственно, всё, что можно получить при использовании этой модели — это ограниченный набор фактов о некотором предмете.
            А в человеческом языке число подобных сущностей-«свойств» практически безгранично. Поэтому формализация человеческих утверждений в язык Викиданных неизбежно приводит к потере информации.
              0

              Сейчас свойств ~7700. Ну ок, из них ~5200 — идентификаторы, но остаётся 1500 свойств для описания непосредственно информации. Понятно, что ещё есть, куда увеличивать их количество, но есть ощущение, что несколько тысяч хватит вообще для всего. Вот конкретно вам каких свойств не хватает сейчас?

                0
                Не думаю, что для всего. Вот как, например, можно перевести на язык Викиданных следующее утверждение:
                «Неопределённый интеграл функции на некотором интервале есть множество всех первообразных функций данной функции на этом интервале»?
                  0

                  Математические сущности обычно описываются формулами. В крайнем случае всегда можно попробовать описать через моноязычное (текстовое) поле, но тут возникает проблема, то придётся делать это описание на ~300 языках

                  0
                  Да и, кстати, просто описать форму объекта, отличную от простой геометрической фигуры, тоже задача ещё та.
                  «У рыбы-молот голова в виде молота» — тут надо или вводить свойство «форма головы» (а свойств и так уже столько, что запутаться в них легче, чем найти нужное), или же что-то придумывать с квалификаторами, например, «состоит из»-«голова»-«имеет форму»-«молот». Если же речь идёт о более сложной форме, то тут не обойтись без квалификаторов для квалификаторов (которых сейчас нет) — вот как, например, сказать, что «спина ежа покрыта полыми внутри иглами длиной не более 3 см, их количество составляет около 5000»?
                  И при этом невозможно указать соотношение между отдельными частями, их взаимное расположение и т.п.

                  Или вот, например, как сейчас на Викиданных описана окраска зебры? Просто указано «цвет»-«белый» и «цвет»-«чёрный». Но это не говорит о том, что окраска полосатая, а не, например, пятнистая. И с тем же успехом это может означать и то, что одни особи могут иметь белую, а другие — чёрную окраску, или что их цвет меняется по мере взросления, или в зависимости от сезона. И, опять же, чтобы описать все эти детали, потребуется много специальных свойств.
                  А в человеческом языке их описание не представляет никаких проблем.

                  В общем, на мой взгляд, это тупиковый путь.
                    0
                    1. имеет форму = молот (относится к = голова)
                    2. спина ежа покрыта полыми внутри иглами длиной не более 3 см, их количество составляет около 5000
                      Тут даже интересно, а с какой целью вы пытаетесь это описать именно так? Машиночитаемые данные интересны, когда их можно с чем-то сравнить, а не когда это пятиэтажная конструкция, которая возникла исключительно из текстового описания. Тут это могло бы выглядеть примерно так (точность с потолка):
                      покрытие = полые иглы (длина = 2,5±0,5 см; число = 5000±500; относится к = спина)
                      И при такой конструкции можно уже и разные иглы описать, и шерсть, и сравнить разные объекты.
                    3. Да, тут можно попробовать добавить новое свойство. Но человеческий язык тут тоже начинает давать сбой, например, когда мы пытаемся описать окрас леопарда и гепарда так, чтобы они различались
                      0
                      имеет форму = молот (относится к = голова)
                      состоит из = голова (имеет форму = молот)
                      Одно утверждение, и два совершенно разных способа его формализации. Вот, кстати, и ещё один недостаток модели: разные пользователи будут описывать схожие утверждения по-своему, с использованием разных, но подходящих по смыслу, свойств. А это затрудняет автоматический анализ и сравнение данных.

                      Тут даже интересно, а с какой целью вы пытаетесь это описать именно так? Машиночитаемые данные интересны, когда их можно с чем-то сравнить, а не когда это пятиэтажная конструкция, которая возникла исключительно из текстового описания.
                      Так ведь этот новый проект, вроде бы, позиционируется как, своего рода, аналог ВП. Статья в ВП может содержать исчерпывающие описание предмета, тогда как в новом проекте оно ограничено наличием соответствующих свойств. Эти примеры призваны проиллюстрировать потерю информации при описании предмета, и повышение сложности в результате попыток эту потерю преодолеть.

                      покрытие = полые иглы (длина = 2,5±0,5 см; число = 5000±500; относится к = спина)
                      Для этого прийдётся создавать новую сущность — «полые иглы», а это как раз пример непропорционального роста сложности…
                        0
                        Приблизительно так же пытаются произвести формализацию объектов карты в OpenStreenMap. Возникают многочисленные разночтения и схемы именований. В общем случае решается это долго и трудно.
                0
                -
                  0

                  Очень похоже на то, чем лет 10 назад Abbyy занималось.

                  Only users with full accounts can post comments. Log in, please.