Как стать автором
Обновить

Комментарии 14

Наконец, если что-то придумать и подождать 10 лет, то это кто-то сделает. Очень горячо поддерживаю это начинание. Интересно как они будут решать вопрос кросскультурности, ибо на разных языках в вики часто очень разное написано, и попытка привести статью к единому контенту на разных языках приведёт к войне правок, с которой отлично борется разное мнение (при всём стремлении вики быть без мнения) на разных языках.
Не взлетит.
С таким же успехом можно просто оставитить только английскую версию и переводить её машинным переводом на остальные языки.
Почему так не делают? Не из-за низкого качества машинного языка(с этим по большей части проблем уже нет), а потому что куча народу не знает английского, но может писать статьи на своём языке.
Здесь же предлагается освоить еще один «универсальный» язык, чтобы потом с него переводить на все остальные. Ну и остается ровно таже проблема: вместо того чтобы писать на родном языке предлагается освоить еще один язык. Далеко не все захотят это делать. То есть проблема не решается.

Тут всё сильно зависит от критериев «взлёта». Пока многое непонятно, но если не ставить себе задачу писать сложные статьи по истории, а всего лишь сделать мультиязычные информационные страницы на любую тему (например, такую), элемент для которой сейчас есть в Викиданных, то она вполне решаема и уже решена для отдельных разделов Википедии. И тогда осваивать язык придётся нескольким десяткам человек, которые будут поддерживать структуру статей, а остальным будет достаточно использовать уже готовые наработки по темам.


Сейчас проблемы с созданием таких статей в том, что во-первых, для обычной Википедии на текущем уровне это довольно невысокое качество (а для нового раздела такой планки качества не будет), а во-вторых, в том, что подобные наработки разобщены по разным проектам. В общем, Абстрактная Википедия продолжает уже существующие тенденции, и что-то интересное из неё вполне может получиться. Даже если она не сложится как отдельный проект, что вполне может когда-нибудь снова стать частью языковых проектов. Время покажет.

Было бы очень неплохо и даже прекрасно, если бы нечто подобное создавалось и для научных статей. Википедия, конечно, хорошо, но это такая информационная «попса». А структурировать, в первую-то очередь, нужно научные знания.
Пару лет назад я тоже хотел создать подобный проект на базе wiki, но пришёл к выводу, что он обречён на провал, поскольку заниматься формализацией утверждений в ручном режиме — дело очень трудоёмкое и неэффективное. В одиночку его невозможно поднять, а найти единомышленников тоже вряд ли удастся. Этот процесс нужно автоматизировать — например, обучить нейросеть, которая бы преобразовывала человеческий текст в структурированные данные.

И, надо сказать, что та модель структуризации, которая используется на Викиданных — не самый лучший вариант. Она сводится к тому, чтоб указать для каждой сущности множество утверждений вида «свойство»-«значение», где в качестве свойства может выступать очень ограниченное число сущностей (например, таких, как «подкласс от», «часть от», «дата основания/создания/возникновения» и т.п.). Соответственно, всё, что можно получить при использовании этой модели — это ограниченный набор фактов о некотором предмете.
А в человеческом языке число подобных сущностей-«свойств» практически безгранично. Поэтому формализация человеческих утверждений в язык Викиданных неизбежно приводит к потере информации.

Сейчас свойств ~7700. Ну ок, из них ~5200 — идентификаторы, но остаётся 1500 свойств для описания непосредственно информации. Понятно, что ещё есть, куда увеличивать их количество, но есть ощущение, что несколько тысяч хватит вообще для всего. Вот конкретно вам каких свойств не хватает сейчас?

Не думаю, что для всего. Вот как, например, можно перевести на язык Викиданных следующее утверждение:
«Неопределённый интеграл функции на некотором интервале есть множество всех первообразных функций данной функции на этом интервале»?

Математические сущности обычно описываются формулами. В крайнем случае всегда можно попробовать описать через моноязычное (текстовое) поле, но тут возникает проблема, то придётся делать это описание на ~300 языках

Да и, кстати, просто описать форму объекта, отличную от простой геометрической фигуры, тоже задача ещё та.
«У рыбы-молот голова в виде молота» — тут надо или вводить свойство «форма головы» (а свойств и так уже столько, что запутаться в них легче, чем найти нужное), или же что-то придумывать с квалификаторами, например, «состоит из»-«голова»-«имеет форму»-«молот». Если же речь идёт о более сложной форме, то тут не обойтись без квалификаторов для квалификаторов (которых сейчас нет) — вот как, например, сказать, что «спина ежа покрыта полыми внутри иглами длиной не более 3 см, их количество составляет около 5000»?
И при этом невозможно указать соотношение между отдельными частями, их взаимное расположение и т.п.

Или вот, например, как сейчас на Викиданных описана окраска зебры? Просто указано «цвет»-«белый» и «цвет»-«чёрный». Но это не говорит о том, что окраска полосатая, а не, например, пятнистая. И с тем же успехом это может означать и то, что одни особи могут иметь белую, а другие — чёрную окраску, или что их цвет меняется по мере взросления, или в зависимости от сезона. И, опять же, чтобы описать все эти детали, потребуется много специальных свойств.
А в человеческом языке их описание не представляет никаких проблем.

В общем, на мой взгляд, это тупиковый путь.
  1. имеет форму = молот (относится к = голова)
  2. спина ежа покрыта полыми внутри иглами длиной не более 3 см, их количество составляет около 5000
    Тут даже интересно, а с какой целью вы пытаетесь это описать именно так? Машиночитаемые данные интересны, когда их можно с чем-то сравнить, а не когда это пятиэтажная конструкция, которая возникла исключительно из текстового описания. Тут это могло бы выглядеть примерно так (точность с потолка):
    покрытие = полые иглы (длина = 2,5±0,5 см; число = 5000±500; относится к = спина)
    И при такой конструкции можно уже и разные иглы описать, и шерсть, и сравнить разные объекты.
  3. Да, тут можно попробовать добавить новое свойство. Но человеческий язык тут тоже начинает давать сбой, например, когда мы пытаемся описать окрас леопарда и гепарда так, чтобы они различались
имеет форму = молот (относится к = голова)
состоит из = голова (имеет форму = молот)
Одно утверждение, и два совершенно разных способа его формализации. Вот, кстати, и ещё один недостаток модели: разные пользователи будут описывать схожие утверждения по-своему, с использованием разных, но подходящих по смыслу, свойств. А это затрудняет автоматический анализ и сравнение данных.

Тут даже интересно, а с какой целью вы пытаетесь это описать именно так? Машиночитаемые данные интересны, когда их можно с чем-то сравнить, а не когда это пятиэтажная конструкция, которая возникла исключительно из текстового описания.
Так ведь этот новый проект, вроде бы, позиционируется как, своего рода, аналог ВП. Статья в ВП может содержать исчерпывающие описание предмета, тогда как в новом проекте оно ограничено наличием соответствующих свойств. Эти примеры призваны проиллюстрировать потерю информации при описании предмета, и повышение сложности в результате попыток эту потерю преодолеть.

покрытие = полые иглы (длина = 2,5±0,5 см; число = 5000±500; относится к = спина)
Для этого прийдётся создавать новую сущность — «полые иглы», а это как раз пример непропорционального роста сложности…
Приблизительно так же пытаются произвести формализацию объектов карты в OpenStreenMap. Возникают многочисленные разночтения и схемы именований. В общем случае решается это долго и трудно.

Очень похоже на то, чем лет 10 назад Abbyy занималось.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории