
Семантические сети *
Веб 3.0
Что такое Emergent Communication и почему это нужно знать
TL;DR: перевод поста Михаила Нуховича What is Emergent Communication and Why You Should Care: что это такое, зачем это нужно, какие есть точки зрения на задачу и перспективные направления исследований. Обучение с подкреплением, обработка естественного языка, теория игр и философия. Публикуется с любезного разрешения автора.

Вот уже два года как меня увлекла Emergent Communication (EC), по которой я теперь пишу магистерскую диссертацию. В этом году я участвую в организации семинара, благодаря которому у меня и возник интерес к этой области: Workshop on Emergent Communication на конференции NeurIPS. Планирую написать целую серию из постов об EC для широкой аудитории, чтобы помочь всем интересующимся заглянуть в эту сферу (ну и чтобы писать диссертацию было повеселее).
Метод нечеткой индукции и его применение для моделирования знаний и информационных систем
В настоящей статье предложен разработанный автором метод нечеткой индукции как объединение положений нечеткой математики и теории фракталов, введено понятие степени рекурсии нечеткого множества, представлено описание неполной рекурсии множества как его дробной размерности для моделирования предметной области. В качестве сферы применения предлагаемого метода и созданных на его основе моделей знаний как нечетких множеств рассмотрено управление жизненным циклом информационных систем, включая разработку сценариев использования и тестирования программного обеспечения.
Граф знаний в Поиске: построение из нескольких источников

Я хочу рассказать о том, что такое граф знаний и об одном из способов его построения из нескольких тематических источников.
Большое количество запросов в поиске содержат единственную сущность — объект, про который спрашивает пользователь. Это могут быть запросы про каких-то людей, фильмы, сериалы, музыкальные или географические объекты. Когда пользователь задает такой запрос, в выдаче ему можно показать дополнительную информационную карточку в надежде, что информация в карточке будет интересна пользователю. Карточки украшают выдачу и повышают ее наглядность. С помощью информационных карточек мы даём человеку понять, что он пользуется интеллектуальным сервисом, потому что поисковая система поняла, что он имел в виду, о каком именно объекте спрашивал. Более того, эту интеллектуальность можно расширить, отвечая на запрос пользователя прямо на странице выдачи. Например, в ответ на «что посмотреть в Праге» мы можем сразу показать достопримечательности этого города.
Null проблема в Data Science и Machine Learning
Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.
Введение в метод семантического дифференциала за 5 минут
Введение
Для чего может понадобиться знание методики семантического дифференциала?
- Можем узнать наше место относительно конкурентов в подсознании потребителей. Нам может показаться, что клиенты плохо относятся к нашему товару, но что будет, если мы узнаем, что к конкурентам они относятся ещё хуже по наиболее значимым для нас критериям?
- Можем узнать, насколько успешна наша реклама относительно реклам товаров конкурентов из той же категории (Call of Duty или Battlefield?)
- Определим, над чем стоит поработать при позиционировании. Образ компании либо товара воспринимают как «дешевый»? Видимо, при проведении новой рекламной кампании нам предстоит либо оставаться в этом уголке сознания потребителя (и смириться с этим статусом), либо срочно менять вектор развития. Xiaomi позиционируются как более дешевые альтернативы флагманов с тем же железом (условно). У них есть четко выверенная позиция, которая выделяет их на фоне именитых конкурентов, позиционирующих себя как дорогих – Apple, Samsung, etc. Одной из главных проблем в таком случае станет то, что ассоциация (а именно на них и построен весь метод в целом) со словом «дешевый» может привлечь и ассоциацию «плохой», либо «некачественный».
К слову, это работает и при сравнении любых других объектов в выбранной категории — вы можете сравнивать и процессоры, и телефоны, и новостные порталы! По сути, фантазия для применения этого метода не ограничена.
Как определить, по каким именно критериям мне следует сравнивать наши товары?
В принципе, ответить на этот вопрос можно по-разному – вы можете попробовать взять экспертное интервью, полуструктурированное интервью, или же выбрать метод фокус-групп. Некоторые из полученных вами категорий могут встретиться вам на просторах интернета — это не должно вас смущать. Помните, что главное в вашем исследовании — не уникальность полученных данных, а их объективность и достоверность.
XML практически всегда применяется не по назначению

Язык XML был изобретен в 1996 году. Едва он успел появиться, как возможности его применения уже начали понимать неправильно, и для тех целей, к которым его пытались адаптировать, он был не лучшим выбором.
Не будет преувеличением сказать, что подавляющее большинство схем XML, которые мне доводилось видеть, представляли собой нецелесообразное или неправильное использование XML. Более того, такое применение XML свидетельствовало о фундаментальном непонимании того, чем прежде всего является XML.
XML — это язык разметки. Это не формат данных. В большинстве схем XML это разграничение явно не учитывали, путая XML с форматом данных, что в итоге означало ошибку в самом выборе XML, поскольку на самом деле нужен был именно формат данных.
Knowledge Graph. Плюральность, темпоральность, деятельностный подход

Традиционно Knowledge Graphs, то есть информационные системы, поддерживающие концептуальное описание предметных областей (как самых общих, так и узко специальных) задумываются и строятся, как источники проверенной и единственно верной информации о мире. По такому принципу – как собрание исключительно правильных данных – построена и популярная народная энциклопедия Wikipedia.
Семантический браузер или жизнь без сайтов

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страницы).
Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?
Модель натурального ряда чисел и отдельного числа. Контуры

В комментариях к опубликованным ранее работам автора было высказано много замечаний и пожеланий. Я благодарю всех читателей — хабровчан и прочих за внимание к работам и тем более за комментарии. Многих читателей не устраивал стиль изложения, подача материала, нечеткость определений и др. Главное, что автор желал бы поправить — это обеспечить доступность понимания идей публикаций, математического инструментария и техники его применения. Работа в интересующем автора направлении — дело и для него новое, но чем дальше «в лес», тем больше и непонятного, и сложного, и, конечно, интересного.
WEB 3.0 — второй подход к снаряду

Сначала немного истории.
Web 1.0 — это сеть для доступа к контенту, который размещали на сайтах их владельцы. Статичные html-страницы, доступ к информации только для чтения, основная радость — гиперссылки, ведущие на страницы этого и других сайтов. Типичный формат сайта — информационный ресурс. Эпоха переноса в сеть offline-контента: оцифровка книг, сканирование картинок (цифровые фотоаппараты были еще редкостью).
Применение сиамских нейросетей в поиске

Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.
Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных

Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.

Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.
Ближайшие события
Semantic Web и Linked Data. Исправления и дополнения
Хочу представить публике фрагмент вот этой недавно вышедшей книги:
Онтологическое моделирование предприятий: методы и технологии [Текст]: монография / [С. В. Горшков, С. С. Кралин и др.; отв. ред. С. В. Горшков]. — Екатеринбург: Изд-во Уральского ун-та, 2019. — 234 с.: ил., табл.; 20 см. — Авт. указаны на обороте тит. с. — Библиогр. в конце гл. — ISBN 978-5-7996-2580-1: 200 экз.
Цель выкладки этого фрагмента на Хабре троякая:
- Собрать вопросы и замечания, чтобы учесть их при включении этого текста в переработанном виде в другие издания.
- Внести дополнения, не очень совместимые с форматом печатной монографии: злободневные примечания (ниже они под спойлерами) и гиперссылки; а также внести исправления (ниже они никак не выделены).
- Многие адепты Semantic Web и Linked Data до сих пор считают, что их круг столь узок в основном потому, что широкой публике все еще по-хорошему не объяснили, что же это такое — Semantic Web и Linked Data. Автор фрагмента, хоть к этому кругу и принадлежит, такого мнения не придерживается, но, тем не менее, считает себя обязанным сделать еще одну попытку.
Автоматизации бизнес процессов компании в Trello с использованием технологии семантического моделирования
К сожалению, не все так прекрасно в Trello. На нем нельзя сделать кастомный workflow. То есть нам нужно занять одного сотрудника, который будет в различных досках перетаскивать карточки руками. Как же сделать так, чтобы этого сотрудника можно было перевести на другую, более интересную и творческую работу?
Конечно, скажете вы, можно написать скрипт, который будет делать все это за нас. Но тут возникает проблема. Скрипт может написать только программист или человек, который понимает, как это делать. Поддерживать скрипт придется ему же. Мы нашли более простое и логичное решение — это семантическое моделирование.
Семантическое моделирование позволяет всю логику работы доски в Trello записать на естественном языке.
Что сейчас происходит с RDF-хранилищами?
Semantic Web и Linked Data подобны ближнему космосу: жизни там нет. Чтобы отправиться туда на более-менее длительный срок… ну, не знаю, что говорили вам в детстве в ответ на «хочу стать космонавтом». Но понаблюдать за происходящим можно и находясь на Земле; стать астрономом-любителем или даже профессионалом гораздо проще.
В статье речь пойдет о свежих, не старее нескольких месяцев, трендах из мира RDF-хранилищ. Метафора в первом абзаце была навеяна вот этой эпических размеров рекламной картинкой.
Так сложно найти, легко пропустить и невозможно оформить
Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где не любят зачёркнутый текст.
Источник изображения:Fandom.com
Зависимые типы — будущее языков программирования
Несмотря на диковинность и некоторую отвлеченность рассматриваемой сегодня темы — надеемся, что она сможет разнообразить вам выходные. В конце поста помещаем три ссылки от автора, позволяющие познакомиться с зависимой типизацией в Idris, F* и JavaScript
Компьютеры пишут прозу, но все еще уступают людям. Почему?

Два года назад в японском литературном конкурсе чуть не выиграла повесть, написанная искусственным интеллектом. Она называется «День, когда компьютер написал роман». Пусть это и звучит как дурацкое воплощение анекдота «лучший способ заработать миллион — написать книгу, как заработать миллион», повесть прошла в финал, обойдя примерно полторы тысячи текстов, написанных людьми. Но прорыва не случилось. Художественные тексты по-прежнему пишут люди, нехудожественные — в основном тоже.
Пару месяцев назад компания Meanotek попробовала сделать ИИ-помощника для писательства и написать рассказ с ним в соавторстве. Спойлер — успеха он не добился. Создатели проекта рассказали нам, в чем была идея и как она воплощена. А мы попытались разобраться, почему из машин поэты выходят лучше, чем прозаики.
Так устроен поиск заимствований в Антиплагиате
- как быстро найти абзац текста среди сотен миллионов статей;
- во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
- как формируется отчет, который почти никто не смотрит, а стоило бы;
- как проиндексировать не все, но достаточно.

Вклад авторов
ganqqwerty 255.0deliya 247.0cointegrated 236.0alizar 218.2Durham 207.0ValeriaKhokha 204.0maxstroy 175.0Milfgard 153.0Klaus 144.0boldachev 138.0