Как стать автором
Обновить
0

Семантика *

Веб 3.0

Сначала показывать
Порог рейтинга
Уровень сложности

Ищем «Троллей». Алгоритм шинглов & косинусное сходство

Время на прочтение14 мин
Количество просмотров4.9K

Думаю, многие в напряженных дискуссиях в интернете сталкивались с обвинением людей в том, что они боты, тролли и проплачены Кремлем, Киевом или Вашингтоном. Но как действительно выявить таковых или просто людей пытающихся активно донести своё мнение до остальных?
Читать дальше →
Всего голосов 19: ↑18 и ↓1+17
Комментарии5

Некоторые спорные размышления над работой Г. Фреге «Смысл и денотат»

Время на прочтение35 мин
Количество просмотров6.9K
Термины «значение» (meaning) и «выражать» не были введены в качестве основных терминов семиотики в связи с тем, что они настолько многозначны и используются настолько по-разному, что лучше было бы вообще не использовать их в качестве основных терминов при обсуждении семиотических проблем. Но при желании их, разумеется, можно ввести, опираясь на более фундаментальные семиотические термины. Так, можно было бы сказать, что значение знака – это его значение-сигнификация и интерпретанта одновременно, но ни одно из них в отдельности.

Моррис Ч.У. «Значение и означивание»

В этом небольшом эссе я хочу поделиться с читателем своими размышлениями, возникшими при прочтении работы Г. Фреге «Смысл и денотат» [1].


Слабонервных прошу не читать статью (да к тому же написанную 9 лет назад)!

Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии47

Анализ тональности в русскоязычных текстах, часть 1: введение

Время на прочтение13 мин
Количество просмотров16K
image
Анализ тональности стал мощным инструментом для масштабной обработки мнений, выражаемых в любых текстовых источниках. Практическое применение этого инструмента в английском языке довольно развито, чего не скажешь о русском. В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, какие результаты удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях. В отличие от предыдущих работ, я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. Первая часть — вводная. Мы рассмотрим, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. Во второй части детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.
Читать дальше →
Всего голосов 31: ↑31 и ↓0+31
Комментарии0

Довольно непонятное решение в schema.org с LocalBusiness

Время на прочтение1 мин
Количество просмотров1.6K

Описание, для чего проект schema.org можно найти здесь — https://schema.org. На хабре это редкий гость, для него даже специального хаба не было.


Я знаю, что Яндекс пытался пользоваться schema.org… Они этой частью, видимо, не пользуются.


Отношения


https://schema.org/Library, https://schema.org/ExerciseGym — оба относят себя к https://schema.org/LocalBusiness.


LocalBusiness относит себя сразу к двум объектам (именно здесь и есть особенность schema.org): https://schema.org/Organization и https://schema.org/Place


Словари


https://www.oxfordlearnersdictionaries.com/definition/english/gym?q=Gym (один смысл — место, другой — организация)
https://dictionary.cambridge.org/us/dictionary/english/gym (один смысл использует неоднозначное слово "club", другой про место)


Проверку словарями можно и завалить, но я не вижу оснований для этого...

Всего голосов 15: ↑6 и ↓9-3
Комментарии4

Истории

Деятельность, документы и семантика

Время на прочтение4 мин
Количество просмотров1.5K
На данный момент современные информационные системы моделирующие деятельность и системы документооборота, юридически обеспечивающие деятельность, разнесены по разным архитектурным уровням, взаимодействующим только по линии контроля и учета. Электронный документооборот с использованием ЭП не решает проблему разрыва между двумя этими уровнями, обеспечивая лишь скорость и защищенность обмена документами.
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Частное расследование SEO бага на сайте Монобанка

Время на прочтение8 мин
Количество просмотров4.2K

По сути это история розыска дефекта вёрстки банковского сайта, приведшего к неточному отображению его главной страницы на поиске. Подобную проблему часто встречают на сайте, собранном например в онлайновом конструкторе, или свёрстанном например верстальщиком не знакомым с азами поисковой оптимизации.

И эта история так и осталась бы интересной лишь узкому кругу практикующих сеошников, не коснись она одной недокументированной особенности индексации, о которой наверняка захотелось бы узнать и прочим специалистам по обслуживанию сайта. Приглашаю их под кат.
Читать дальше →
Всего голосов 13: ↑11 и ↓2+9
Комментарии11

Для тех, кто покупает ссылки

Время на прочтение7 мин
Количество просмотров22K
Статья не про «работают или не работаю ссылки», а для тех, кто занимается их покупкой или хочет самостоятельно начать это делать. В ней я дам некоторые рекомендации, опираясь на свой опыт по ссылочным биржам. На рассмотрение возьмем трех представителей.

Общее правило — если вы не хотите бесплатно ссылку на этом сайте — не покупайте.

1. trastik.com


Хочу более подробно написать о данной площадке, поскольку узнал о ней не так давно (ранее просто не было нужны в доп. биржах). Распишу без воды, основные плюсы, минусы и личные рекомендации.

Плюсы


1. Хорошая цена на ссылки. Если на GGL, Miralinks и PR-SAPE ценник на «нормальную» ссылку начинается от 500 р., здесь можно получить аналогичного донора за 150-200 р. Лично я приобрел за 1000 р. ссылку на домен с трафиком 1кк уникумов в месяц. Очень достойная цена. Проверьте стоимость на других сервисах — очень удивитесь :).
Читать дальше →
Всего голосов 18: ↑7 и ↓11-4
Комментарии4

Самоучитель клингонского

Время на прочтение9 мин
Количество просмотров13K

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?


Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».


Источник картинки: Собственное творчество от команды Антиплагиата


А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».


bISeH'eghlaH'be'chugh latlh Dara'laH'be'
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Семантика и деятельность

Время на прочтение3 мин
Количество просмотров3K
В тексте “Семантические цифровые системы” отмечалось, что современные семантические технологии пока не имеют полноценных инструментов для описания деятельности. Семантические данные традиционно представляются в виде объектного графа, узлами которого являются сущности или значения, а ребрами — свойства (отношения и атрибуты). Такие графы фиксируют статичное состояние предметной области. И такой одномоментно схваченный набор данных скорее следует рассматривать как граф знаний о предметной области, а не как ее модель, особенно если предметная область является деятельностью, а не набором неизменных фактов.
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии6

Семантические цифровые системы

Время на прочтение4 мин
Количество просмотров4K
В предыдущем тексте (Мифы семантической технологии) не без доли эпатажа утверждалось, что в айтишной семантике нет никакой семантики. Хотя, конечно, надо отдельно отвечать на два вопроса: (1) содержат ли данные смысл? и (2) понимает ли этот смысл компьютер? Второй вопрос оставим философам, хотя ответ на него и так очевиден. Как очевиден и ответ на первый: информационные системы для того и нужны, чтобы обрабатывать информацию, то есть осмысленные, семантически определенные данные. При этом, конечно, надо понимать, что осмысленными эти данные являются только для человека, который исходно продуцирует эти данные, пишет программу для их обработки и в конечном счете воспринимает их смысл.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии0

Мифы семантической технологии

Время на прочтение4 мин
Количество просмотров3.6K
В предыдущем тексте “Миф семантического веба” была сделана попытка обосновать мысль, что семантический веб в рамках исходно предложенных его основателями технологических решений так и останется мечтой. Хотя сами семантические инструменты от W3C не без скрипа, с доводкой напильником, но вполне успешно применяются для моделирования онтологий в энтерпрайз-проектах.

Сейчас же попробуем разобраться с мифами, которые можно услышать при обсуждении семантического подхода даже от профессионалов.
Читать дальше →
Всего голосов 20: ↑17 и ↓3+14
Комментарии28

Миф семантического веба

Время на прочтение5 мин
Количество просмотров10K
В сфере семантического моделирования сложилась довольно странная ситуация: в качестве базовых используется набор стандартов и спецификаций от W3C, заточенных под проект “семантического веба” (RDF/OWL, SPARQL и пр.), хотя сам проект не только не реализован на данный момент, но и, по всей видимости, никогда не будет воплощен вследствие сомнительности исходных гипотез.
Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии22

Что такое Emergent Communication и почему это нужно знать

Время на прочтение10 мин
Количество просмотров2.2K
TL;DR: перевод поста Михаила Нуховича What is Emergent Communication and Why You Should Care: что это такое, зачем это нужно, какие есть точки зрения на задачу и перспективные направления исследований. Обучение с подкреплением, обработка естественного языка, теория игр и философия. Публикуется с любезного разрешения автора.


Вот уже два года как меня увлекла Emergent Communication (EC), по которой я теперь пишу магистерскую диссертацию. В этом году я участвую в организации семинара, благодаря которому у меня и возник интерес к этой области: Workshop on Emergent Communication на конференции NeurIPS. Планирую написать целую серию из постов об EC для широкой аудитории, чтобы помочь всем интересующимся заглянуть в эту сферу (ну и чтобы писать диссертацию было повеселее).

Читать дальше →
Всего голосов 7: ↑6 и ↓1+5
Комментарии4

Ближайшие события

Метод нечеткой индукции и его применение для моделирования знаний и информационных систем

Время на прочтение7 мин
Количество просмотров3.1K

В настоящей статье предложен разработанный автором метод нечеткой индукции как объединение положений нечеткой математики и теории фракталов, введено понятие степени рекурсии нечеткого множества, представлено описание неполной рекурсии множества как его дробной размерности для моделирования предметной области. В качестве сферы применения предлагаемого метода и созданных на его основе моделей знаний как нечетких множеств рассмотрено управление жизненным циклом информационных систем, включая разработку сценариев использования и тестирования программного обеспечения.

Читать дальше →
Всего голосов 13: ↑9 и ↓4+5
Комментарии0

Граф знаний в Поиске: построение из нескольких источников

Время на прочтение7 мин
Количество просмотров12K


Я хочу рассказать о том, что такое граф знаний и об одном из способов его построения из нескольких тематических источников.

Большое количество запросов в поиске содержат единственную сущность — объект, про который спрашивает пользователь. Это могут быть запросы про каких-то людей, фильмы, сериалы, музыкальные или географические объекты. Когда пользователь задает такой запрос, в выдаче ему можно показать дополнительную информационную карточку в надежде, что информация в карточке будет интересна пользователю. Карточки украшают выдачу и повышают ее наглядность. С помощью информационных карточек мы даём человеку понять, что он пользуется интеллектуальным сервисом, потому что поисковая система поняла, что он имел в виду, о каком именно объекте спрашивал. Более того, эту интеллектуальность можно расширить, отвечая на запрос пользователя прямо на странице выдачи. Например, в ответ на «что посмотреть в Праге» мы можем сразу показать достопримечательности этого города.
Читать дальше →
Всего голосов 30: ↑28 и ↓2+26
Комментарии10

Null проблема в Data Science и Machine Learning

Время на прочтение3 мин
Количество просмотров5.7K

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии8

Введение в метод семантического дифференциала за 5 минут

Время на прочтение5 мин
Количество просмотров13K

Введение


Для чего может понадобиться знание методики семантического дифференциала?

  • Можем узнать наше место относительно конкурентов в подсознании потребителей. Нам может показаться, что клиенты плохо относятся к нашему товару, но что будет, если мы узнаем, что к конкурентам они относятся ещё хуже по наиболее значимым для нас критериям?
  • Можем узнать, насколько успешна наша реклама относительно реклам товаров конкурентов из той же категории (Call of Duty или Battlefield?)
  • Определим, над чем стоит поработать при позиционировании. Образ компании либо товара воспринимают как «дешевый»? Видимо, при проведении новой рекламной кампании нам предстоит либо оставаться в этом уголке сознания потребителя (и смириться с этим статусом), либо срочно менять вектор развития. Xiaomi позиционируются как более дешевые альтернативы флагманов с тем же железом (условно). У них есть четко выверенная позиция, которая выделяет их на фоне именитых конкурентов, позиционирующих себя как дорогих – Apple, Samsung, etc. Одной из главных проблем в таком случае станет то, что ассоциация (а именно на них и построен весь метод в целом) со словом «дешевый» может привлечь и ассоциацию «плохой», либо «некачественный».

    К слову, это работает и при сравнении любых других объектов в выбранной категории — вы можете сравнивать и процессоры, и телефоны, и новостные порталы! По сути, фантазия для применения этого метода не ограничена.

Как определить, по каким именно критериям мне следует сравнивать наши товары?
В принципе, ответить на этот вопрос можно по-разному – вы можете попробовать взять экспертное интервью, полуструктурированное интервью, или же выбрать метод фокус-групп. Некоторые из полученных вами категорий могут встретиться вам на просторах интернета — это не должно вас смущать. Помните, что главное в вашем исследовании — не уникальность полученных данных, а их объективность и достоверность.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

XML практически всегда применяется не по назначению

Время на прочтение6 мин
Количество просмотров52K

Язык XML был изобретен в 1996 году. Едва он успел появиться, как возможности его применения уже начали понимать неправильно, и для тех целей, к которым его пытались адаптировать, он был не лучшим выбором.

Не будет преувеличением сказать, что подавляющее большинство схем XML, которые мне доводилось видеть, представляли собой нецелесообразное или неправильное использование XML. Более того, такое применение XML свидетельствовало о фундаментальном непонимании того, чем прежде всего является XML.

XML — это язык разметки. Это не формат данных. В большинстве схем XML это разграничение явно не учитывали, путая XML с форматом данных, что в итоге означало ошибку в самом выборе XML, поскольку на самом деле нужен был именно формат данных.
Читать дальше →
Всего голосов 126: ↑98 и ↓28+70
Комментарии95

Knowledge Graph. Плюральность, темпоральность, деятельностный подход

Время на прочтение3 мин
Количество просмотров4.1K
image

Традиционно Knowledge Graphs, то есть информационные системы, поддерживающие концептуальное описание предметных областей (как самых общих, так и узко специальных) задумываются и строятся, как источники проверенной и единственно верной информации о мире. По такому принципу – как собрание исключительно правильных данных – построена и популярная народная энциклопедия Wikipedia.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии2

Семантический браузер или жизнь без сайтов

Время на прочтение6 мин
Количество просмотров10K
image

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страницы).

Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии62