Как стать автором

Семантика *

Веб 3.0

Статьи Посты Новости Авторы Компании

AlexandrTomin 25 сен 2020 в 17:55

Ищем «Троллей». Алгоритм шинглов & косинусное сходство

14 мин

4.9K

Python*Семантика*

Из песочницы

Думаю, многие в напряженных дискуссиях в интернете сталкивались с обвинением людей в том, что они боты, тролли и проплачены Кремлем, Киевом или Вашингтоном. Но как действительно выявить таковых или просто людей пытающихся активно донести своё мнение до остальных?

Читать дальше →

+17

kapas19 28 авг 2020 в 18:11

Некоторые спорные размышления над работой Г. Фреге «Смысл и денотат»

35 мин

6.9K

Семантика*Искусственный интеллект

Термины «значение» (meaning) и «выражать» не были введены в качестве основных терминов семиотики в связи с тем, что они настолько многозначны и используются настолько по-разному, что лучше было бы вообще не использовать их в качестве основных терминов при обсуждении семиотических проблем. Но при желании их, разумеется, можно ввести, опираясь на более фундаментальные семиотические термины. Так, можно было бы сказать, что значение знака – это его значение-сигнификация и интерпретанта одновременно, но ни одно из них в отдельности.

Моррис Ч.У. «Значение и означивание»

В этом небольшом эссе я хочу поделиться с читателем своими размышлениями, возникшими при прочтении работы Г. Фреге «Смысл и денотат» [1].

Слабонервных прошу не читать статью (да к тому же написанную 9 лет назад)!

Читать дальше →

+2

sismetanin 27 авг 2020 в 17:51

Анализ тональности в русскоязычных текстах, часть 1: введение

13 мин

16K

Блог компании VKСемантика*Big Data*Машинное обучение*Социальные сети и сообщества

Анализ тональности стал мощным инструментом для масштабной обработки мнений, выражаемых в любых текстовых источниках. Практическое применение этого инструмента в английском языке довольно развито, чего не скажешь о русском. В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, какие результаты удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях. В отличие от предыдущих работ, я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. Первая часть — вводная. Мы рассмотрим, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. Во второй части детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.

Читать дальше →

+31

d1gital_love 17 июл 2020 в 18:10

Довольно непонятное решение в schema.org с LocalBusiness

1 мин

1.6K

Микроформаты*Семантика*

Описание, для чего проект schema.org можно найти здесь — https://schema.org. На хабре это редкий гость, для него даже специального хаба не было.

Я знаю, что Яндекс пытался пользоваться schema.org… Они этой частью, видимо, не пользуются.

Отношения

https://schema.org/Library, https://schema.org/ExerciseGym — оба относят себя к https://schema.org/LocalBusiness.

LocalBusiness относит себя сразу к двум объектам (именно здесь и есть особенность schema.org): https://schema.org/Organization и https://schema.org/Place

Словари

https://www.oxfordlearnersdictionaries.com/definition/english/gym?q=Gym (один смысл — место, другой — организация)
https://dictionary.cambridge.org/us/dictionary/english/gym (один смысл использует неоднозначное слово "club", другой про место)

Проверку словарями можно и завалить, но я не вижу оснований для этого...

-3

boldachev 7 июл 2020 в 15:17

Деятельность, документы и семантика

4 мин

1.5K

Криптография*Семантика*Бизнес-модели*

На данный момент современные информационные системы моделирующие деятельность и системы документооборота, юридически обеспечивающие деятельность, разнесены по разным архитектурным уровням, взаимодействующим только по линии контроля и учета. Электронный документооборот с использованием ЭП не решает проблему разрыва между двумя этими уровнями, обеспечивая лишь скорость и защищенность обмена документами.

Читать дальше →

+1

bugs_eliminator 29 июн 2020 в 12:41

Частное расследование SEO бага на сайте Монобанка

8 мин

4.2K

Веб-разработка*Семантика*HTML*Поисковая оптимизация*

Из песочницы

По сути это история розыска дефекта вёрстки банковского сайта, приведшего к неточному отображению его главной страницы на поиске. Подобную проблему часто встречают на сайте, собранном например в онлайновом конструкторе, или свёрстанном например верстальщиком не знакомым с азами поисковой оптимизации.

И эта история так и осталась бы интересной лишь узкому кругу практикующих сеошников, не коснись она одной недокументированной особенности индексации, о которой наверняка захотелось бы узнать и прочим специалистам по обслуживанию сайта. Приглашаю их под кат.

Читать дальше →

+9

TopTop10 23 июн 2020 в 22:01

Для тех, кто покупает ссылки

7 мин

22K

Семантика*Поисковая оптимизация*

Recovery Mode

Статья не про «работают или не работаю ссылки», а для тех, кто занимается их покупкой или хочет самостоятельно начать это делать. В ней я дам некоторые рекомендации, опираясь на свой опыт по ссылочным биржам. На рассмотрение возьмем трех представителей.

Общее правило — если вы не хотите бесплатно ссылку на этом сайте — не покупайте.

1. trastik.com

Хочу более подробно написать о данной площадке, поскольку узнал о ней не так давно (ранее просто не было нужны в доп. биржах). Распишу без воды, основные плюсы, минусы и личные рекомендации.

Плюсы

1. Хорошая цена на ссылки. Если на GGL, Miralinks и PR-SAPE ценник на «нормальную» ссылку начинается от 500 р., здесь можно получить аналогичного донора за 150-200 р. Лично я приобрел за 1000 р. ссылку на домен с трафиком 1кк уникумов в месяц. Очень достойная цена. Проверьте стоимость на других сервисах — очень удивитесь :).

Читать дальше →

-4

Kamil_Safin 23 июн 2020 в 13:05

Самоучитель клингонского

9 мин

13K

Блог компании «Антиплагиат»Семантика*Математика*Машинное обучение*Natural Language Processing*

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

bISeH'eghlaH'be'chugh latlh Dara'laH'be'

+12

boldachev 22 мая 2020 в 22:32

Семантика и деятельность

3 мин

3K

Семантика*

В тексте “Семантические цифровые системы” отмечалось, что современные семантические технологии пока не имеют полноценных инструментов для описания деятельности. Семантические данные традиционно представляются в виде объектного графа, узлами которого являются сущности или значения, а ребрами — свойства (отношения и атрибуты). Такие графы фиксируют статичное состояние предметной области. И такой одномоментно схваченный набор данных скорее следует рассматривать как граф знаний о предметной области, а не как ее модель, особенно если предметная область является деятельностью, а не набором неизменных фактов.

Читать дальше →

+9

boldachev 22 мая 2020 в 22:30

Семантические цифровые системы

4 мин

4K

Семантика*Исследования и прогнозы в IT*

В предыдущем тексте (Мифы семантической технологии) не без доли эпатажа утверждалось, что в айтишной семантике нет никакой семантики. Хотя, конечно, надо отдельно отвечать на два вопроса: (1) содержат ли данные смысл? и (2) понимает ли этот смысл компьютер? Второй вопрос оставим философам, хотя ответ на него и так очевиден. Как очевиден и ответ на первый: информационные системы для того и нужны, чтобы обрабатывать информацию, то есть осмысленные, семантически определенные данные. При этом, конечно, надо понимать, что осмысленными эти данные являются только для человека, который исходно продуцирует эти данные, пишет программу для их обработки и в конечном счете воспринимает их смысл.

Читать дальше →

+5

boldachev 19 мая 2020 в 20:12

Мифы семантической технологии

4 мин

3.6K

Семантика*

В предыдущем тексте “Миф семантического веба” была сделана попытка обосновать мысль, что семантический веб в рамках исходно предложенных его основателями технологических решений так и останется мечтой. Хотя сами семантические инструменты от W3C не без скрипа, с доводкой напильником, но вполне успешно применяются для моделирования онтологий в энтерпрайз-проектах.

Сейчас же попробуем разобраться с мифами, которые можно услышать при обсуждении семантического подхода даже от профессионалов.

Читать дальше →

+14

boldachev 18 мая 2020 в 21:29

Миф семантического веба

5 мин

10K

Семантика*Исследования и прогнозы в IT*

В сфере семантического моделирования сложилась довольно странная ситуация: в качестве базовых используется набор стандартов и спецификаций от W3C, заточенных под проект “семантического веба” (RDF/OWL, SPARQL и пр.), хотя сам проект не только не реализован на данный момент, но и, по всей видимости, никогда не будет воплощен вследствие сомнительности исходных гипотез.

Читать дальше →

+21

alexeyev 12 апр 2020 в 13:46

Что такое Emergent Communication и почему это нужно знать

10 мин

2.2K

Семантика*Машинное обучение*Искусственный интеллектNatural Language Processing*

Перевод

TL;DR: перевод поста Михаила Нуховича What is Emergent Communication and Why You Should Care: что это такое, зачем это нужно, какие есть точки зрения на задачу и перспективные направления исследований. Обучение с подкреплением, обработка естественного языка, теория игр и философия. Публикуется с любезного разрешения автора.

Вот уже два года как меня увлекла Emergent Communication (EC), по которой я теперь пишу магистерскую диссертацию. В этом году я участвую в организации семинара, благодаря которому у меня и возник интерес к этой области: Workshop on Emergent Communication на конференции NeurIPS. Планирую написать целую серию из постов об EC для широкой аудитории, чтобы помочь всем интересующимся заглянуть в эту сферу (ну и чтобы писать диссертацию было повеселее).

Читать дальше →

+5

dimakochergov 29 фев 2020 в 22:04

Метод нечеткой индукции и его применение для моделирования знаний и информационных систем

7 мин

3.1K

Тестирование IT-систем*Семантика*Математика*Сжатие данных*

Из песочницы

В настоящей статье предложен разработанный автором метод нечеткой индукции как объединение положений нечеткой математики и теории фракталов, введено понятие степени рекурсии нечеткого множества, представлено описание неполной рекурсии множества как его дробной размерности для моделирования предметной области. В качестве сферы применения предлагаемого метода и созданных на его основе моделей знаний как нечетких множеств рассмотрено управление жизненным циклом информационных систем, включая разработку сценариев использования и тестирования программного обеспечения.

Читать дальше →

+5

ilvokhin 27 фев 2020 в 15:16

Граф знаний в Поиске: построение из нескольких источников

7 мин

12K

Блог компании VKПоисковые технологии*Семантика*Алгоритмы*

Я хочу рассказать о том, что такое граф знаний и об одном из способов его построения из нескольких тематических источников.

Большое количество запросов в поиске содержат единственную сущность — объект, про который спрашивает пользователь. Это могут быть запросы про каких-то людей, фильмы, сериалы, музыкальные или географические объекты. Когда пользователь задает такой запрос, в выдаче ему можно показать дополнительную информационную карточку в надежде, что информация в карточке будет интересна пользователю. Карточки украшают выдачу и повышают ее наглядность. С помощью информационных карточек мы даём человеку понять, что он пользуется интеллектуальным сервисом, потому что поисковая система поняла, что он имел в виду, о каком именно объекте спрашивал. Более того, эту интеллектуальность можно расширить, отвечая на запрос пользователя прямо на странице выдачи. Например, в ответ на «что посмотреть в Праге» мы можем сразу показать достопримечательности этого города.

Читать дальше →

+26

Leo_Gan 17 фев 2020 в 05:40

Null проблема в Data Science и Machine Learning

3 мин

5.7K

Семантика*Алгоритмы*Машинное обучение*Natural Language Processing*Data Engineering*

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать дальше →

+9

Yahor4 13 янв 2020 в 15:55

Введение в метод семантического дифференциала за 5 минут

5 мин

13K

Семантика*Исследования и прогнозы в IT*Управление продуктом*Инфографика

Из песочницы

Введение

Для чего может понадобиться знание методики семантического дифференциала?

Можем узнать наше место относительно конкурентов в подсознании потребителей. Нам может показаться, что клиенты плохо относятся к нашему товару, но что будет, если мы узнаем, что к конкурентам они относятся ещё хуже по наиболее значимым для нас критериям?
Можем узнать, насколько успешна наша реклама относительно реклам товаров конкурентов из той же категории (Call of Duty или Battlefield?)
Определим, над чем стоит поработать при позиционировании. Образ компании либо товара воспринимают как «дешевый»? Видимо, при проведении новой рекламной кампании нам предстоит либо оставаться в этом уголке сознания потребителя (и смириться с этим статусом), либо срочно менять вектор развития. Xiaomi позиционируются как более дешевые альтернативы флагманов с тем же железом (условно). У них есть четко выверенная позиция, которая выделяет их на фоне именитых конкурентов, позиционирующих себя как дорогих – Apple, Samsung, etc. Одной из главных проблем в таком случае станет то, что ассоциация (а именно на них и построен весь метод в целом) со словом «дешевый» может привлечь и ассоциацию «плохой», либо «некачественный».

К слову, это работает и при сравнении любых других объектов в выбранной категории — вы можете сравнивать и процессоры, и телефоны, и новостные порталы! По сути, фантазия для применения этого метода не ограничена.

Как определить, по каким именно критериям мне следует сравнивать наши товары?
В принципе, ответить на этот вопрос можно по-разному – вы можете попробовать взять экспертное интервью, полуструктурированное интервью, или же выбрать метод фокус-групп. Некоторые из полученных вами категорий могут встретиться вам на просторах интернета — это не должно вас смущать. Помните, что главное в вашем исследовании — не уникальность полученных данных, а их объективность и достоверность.

Читать дальше →

+3

AloneCoder 12 ноя 2019 в 11:54

XML практически всегда применяется не по назначению

6 мин

52K

Блог компании VKВеб-разработка*Семантика*XML*Хранение данных*

Перевод

Язык XML был изобретен в 1996 году. Едва он успел появиться, как возможности его применения уже начали понимать неправильно, и для тех целей, к которым его пытались адаптировать, он был не лучшим выбором.

Не будет преувеличением сказать, что подавляющее большинство схем XML, которые мне доводилось видеть, представляли собой нецелесообразное или неправильное использование XML. Более того, такое применение XML свидетельствовало о фундаментальном непонимании того, чем прежде всего является XML.

XML — это язык разметки. Это не формат данных. В большинстве схем XML это разграничение явно не учитывали, путая XML с форматом данных, что в итоге означало ошибку в самом выборе XML, поскольку на самом деле нужен был именно формат данных.

Читать дальше →

+70

boldachev 5 ноя 2019 в 17:40

Knowledge Graph. Плюральность, темпоральность, деятельностный подход

3 мин

4.1K

Семантика*Исследования и прогнозы в IT*

Традиционно Knowledge Graphs, то есть информационные системы, поддерживающие концептуальное описание предметных областей (как самых общих, так и узко специальных) задумываются и строятся, как источники проверенной и единственно верной информации о мире. По такому принципу – как собрание исключительно правильных данных – построена и популярная народная энциклопедия Wikipedia.

Читать дальше →

+9

boldachev 23 окт 2019 в 16:25

Семантический браузер или жизнь без сайтов

6 мин

10K

Децентрализованные сети*Семантика*Исследования и прогнозы в IT*

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страницы).

Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?

Читать дальше →

+12

6

7 8 ...