Как стать автором
Обновить

Новогодний датасет 2018: открытая семантика русского языка

Время на прочтение12 мин
Количество просмотров8.3K
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →
Всего голосов 32: ↑32 и ↓0+32
Комментарии27

WHOW — Язык разметки («WHat-WHy-HOW»)

Время на прочтение3 мин
Количество просмотров3.4K

Если задаться вопросом, отчего семантические технологии до сих пор широко не шагнули в массы, ответ окажется на поверхности: из-за сложности существующей реализации. Сложно создать уникальный идентификатор предмета или отыскать в словарях идентификатор класса предмета, сложно и описывать предметные свойства - простому человеку не понятны и чужды эти Schema.org, Dublin Core, etc. Надобен бы простой, примитивный даже инструмент - чтобы занимательная семантика стала массовым явлением. И такой инструмент, конечно же, есть - это обычные вопросы естественного языка: что, зачем, как? - и т.д.

Читать далее
Всего голосов 10: ↑3 и ↓7-4
Комментарии8

Разбиение веб-страниц на семантические блоки

Время на прочтение5 мин
Количество просмотров22K

Пример работы алгоритма на сайте Автокадабра.

Задача


Наверное, все знают про сервис «Вебвизор», который позволяет записывать действия посетителей вашего сайта и просматривать их в режиме видео. Инструмент интересный, но когда на сайте много посетителей, составить картину жизни сайта проблематично, каждый ролик не посмотришь, и сгруппировать их нельзя.

Гораздо полезней отследить взаимодействие посетителей с сайтом, выяснить чем живёт сайт, с возможностью охватить одновременно множество посетителей. В итоге, появилась идея записывать информацию в виде осмысленного списка действий посетителей:
  • Dima: переход на сайт с поисковой системы Yandex RU по запросу sepyra (3м. 10 сек. назад)
  • Dima: переход со страницы "Веб-аналитика Sepyra | Официальный сайт" на страницу "О системе | Веб-аналитика Sepyra (1 м. 30 сек. назад)
  • Dima: выделение текста "времени" в блоке "Одна из ключевых особенностей веб-аналитики Sepyra — возможность… кто хочет быть в курсе каждого шага посетителей" (40 сек. назад)
  • Dima: средний интерес к подблоку "Подключиться" в блоке "Тарифы О системе FAQ Контакты Русский English Подключиться Войти" (20 сек. назад)
  • Dima: заполнение/изменение поля "Ваше имя" в форме "Регистрация" (10 сек. назад)

Запись состоит из двух частей: блок в котором происходит действие посетителя и само действие, например — выделение текста "времени" в блоке "Одна из ключевых особенностей ...". Для этого описания необходимо определить блок на странице и его имя. Если с именем было более-менее понятно, то над выделением блоков пришлось подумать.
Читать дальше →
Всего голосов 24: ↑19 и ↓5+14
Комментарии1

Не только Яндексу. Микроразметка на крупнейших сайтах рунета: зачем ею пользуются и почему она пригодится и вам

Время на прочтение12 мин
Количество просмотров107K
Мы уже рассказали вам о мире семантической разметки — о том, какие бывают словари, почему столько стандартов синтаксиса, а также разобрали, в каких продуктах она используется.

Теперь мы решили показать, как микроразметка участвует в жизни существующих сайтов: сделали обзор всех возможностей, которые она дает интернет-магазинам, сайтам СМИ и видеохостингам, и узнали, насколько они пользуются спросом у крупнейших проектов рунета.



Люди, которые отвечают за разработку и всю техническую часть таких сайтов, как Holodilnik.ru, Ozon.ru, Lenta.ru, Interfax.ru и Ivi.ru, ответили на вопросы о том, как на практике происходит внедрение микроразметки и каких результатов она позволяет добиться. А мы со своей стороны рассказали, какие типы мы бы порекомендовали таким сайтам и для чего.

Читать дальше →
Всего голосов 53: ↑49 и ↓4+45
Комментарии9

Практика применения семантической разметки

Время на прочтение3 мин
Количество просмотров22K
В последнее время в мире seo применение микроразметки (семантической разметки) для различных целей становится всё более и более популярным.  Хотя микроразметка начала использоваться ещё несколько лет назад, сейчас мы наблюдаем её активное развитие как в Яндексе, так и в Google. Тому подтверждение последние публикации в блоге Яндекс для веб-мастеров: «Микроразметка для крупных сайтов» и «Товарные сниппеты для интернет-магазина».

Google также занимается данным направлением, примером чего является доработки сниппетов в основной выдаче, о которой далее и пойдет речь в этой публикации.
Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии3

Элемент HTML <time>

Время на прочтение4 мин
Количество просмотров61K
Элемент <time> представляет собой дату, время или период времени, представленные в машинночитаемом формате. Он может быть полезен для создания расписаний, архивов или других функций, связанных со временем. WordPress использует этот элемент в базовой теме оформления. Ещё один пример использования <time> — Reddit:

image

Краткая история


Жизненный путь этого элемента был нелёгким. Его добавили в спецификацию HTML5 в 2009 году. Два года спустя, в 2011, его убрали и заменили на гораздо более широкий <data>. Однако в этом же году его вернули и добавили новых возможностей. Сейчас его можно уверенно использовать.

Ситуацию хорошо описал Брюс Лоусон (убрали, вернули, текущее положение дел). [Та же история на Хабре: убрали, вернули]. Классический пример того, как реакция сообщества разработчиков влияет на развитие HTML.
Читать дальше →
Всего голосов 68: ↑66 и ↓2+64
Комментарии33

Семантические цифровые системы

Время на прочтение4 мин
Количество просмотров4K
В предыдущем тексте (Мифы семантической технологии) не без доли эпатажа утверждалось, что в айтишной семантике нет никакой семантики. Хотя, конечно, надо отдельно отвечать на два вопроса: (1) содержат ли данные смысл? и (2) понимает ли этот смысл компьютер? Второй вопрос оставим философам, хотя ответ на него и так очевиден. Как очевиден и ответ на первый: информационные системы для того и нужны, чтобы обрабатывать информацию, то есть осмысленные, семантически определенные данные. При этом, конечно, надо понимать, что осмысленными эти данные являются только для человека, который исходно продуцирует эти данные, пишет программу для их обработки и в конечном счете воспринимает их смысл.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии0

Деятельность, документы и семантика

Время на прочтение4 мин
Количество просмотров1.5K
На данный момент современные информационные системы моделирующие деятельность и системы документооборота, юридически обеспечивающие деятельность, разнесены по разным архитектурным уровням, взаимодействующим только по линии контроля и учета. Электронный документооборот с использованием ЭП не решает проблему разрыва между двумя этими уровнями, обеспечивая лишь скорость и защищенность обмена документами.
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как правильно верстать в 2022 году. Часть 1

Время на прочтение11 мин
Количество просмотров88K

Меня зовут Николай, я Frontend-разработчик IT-компании Relog. Хочу рассказать о самых распространённых ошибках в вёрстке современных проектов.

Дело в том, что лишь малая часть современных фронтендеров обращает внимание на работу с HTML и CSS, предпочитая готовые решения, вроде UI-библиотек и систем сеток. Но эти решения неидеальные и приходится дописывать обёртки вокруг них, видоизменять код, переписывать стили и совершать прочие действия для соответствия требованиям проекта. Тут-то и начинаются проблемы: вёрстка местами становится избыточной, стили переназначются через important и с каждым релизом проект всё сложней поддерживать. Я уже не говорю об удобстве использования и доступности. Об этом думают вообще в последнюю очередь.

В этой статье я расскажу лишь о небольшой части проблем, которые можно достаточно быстро решить, не прибегая к радикальному переписыванию больших частей проекта.

Читать далее
Всего голосов 48: ↑46 и ↓2+44
Комментарии42

Семантическая сегментация изображений в CVAT

Время на прочтение5 мин
Количество просмотров5.1K

Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.

Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.

На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.

Ну посмотрим, что там у тебя...
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Как правильно верстать в 2022 году. Часть 2. Как правильно вкладывать теги друг в друга

Время на прочтение4 мин
Количество просмотров21K

Меня зовут Николай и я Frontend-разработчик в логистическом стартапе Relog. Хочу рассказать о самых распространённых ошибках в вёрстке современных проектов.

В этой статье мы говорим о вложении тегов друг в друга, так как это один из неочевидных моментов, в которых многие новички часто делают ошибки.

Читать далее
Всего голосов 15: ↑12 и ↓3+9
Комментарии8

Использование разметки schema.org для логотипов организаций

Время на прочтение1 мин
Количество просмотров32K
Уровень подготовки веб-мастера: любой

Теперь наша система поддерживает разметку schema.org для логотипов организаций. Это позволит вам выбрать логотип, который будет представлять ваш сайт в результатах поиска Google.

С помощью этой разметки вы можете указать системе, где находится ваш логотип. Например, если вы – владелец сайта www.example.com, можно использовать следующую разметку элементов на странице:

<div itemscope itemtype="http://schema.org/Organization">
<a itemprop="url" href="http://www.example.com/">Главная</a>
<img itemprop="logo" src="http://www.example.com/logo.png" />
</div>

Читать дальше →
Всего голосов 46: ↑43 и ↓3+40
Комментарии11

Работа со структурированными данными в Google

Время на прочтение2 мин
Количество просмотров25K
Уровень подготовки веб-мастера: любой

Если Google распознает контент на вашем сайте как структурированные данные, то сможет отобразить больше полезной информации о нём. Например, если ваша страница посвящена описаниям товаров или мероприятий, рецептам, отзывам и другим подобным материалам, наши алгоритмы могут улучшить результаты поиска с помощью расширенных описаний веб-страниц. Сведения о вашем сайте также могут отображаться в сети знаний или в подсказках Google Now, привлекая потенциальных клиентов.

Сегодня мы представляем вам две новинки. Первая – это семь типов структурированных данных в Маркере, которые ранее не поддерживались, а вторая – инструмент под названием «Мастер разметки структурированных данных».
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

8 HTML элементов, которые вы не используете (а следовало бы)

Время на прочтение4 мин
Количество просмотров96K
image
Веб сегодня все больше и больше семантический. Но что означает «семантический»? Почему это важно?

Семантический HTML выражает значение документа. Он больше о том, чем является текст, чем о том, как он выглядит. Хорошая семантическая разметка помогает и человеку и компьютеру лучше понять содержимое документа и его контекст.

Семантическая разметка намного легче поддается интерпретации. Она дружественна поисковой оптимизации. Отлично работает с современными браузерами, уменьшает количество кода, необходимого, чтобы выразить содержимое и повышает читаемость этого кода.

Ок, итак семантическая разметка — это хорошо, но как ее использовать. Лучше всего начать с замены обычных тегов на более выразительные. Давайте посмотрим восемь элементов, которые позволят вам войти в эту игру.
Читать дальше →
Всего голосов 214: ↑175 и ↓39+136
Комментарии101

Научи бота! — разметка эмоций и семантики русского языка

Время на прочтение6 мин
Количество просмотров8.7K
Со всех сторон на нас сыпятся перспективы светлого роботического будущего. Или не очень светлого, в духе Матрицы и Терминатора. В самом деле — машины уже уверено справляются с переводами, не хуже и намного быстрее людей распознают лица и предметы окружающего мира, учатся понимать и синтезировать речь. Круто? Не то слово!

Но дело серьёзно осложняется тем, что компьютеры так и научились ориентироваться в нашем мире. Всё, что они так хорошо делают, они делают по аналогии, не вдаваясь в суть и не нагружая себя смыслом происходящего. Может оно и к лучшему — дольше проживём, не будучи порабощены бездушным племенем машин.

Но любопытство подталкивает к рискованным шагам, а именно к попыткам познакомить компьютер с нашим миром, в том числе и с внутренним — чувствами, эмоциями и переживаниями.

Как мы планируем прокачать сознание машин, научить их эмоциям, чувствам и оценочным суждениям, а также где вы можете свободно скачать размеченные
данные — читайте в статье.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии13

Зачем нужны заголовки

Время на прочтение4 мин
Количество просмотров17K


Зачем нужны заголовки и какие теги для них использовать?

Этот вопрос нам задают чаще всего.

Пришло время разобраться!
Всего голосов 28: ↑23 и ↓5+18
Комментарии9

Семантическая разметка: LaTeX, DocBook или ???

Время на прочтение4 мин
Количество просмотров18K
Писал комментарий к статье и понял, что надо выносить в отдельный пост.
Как многие отмечают там в комментариях статья отстой, человек не разбирается и смешал всё в кучу, попробую поделиться своими выводами от использования разных разметок.
Читать дальше →
Всего голосов 15: ↑13 и ↓2+11
Комментарии55

Новогодний датасет: открытая семантика русского языка

Время на прочтение7 мин
Количество просмотров8.2K
Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.
Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Комментарии8

Открытый урок на тему «Аудит рекламных кампаний в Яндекс. Директе»

Время на прочтение1 мин
Количество просмотров3.8K
И снова здравствуйте!

День всех влюбленных уже на следующей неделе, а значит скоро начнётся курс нашего универсального солдата Digital маркетолога.

Вчера Вика провела очередной открытый урок, где рассказывала об оптимальных стратегиях продвижения, сборе и оценке семантического ядра и многом другом, а так же ещё поделилась чек-листом эффективности кампаний сотрудников Яндекса.

Ждём, если что, ваших вопросов, предложений, комментариев и всего остального.
Всего голосов 19: ↑18 и ↓1+17
Комментарии0
1