
Павел Агалецкий, ведущий разработчик в юните Platform as a Service в Авито, рассказал про семантики или гарантии доставки сообщений, и почему с ними не всегда просто разобраться.
Веб 3.0
Павел Агалецкий, ведущий разработчик в юните Platform as a Service в Авито, рассказал про семантики или гарантии доставки сообщений, и почему с ними не всегда просто разобраться.
Торг, депрессия, принятие… Все проходят в определенный период жизни эти стадии. И мы с агентством не исключение. Нам достался проект, в котором мы в полной мере ощутили эти периоды. Но! Несмотря на это мы снизили стоимость целевого обращения в 3,5 раза. Представьте, лид стоил 1781, а стал 509. И кстати, за месяц их получилось целых 94 штуки. Читайте в материале, что и к чему.
Как же задолбало перебирать подрядчиков по маркетингу — директологи, таргетологи, SEO-шники. Все говорят: “количество лидов вырастет, а продажи полетят, как ракета!”. На деле — ракета оказывается картонной, и нифига не летит. В этой статье я хочу беспристрастно посмотреть, почему так происходит и где тут SYSTEM ERROR.
Сколько раз при изобретении очередного метода обработки структурированных данных наталкиваешься на мысль о дежавю? Работа со списками файлов, словарями имен, объектными полями, связывание разнотипных данных. В каждом новом более удобном или более быстром переизобретении проглядывается что-то общее, непреходящее. Концептуальное ядро, связующее все возможные производные множества и включающее их в свою орбиту. Что-то чему язык затрудняется сходу подобрать название, а мозг очертить предельные границы. Одновременно всеобъемлющая и при этом неуловимо малая деталь. Абсолютная абстракция. Линейный примитив.
К нам в агентство часто обращаются клиенты с проблемой — запустили контекстную рекламу, а она не работает. Рекламные бюджеты сливаются, заявки отсутствуют (в некоторых случаях их мало и они дорогие). В общем, реклама не окупается, поставленные KPI не достигаются. Почему же контекст не работает? А главное — как это исправить, чтобы заявки наконец пошли?
В данной статье речь, в основном, пойдет о логике, которая необходима каждому человеку хотя бы потому, что с ее помощью можно проверить правильность обоснования разных точек зрения, мнений, теорий и т. д. Также важно и то, что в наше непростое время логика очень нужна для того, чтобы противостоять интенсивно развивающимся технологиям интеллектуальных манипуляций, с помощью которых часто вторгаются в наше сознание многочисленные мошенники, аферисты, предвзятые СМИ и, разумеется, агитаторы и политтехнологи. Ситуация усугубляется тем, что логика не является общеобразовательным предметом, а современные методики обучения логике не выдерживают критики.
С логикой тесно связана разработанная сравнительно недавно алгебра кортежей (АК). Здесь будет показано, как с ее помощью решаются непростые логические задачи, а также обоснована связь между АК и семантикой. Более подробные сведения по теме данной статьи можно найти на сайте.
В основе АК лежат свойства Декартова (прямого) произведения множеств (ДП). Многие из этих свойств были впервые сформулированы и обоснованы в публикациях по АК. Для более понятного изложения свойств ДП и основных понятий АК будем использовать в качестве иллюстрации ПРИМЕР логической задачи.
ПРИМЕР
В данном ПРИМЕРе используются сюжеты некоторых задач из книги известного специалиста и популяризатора математической логики Раймонда Смаллиана «Принцесса или тигр?». В некотором царстве король заставлял узников решать логические задачи. В данном эпизоде (он отсутствует в книге Смаллиана) перед узником были три комнаты, в каждой из которых могла находиться одна из принцесс, либо поджидал свою добычу один из тигров. Могли быть и пустые комнаты. С помощью подсказок узник должен был решить, в какой комнате принцесса, и войти в нее. В этом случае он получал свободу и мог жениться на принцессе. Если он ошибался, то мог попасть в комнату с тигром. В данном случае в помощь ему были даны три подсказки, и также было известно, что одна из первых двух подсказок ложная (какая именно, неизвестно), а остальные две – истинные.
Подсказка 1: Во второй комнате нет тигра, а третья комната не пуста.
Подсказка 2: Первая комната не пуста, а во второй нет тигра.
Подсказка 3: Принцесса находится, по крайней мере, в одной из комнат. То же самое известно и о тиграх.
При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.
Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.
Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.
Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...
(По материалам внутреннего семинара компании МойОфис)
Чтобы обучать нейросети понимать и генерировать человеческие языки, нужно много качественных текстов на нужных языках. «Много» – не проблема в эпоху интернета, но с качеством бывают сложности. В этом посте я предлагаю использовать BERT-подобные модели для двух задач улучшения качества обучающих текстов: исправление ошибок распознавания текста из сканов и фильтрация параллельного корпуса предложений. Я испробовал их на башкирском, но и для других языков эти рецепты могут оказаться полезны.
Проект «Едим Дома» принадлежит Юлии Высоцкой, известной российской кулинарной блогершей и телеведущей. Сайт посвящен кулинарии и содержит множество рецептов, начиная от традиционных русских блюд и заканчивая экзотическими рецептами из разных стран мира. Кроме того, сайт предлагает советы по приготовлению и подаче блюд и статьи о питательной ценности продуктов.
В этой статье мы, расскажем, как сделали первое действительно бесплатное облачное распознавание речи и как им воспользоваться.
Разработчики систем распознавания речи, как правило, используют поминутную тарификацию распознавания. В одной из прошлых статей я уточнял почему считаю это далеко не всегда правильным (если кратко, то при такой тарификации вендоры округляют длительность в большую сторону, а значит, за распознавание коротких записей вы заметно переплачиваете, а при большом трафике это очень дорого).
Давайте теперь разберемся, действительно ли для вендоров экономически оправданно брать деньги с хобби-проектов и небольших компаний, которым нужно распознавать не миллионы, а всего лишь десятки или сотни минут в день.
Много лет я занимаюсь разработкой событийной семантики [1, 2], событийной логики [3], спецификации языка описания деятельности, а также Event Flow архитектуры [4], на базе которой построен семантический workflow-движок. Все это выросло из идеи субъектно- событийного подхода к моделированию сложных систем [5], который условно можно считать инженерным наследником философской темпоральной онтологии [6, 7].
И вот, некоторое время назад я решил провести эксперимент и научить ChatGPT создавать и исполнять событийные модели. Результат сообщу сразу: это у меня получилось, хотя и не без головной боли, с постоянными упрашиваниями, подсказками, напоминаниями… Но по порядку.
Упомянутый Event Flow движок работает с событийными семантическими моделями, описывающими сущности или действия какой-либо предметной области. Он проглатывает очередное модельное событие (согласно условиям, прописанным в этом событии) и либо строит по нему поле экранной формы, если значение надо получить от человека, либо выполняет запрос к уже имеющимся данным, создавая в итоге новое предметное событие. Таким образом после выполнения всех событий одной модели у нас получается индивид сущности или действия, а по сути, выполняется фрагмент бизнес-логики. (В Приложении есть несколько слов о событийной семантике от самого ChatGPT).
Что требовалось от ChatGPT? (1) Запомнить формат записи событий; (2) освоить синтаксис инициации свойств и актов, правила построения моделей и создания индивидов; (3) научиться по текстовому описанию строить модели и (4) при предоставлении в текстовом же виде конкретных значений - создавать индивиды. При этом, что существенно, в модели могут иметься запросы к значениям уже созданных индивидов.
Очень сложно дается для понимания (уж поверьте, проверено много раз) простая мысль, что одним и тем же словом в разных предметных областях, на разных уровнях анализа, разными людьми могут обозначаться принципиально разные понятия. Например, большинство убеждено, что существует некое реальное, как оно есть на самом деле, сознание, и проблема только в том, что у нас не получается описать его словами. Сколько человек ни возьмется за это, у всех получается как-то про разное. Хотя можно просто признать, что слово «сознание» многие используют в разных значениях, то есть обозначают им разные понятия, и на этом завершить бесконечные споры. Ту же историю мы наблюдаем и со словом «информация» – можно насчитать под сотню различных, порой очень далеких друг от друга по содержанию определений.
Согласно одним, информация – это «любые данные, представленные в электронной форме», согласно другим – «универсальное свойство материи», и тут же – «мера организованности системы», а еще «сведения, воспринимаемые человеком». Кто-то пытается объяснить наличие множества определений информации тем, что само понятие ‘информация’ является многогранным, сложным, и даже объявляет его базовым, неопределяемым. Но ведь очевидно, что приведенные определения никак не могут описывать нечто одно: потоки символов, передаваемый по каналам связи, не могут быть мерой сложности системы, а воспринимаемые человеком сведения – универсальным свойством материи.
Далее я попытаюсь убедить вас в следующем: во-первых, нет никакой самой по себе информации, про которую можно говорить, что именно она и есть информация (сложная, первичная, вездесущая) и требуется только дать ей единственно правильное определение; во-вторых, мы имеем дело с рядом несводимых друг к другу понятий, которые в разных областях разными людьми обозначаются одним и тем же словом «информация».
Меня зовут Пётр Гришечкин, и я работаю SEO-специалистом в команде проекта “Своё Родное”. В основном я занимаюсь продвижением цифровых продуктов, представленных на платформе, и готов поделиться своими знаниями с читателями Хабра.
Вокруг SEO ходит много мифов и легенд. На некоторых сайтах можно даже встретить рекламу SEO-амулетов. Сегодня мы поговорим об LSI Keywords и выясним, миф это или реально работающая практика. Эта статья подойдет всем интересующимся SEO, а также тем, кто не хочет попасться на удочку искусных рекламщиков.
Всем привет!
Мы продолжаем развитие нашей системы анализа естественного языка и, завершив промежуточный этап работы над коммерческим сценарием выявления поручений из документов, решили выложить в отрытый доступ онлайн демо по нахождению в тексте объектов и соответствующих им характеристик. Как нам кажется, мы сделали уникальную вещь, по крайней мере, нам не известно о доступных онлайн системах построения смысловой модели текста с таким уровнем детализации.
Далее описание применяемой технологии, предметной области, ограничений и возможностей демо.
В предыдущей статье «Событийная онтология vs объектная» были введены основные положения событийной семантики, описаны ее отличия от объектно-ориентированных подходов к моделированию предметной области. В данном тексте на конкретных примерах демонстрируются особенности событийного описания по сравнению с субстанциональным и релятивным. Вводится новое понятие «семантический сахар» и переосмысливается роль иерархических отношений свойств.
Привет. Меня зовут Александр Родченков, я занимаюсь речевой аналитикой в центре машинного обучения «Инфосистемы Джет». Тут я расскажу о биграммах и триграммах на примере реального, хоть и довольно скромного, кейса. Что же это за «граммы» такие, с чем их «едят» и зачем они нам? Кейс решал задачу сбора и обработки данных одной из продовольственных компаний. Сложность задачи заключалась в том, что в речи было очень много специфических терминов и аббревиатур. Как мы с этим справились, и с какими неожиданностями столкнулись после, читай под катом.
В общем случае (вне и до информационных технологий), произнося слово «семантика», предлагают обсудить смысловой уровень языка – значения знаков и структур знаков (текстов). При этом семантика противопоставляется синтаксису, то есть формальным правилам соединения знаков в текст. Когда же речь о семантике заводится в сфере IT, то имеют в виду особые технологии, архитектуры приложений и языки описания данных, ориентированные на знаковое представление объектов и их свойств в компьютерных моделях предметных областей. В качестве основной цели семантического подхода видится «научение» компьютера распознавать смысл данных, описывающих деятельность и ее элементы, то есть реализовать переход от оперирования безликими данными к работе со значениями и знаниями. Предполагается, что широкое использование семантического подхода к моделированию предметных областей позволит унифицировать обмен информацией между независимыми поставщиками данных и приложениями, а также обеспечит возможность модифицировать структуру данных и бизнес-логику приложений не путем переписывания кода, а только через преобразование семантически определенных данных. К основным методам семантического подхода следует отнести: унификацию формата записи, уникальную идентификацию записей, включение метаданных в данные, стандартизацию словарей.
Традиционно семантическое описание предметной области называют онтологией этой области. При этом выражения «онтологическое описание», «онтологическая модель», «онтология предметной области» используют как синонимы. Онтология или онтологическая модель предметной области – это, по сути, структура из сущностей (концептов, понятий, типов объектов), их свойств и правил установления отношений между ними. Обычно онтологию представляют в виде графа, вершинами которого являются объекты, а ребрами – свойства. Часто такую структуру из объектов и значений их свойств, построенную для определенной предметной области, называют графом знаний (Knowledge Graph).
Эта история началась с того, что к нам пришел клиент, которому нужна была система распознавания речи. Да не простая, а качественно распознающая разговоры с микрофонов на АЗС, то есть речь в сильных шумах. Цель заказчика простая – контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе. Вы наверняка все это сами слышали на заправках.
Но есть проблема. Хорошо распознать простую чистую речь могут почти все известные решения. Но речь, где на фоне играет радио, слышны звуки с других касс, громкость речи говорящих разная и присутствует много отраслевой лексики (бренды сигарет, марки топлива), качественно распознать не смогло ни одно «коробочное» решение.
Вызов принят! Мы решили за ограниченное время справиться с этим кейсом.
Шаг 1 – транскрибируем несколько файлов и замеряем качество распознавания на своем решении и решении конкурентов.
Для измерения качества распознавания используем метрику WER.
SEO будущего – это уже не про сайты. Это не про развитие бложика на Виси или Хабре. Современное SEO – это новая парадигма понимания самой сути продвижения в интернете.
С появлением в 2020 году нейронной сети GPT3 и других архитектур – трансформеров, генерируемые тексты стали невероятно правдоподобными. Такими правдоподобными, что отдельно взятый текст, не несущий большой смысловой нагрузки, стало сложно отличить от написанного человеком. В статье мы разберем подход к определению сгенерированных текстов. И заодно выясним, является ли, по мнению алгоритма, Пушкин (и другие деятели искусства) искусственной нейронной сетью.
Суть подхода