vilky @vilky

User

Profile Publications Comments 951Bookmarks 1.4K

varagian Feb 4 2019 at 10:35

Что такое логическое программирование и зачем оно нам нужно

17 min

44K

Programming*Data Mining*Algorithms*Prolog*Mathematics*

У того, кто в детстве не писал на Прологе — нет сердца, а у того, кто пишет на нём сегодня — нет мозгов. (оригинал)

Если вас всегда терзали мучительные сомнения — что за фигня это Логическое Программирование (ЛП) и вообще зачем оно нужно? То это статья для вас.

Можно по-разному разделить языки программирования на группы (часто их называют парадигмами программирования), например, вот так:

структурное: программа разбивается на блоки — подпрограммы (изолированные друг от друга), а основными элементами управления являются последовательность команд, ветвление и цикл.
объектно-ориентированное: задача моделируется в виде объектов, которые отправляют друг другу сообщения. Объекты обладают свойствами и методами. Абстракция. Инкапсуляция. Полиморфизм. Ну в общем, все в курсе.
функциональное: базовым элементом является функция и сама задача моделируется в виде функции, а, точнее, чаще всего в виде их композиции, если f(.) и g(.) — это функции, то f(g(.)) — это их композиция.
логическое: вот тут, как правило, начинается феерия — если про первые три написаны сотни статей, книг, обзоров, презентаций и учебников, то здесь мы в лучшем случае видим что-то про Prolog и разработки времён Pink Floyd и Procol Harum (ну хоть с музыкой им тогда повезло) и на этом история заканчивается.

Вот эту оплошность я и собираюсь сегодня исправить.

Важнейший тезис этой статьи:

Логическое программирование != Prolog.

И вообще последний вам скорее всего не нужен. А вот первое вполне может быть.

Структура статьи:

Что такое Пролог и почему он вам скорее всего не нужен
Зачем оно надо, или краткое введение в Answer Set Programming
Решаем задачи на ASP
Комбинаторная оптимизация
Вероятностное ЛП: ProbLog
ЛП на классической логике FO(.) и IDP
Sketched Answer Set Programming
Экспериментальный анализ
Тестирование и корректность программ
Заключение

Читать дальше →

+28

NewTechAudit May 14 2021 at 10:49

NLP: разбираем на пальцах практические кейсы без заморочек с ML

3 min

5.7K

Python*Programming*Machine learning*

Сравнение текстов

Допустим у нас есть три текста: два из них про собачек и один про кошечек. Как их сравнить между собой?

MutuLawyer Apr 23 2019 at 17:06

Распознавание дат, написанных естественным языком, средствами Python3

2 min

Python*

From sandbox

Мы в компании создаем сервис, который извлекает юридические факты из переписки клиента и заказчика. Сервис вырос из одной простой идеи — мои постоянные клиенты из решили упросить работу менеджерам и создать “генератор договоров”. Первую задачу — подтягивать в договор реквизиты клиента и заказчика мы решили легко.

Появилась вторая идея — искать в переписке даты и вставлять их в техническое задание, документы, автоматически.

Однако, люди редко пишут в чатах и мессенджерах даты так, чтобы их легко мог распознать алгоритм.

Читать дальше →

Hasselhoff Mar 1 2021 at 15:18

Как улучшить резюме с помощью алгоритмов обработки текстов на естественных языках

11 min

5.1K

Python*Algorithms*Skillfactory corporate blogIT careerNatural Language Processing*

Translation

Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанностей в них. Если в вашем резюме будет представлена только общая информация или если ваши ответы на описание должностных обязанностей будут указаны расплывчато и/или без всякой конкретики, такие инструменты сработают против вас. Ваш отклик на вакансию может быть отвергнут искусственным интеллектом. Да, это действительно так, и бьюсь об заклад, что вы об этом не знали, а если знали, то не верили!

В этой статье я хочу представить ряд техник, которые помогут повысить шансы вашего резюме на рассмотрение. В этом практическом примере мы будем использовать алгоритмы обработки текстов на естественных языках (Natural Language Processing, NLP), Python и ряд визуальных инструментов библиотеки Altair. Итак, готовы нанести ответный удар по кадровикам?

Приятного чтения!

egryaznov Jan 29 2021 at 22:40

AI на минималках 2: Генератор стихов на Prolog

11 min

36K

Programming*Algorithms*Prolog*Artificial Intelligence

Tutorial

AI на минималках 2: Генератор стихов на Prolog

Мемная картинка

На картинке — четверостишье, сгенерированное моей программой.

Оказывается "стихи" писать легко, нужно только знать несколько необходимых ингредиентов: размер, ритм, рифма. "Стихи" в кавычках, потому что в настоящем стихосложении, как и в любом другом искусстве, незыблемых законов нет. Однако в классике (русской силлабо-тонике) очень много правил, при соблюдении которых получается писать неплохие стихи, даже если вы никогда раньше этого не делали. Причём эти правила довольно просто программируются: "в строке должно быть равно N слогов", "нечётные строки должны рифмоваться", "ударные и безударные слоги в строке должны идти в определённом порядке" и т.д. Перечислив все правила, я свёл задачу генерации стихов к простому комбинаторному поиску. Язык Prolog как раз и предназначен для таких задач — описании правил и генерации объектов, выполняющих эти правила.

Кто хочет научится писать стихи и познакомиться с Prolog, прошу под кат.

Читать дальше →

+36

s1m00n May 31 2020 at 16:06

Краткий обзор NLP библиотеки SpaСy

5 min

30K

Python*Machine learning*Natural Language Processing*

From sandbox

Обработка естественного языка(Natural Language Processing — NLP) сегодня становится очень востребованной, так как людям несомненно проще общаться с машинами также, как они общаются с людьми.

Поэтому сейчас, вместе с быстрым развитием этой области, всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы, голосовые ассистенты, электронная почта, чтобы автоматически сортировать письма и так далее. В этом посте я хочу рассказать об относительно новой Python библиотеке SpaCy, которая стала, если не индустриальным стандартом, как ~~кричат~~ заявляют сами создатели на сайте библиотеки: https://spacy.io/, то как минимум одним из самых популярных и удобных решений. Приятного чтения!

Читать дальше →

+11

NewTechAudit Dec 8 2020 at 14:59

Можно всё: решение NLP задач при помощи spacy

9 min

32K

Python*Machine learning*

Обработка естественного языка сейчас используется повсеместно: стремительно развиваются голосовые интерфейсы и чат-боты, разрабатываются модели для обработки больших текстовых данных, продолжает развиваться машинный перевод.

В этой статье мы рассмотрим относительно новую библиотеку SpaCy, которая на данный момент является одним из самых популярных и удобных решений при обработке текста в Python. Её функционал позволяет решать очень широкий спектр задач: от определения частей речи и выделения именованных сущностей до создания собственных моделей для анализа.

Читать дальше →

iggisv9t Sep 4 2019 at 14:04

Визуализация больших графов для самых маленьких

12 min

56K

Data Mining*Data visualization*Machine learning*Open Data Science corporate blogArtificial Intelligence

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

Rybolos Nov 20 2020 at 13:14

Тестируем ruGPT-3 на новых задачах

9 min

50K

Сбер corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Tutorial

Technotext 2021

SQLite — не игрушка

7 min

79K

Programming*SQL*SQLite*

Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.

+235

MaxRokatansky May 20 2021 at 18:40

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

13 min

64K

Python*Machine learning*OTUS corporate blog

Translation

Если вы только собираетесь начать работу с визуализацией в Python, количество библиотек и решений вас определенно поразит:

- Matplotlib

- Seaborn

- Plotly

- Bokeh

- Altair

- Folium

Но какую из этих библиотек лучше выбрать для визуализации DataFrame? Некоторые библиотеки имеют больше преимуществ для использования в некоторых конкретных случаях. В этой статье приведены плюсы и минусы каждой из них. Прочитав эту статью, вы будете разбираться в функционале каждой библиотеки и будете способны подбирать для ваших потребностей оптимальную.

+19

yury_chekhovich Apr 24 2018 at 11:07

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

11 min

67K

Search engines*Semantics*Mathematics*Machine learning*«Антиплагиат» corporate blog

Tutorial

В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

"

В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.

Читать дальше →

+42

anikeyev Jul 31 2019 at 11:56

Таинственный противник: нечеткие заимствования

10 min

6.1K

Search engines*Algorithms*Mathematics*Machine learning*«Антиплагиат» corporate blog

Неправомерное Заимствование — это многоголовая гидра, враг, постоянно меняющий свое лицо. Наши лучшие частные сыщики готовы зацепиться за любое злодеяние, совершенное этим врагом. Однако противник не дремлет, он хитер и коварен: явно подставляясь в одном деле, он невероятно умело заметает следы в других. Иногда его удается поймать с поличным с помощью нашего самого шустрого сотрудника — Суффиксного Массива. Иногда противник мешкает, и скрупулезный, но неторопливый Поиск Парафраза успевает вычислить его местоположение. Но зло коварно, и нам постоянно нужны новые силы для борьбы с ним.

Сегодня мы расскажем о нашем новом детективе специального назначения по имени Нечеткий Поиск, а также о его первом столкновении с нечеткими заимствованиями.

С вами детективное агентство Антиплагиат, приготовьтесь к Делу о Таинственном Противнике

Начать расследование

+13

ph_piter Jul 28 2020 at 12:50

Книга «Обработка естественного языка в действии»

16 min

6.4K

Издательский дом «Питер» corporate blogProfessional literature*Machine learning*Artificial Intelligence

Привет, Хаброжители! Мы издали практическое руководство по обработке и генерации текстов на естественном языке. Книга снабжена всеми инструментами и методиками, необходимыми для создания прикладных NLP-систем с целью обеспечения работы виртуального помощника (чат-бота), спам-фильтра, программы — модератора форума, анализатора тональностей, программы построения баз знаний, интеллектуального анализатора текста на естественном языке или практически любого другого NLP-приложения, какое только можно себе представить.

Книга ориентирована на Python-разработчиков среднего и высокого уровня. Значительная часть книги будет полезна и тем читателям, которые уже умеют проектировать и разрабатывать сложные системы, поскольку в ней содержатся многочисленные примеры рекомендуемых решений и раскрываются возможности самых современных алгоритмов NLP. Хотя знание объектно-ориентированного программирования на Python может помочь создавать лучшие системы, для использования приводимой в этой книге информации оно не обязательно.

Читать дальше →

Christina29 Aug 27 2019 at 10:00

Как работают поисковые системы

28 min

77K

Search engines*Яндекс corporate blogMathematics*IT-companies

Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, первым автором которого, к слову, был Илья.

Читать дальше →

+89

ushanov Jul 8 2015 at 13:01

Поиск почти-дубликатов и геометрия

3 min

7.4K

Algorithms*

From sandbox

Недавно мне попалась задачка на поиск почти-дублей среди большого количества коротких текстов. Поиск готового решения не привел к успеху, а полученное решение оказалось довольно интересным, и я не смог отказать себе в удовольствии поделиться им.

Формулировка

Есть большая база текстов (сотни тысяч текстов). Длины текстов примерно одинаковые, около 250 символов, язык — английский. Некоторые из текстов отредактированы (исправлены опечатки, расставлены запятые и т.п.); таким образом в базе оказывается как оригинальный текст, так и его исправленная копия. Таких пар не очень много, скажем не более 1%. Задача: найти все такие пары.

Читать дальше →

+10

averkij Jun 2 2021 at 19:05

Сам себе Гутенберг. Делаем многоязычные параллельные книги

14 min

7.7K

Python*Typography*Machine learning*Learning languagesNatural Language Processing*

Tutorial

Lingtrain parallel books article cover

В прошлый раз мы с вами научились делать параллельные книги и сделали русско-английский вариант отрывка романа Харпер Ли "Убить пересмешника". Сегодня мы сделаем следующий шаг и создадим полноценную многоязычную книгу на восьми языках.

Напомню, что целью этого проекта является создание инструмента, который поможет людям, изучающим и преподающим иностранные языки, создавать учебные материалы и параллельные книги для улучшения навыков чтения. Глобальная проблема состоит в том, что трудно найти интересный для изучения материал с параллельным переводом, тогда как найти книгу в оригинале и ее русскую редакцию по отдельности гораздо проще.

Семь книг

Проделаем все на примере романа Булгакова "Мастер и Маргарита", потому что он очень популярен в мире и был переведен на множество языков. Я нашел его версии на английском и немецком (германские языки); белорусском, чешском и украинском (славянские языки); а также на венгерском и китайском языках. Все семь текстов мы выровняем с русским оригиналом, получим семь книг. Затем выровняем их между собой и получим возможность выбирать любые комбинации языков для своей книги в любом порядке. Полные версии книг можно будет скачать в формате pdf в конце статьи.

Начнем с пары венгерский-русский.

Читать дальше →

+24

pureacetone May 7 2021 at 14:51

Fediverse – социальная сеть будущего

5 min

22K

Decentralized networks*Open source*Social networks and communities

Свободные протоколы нынче не в тренде, потому что децентрализация невыгодна коммерческим структурам, которые борются за удержание каждого человека в своей изолированной экосистеме: пользователи Facebook и Вконтакте используют фактически схожие сервисы, но не могут общаться между собой. Кажется, мы к этому привыкли, но это же абсурд!

Принципиально ли мне или вам листать ленту YouTube в отдельном приложении, а не там же, например, где фотографии друзей или смешные картинки? Наверняка не принципиально, однако мы привыкли к модели изолированных друг от друга сервисов и не можем представить все свои социальные сети в одном окошке.

Эта статья о Fediverse: не только о децентрализованной социальной сети, но о ее духе нового подхода к интернет-медиа, которые объединяются в одну информационную платформу благодаря общему протоколу взаимодействия.

Читать

+32

averkij May 16 2021 at 21:33

Сам себе Гутенберг. Делаем параллельные книги

12 min

22K

Open source*Python*Machine learning*Learning languagesNatural Language Processing*

Tutorial

Lingtrain parallel books

Upd. 04.12.2021 — Наш телеграм канал

Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.

Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.

Из чего делаем

На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.

Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника

+106

AlexanderPetrenko Apr 21 2021 at 23:06

Временные ряды. Простые решения

9 min

44K

Python*Mathematics*Machine learning*Studying in ITArtificial Intelligence

Tutorial

Привет, Хабр!

В этой статье мы рассмотрим несколько простых подходов прогнозирования временных рядов.

Материал, изложенный в статье, на мой взгляд, хорошо дополняет первую неделю курса «Прикладные задачи анализа данных» от МФТИ и Яндекс. На обозначенном курсе можно получить теоретические знания, достаточные для решения задач прогнозирования рядов динамики, а в качестве практического закрепления материала предлагается с помощью модели ARIMA библиотеки scipy сформировать прогноз заработной платы в Российской Федерации на год вперед. В статье, мы также будем формировать прогноз заработной платы, но при этом будем использовать не библиотеку scipy, а библиотеку sklearn. Фишка в том, что в scipy уже предусмотрена модель ARIMA, а sklearn не располагает готовой моделью, поэтому нам придется потрудиться ручками. Таким образом, нам для решения задачи, в каком то смысле, необходимо будет разобраться как устроена модель изнутри. Также, в качестве дополнительного материала, в статье, задача прогнозирования решается с помощью однослойной нейронной сети библиотеки pytorch.

Читать дальше →

+10

3 4 ...

61 62

Что такое логическое программирование и зачем оно нам нужно

NLP: разбираем на пальцах практические кейсы без заморочек с ML

Распознавание дат, написанных естественным языком, средствами Python3

Как улучшить резюме с помощью алгоритмов обработки текстов на естественных языках

AI на минималках 2: Генератор стихов на Prolog

AI на минималках 2: Генератор стихов на Prolog

Краткий обзор NLP библиотеки SpaСy

Можно всё: решение NLP задач при помощи spacy

Визуализация больших графов для самых маленьких

Тестируем ruGPT-3 на новых задачах

Рекомендательные системы с нуля, чат-боты и многое другое

SQLite — не игрушка

Топ 6 библиотек Python для визуализации: какую и когда лучше использовать?

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

Таинственный противник: нечеткие заимствования

Книга «Обработка естественного языка в действии»

Как работают поисковые системы

Поиск почти-дубликатов и геометрия

Формулировка

Сам себе Гутенберг. Делаем многоязычные параллельные книги

Семь книг

Fediverse – социальная сеть будущего

Сам себе Гутенберг. Делаем параллельные книги

Из чего делаем

Временные ряды. Простые решения

Information