Pull to refresh

Написанная за полгода карачаево-балкарская Википедия стартует с 900 статей

Crowdsourcing Social networks and communities Learning languages
imageВсе на Хабре в курсе, что Википедия существует на 272-х языках?

Такого фантастически быстрого и «содержательного» (в плане числа статей) старта ещё не было! По крайней мере мне не известно об этом. Но в любом случае результат очень впечатляющий — от начала активной работы до открытия нового раздела Википедии прошло всего полгода (!), за которые было написано около 900 (!) статей, большинство из которых написал один (!) человек.

Невозможное оказалось возможным! Оказалось, что один в поле воин! Предлагаю вашему вниманию героическую маленькую историю о самом стремительном успехе среди разделов на языках России (даже русская при числе носителей в 300 млн чел. в своё время долго топталась на месте).

Ещё осенью 2009-го Инкубатор Викимедиа для карачаево-балкарской Википедии был не в лучшем состоянии и в нём на карачаево-балкарском языке (между прочим, аж 300 тыс. носителей, хотя и не 300 миллионов как с русским) было всего лишь 60 статей (это формальный показатель, но ничего хорошего). В общем, карачаево-балкарский язык в Википедии особенно-то и не развивался.

И так было (бы) всегда… Пока не пришёл…
Читать дальше →
Total votes 121: ↑89 and ↓32 +57
Views 739
Comments 43

Microsoft показала «умный» Excel — «формулы» можно задавать на «обычном» языке

Programming *Data Mining *
Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.
Посмотреть видео
Total votes 43: ↑33 and ↓10 +23
Views 28K
Comments 59

Система поиска плагиата

Perl *Search engines *Algorithms *

Предисловие


Пушкин
Одно время мне везло на всякие странные работы. Например, я чуть было не устроился админом в синагогу. Остановила меня только предчувствие, что меня там как последнего гоя будут заставлять работать по субботам.

Другой вариант тоже был любопытным. Фирма сочиняла эссе и курсовые для американских студентов, которым в лом было писать самим. Уже потом я узнал, что это довольно распространенный и прибыльный бизнес, которому даже придумали собственное название — «paper mill», но сразу такой способ зарабатывания на жизнь показался мне полным сюром. Однако же надо заметить, что интересных задач на этой работе оказалось немало и среди них — самая сложная и хитрая из тех, что я делал за свою карьеру, и которой можно потом с гордостью рассказывать детям.

Формулировка ее была очень проста. Сочинители курсовых — удаленные работники, очень часто — арабы и негры, для которых английский язык был неродным, и ленивы они были ничуть не меньше самих студентов. Нередко они шли по пути наименьшего сопротивления и вместо написания оригинальной работы тупо передирали ее из Интернета, целиком или частями. Соответственно, надо было найти источник (или источники), сравнить, как-то определить процент сплагиаченности и передать собранные сведения для уличения нерадивых.

Дело несколько облегчалось языком курсовых — он был исключительно английским, без падежей и сложных флективных форм; и сильно усложнялось тем, что непонятно было, с какой стороны вообще за это дело браться.

В качестве языка реализации был выбран Перл, что оказалось очень удачным. Ни на каком статическом компилируемом языке с их ригидностью и тормознутостью запуска решить эту задачу вообще было невозможно. Переписать готовое решение можно, а придти к нему путем многочисленных проб — никак нельзя. Ну и плюс куча отличных обкатанных библиотек.
Читать дальше →
Total votes 138: ↑129 and ↓9 +120
Views 70K
Comments 41

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW)

Wolfram Research corporate blog Programming *Algorithms *Mathematics *Machine learning *
Translation

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Frontiers of Computational Thinking: A SXSW Report".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.


На прошлой неделе я выступал на SXSW Interactive 2015 в Остине, штат Техас. Вот несколько отредактированная стенограмма моего выступления:


Содержание


Наиболее продуктивный год
Язык Wolfram Language
Язык для реального мира
Философия Wolfram Language
Программы размером в один твит
Вычислительное мышление для детей
Ввод запросов на естественном языке
Масштабная идея: Символьное программирование
Язык для развёртывания
Автоматизация программирования
Масштабные программы
Интернет вещей
Машинное обучение
Исследования Вычисляемой Вселенной
Вычислять, подобно тому, как это делает мозг
Язык как символьное представление
Пост-лингвистические понятия
Древняя история
Чем будет заниматься искусственный интеллект?
Бессмертие и за его пределами
Коробка триллиона душ
Обратно в 2015 год
Читать дальше →
Total votes 32: ↑26 and ↓6 +20
Views 26K
Comments 27

Понятия естественного языка против формальных классификаций в OpenStreetMap

Semantics *OpenStreetMap *
Те, кто хоть немного знаком с проектом OpenStreetMap, вероятно, слышали о паре принципов, которые заложены в его основу: «any tags you like» и тот факт, что первично в этом проекте наполнение картографической базы данных, а не то, как содержимое этой базы отображает стиль Standard на osm.org. Но так ли все хорошо и радужно с семантической структурой этой базы данных, учитывая первый принцип? Читая русскоязычную ветку форума OSM, я решил разобраться в ситуации и описать ее здесь.

Давайте разберемся вместе
Total votes 13: ↑12 and ↓1 +11
Views 9K
Comments 43

Neural conversational models: как научить нейронную сеть светской беседе. Лекция в Яндексе

Яндекс corporate blog Machine learning *
Хороший виртуальный ассистент должен не только решать задачи пользователя, но и разумно отвечать на вопрос «Как дела?». Реплик без явной цели очень много, и заготовить ответ на каждую проблематично. Neural Conversational Models — сравнительно новый способ создания диалоговых систем для свободного общения. Его основа — сети, обученные на больших корпусах диалогов из интернета. Борис hr0nix Янгель рассказывает, чем хороши такие модели и как их нужно строить.


Под катом — расшифровка и основная часть слайдов.

Total votes 58: ↑58 and ↓0 +58
Views 19K
Comments 7

Новогодний датасет: открытая семантика русского языка

Open data *
Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.
Читать дальше →
Total votes 26: ↑25 and ↓1 +24
Views 7.9K
Comments 8

Как устроена Алиса. Лекция Яндекса

Яндекс corporate blog Industrial Programming *Machine learning *
В этой лекции впервые рассматриваются технологические решения, на основе которых работает Алиса — голосовой помощник Яндекса. Руководитель группы разработки диалоговых систем Борис Янгель hr0nix рассказывает, как его команда учит Алису понимать желания пользователя, находить ответы на самые неожиданные вопросы и при этом вести себя прилично.


— Я расскажу, что внутри у Алисы. Алиса большая, в ней много компонент, поэтому я немного поверхностно пробегусь.
Total votes 86: ↑83 and ↓3 +80
Views 65K
Comments 67

Две модели лучше одной. Опыт Яндекс.Переводчика

Яндекс corporate blog Search engines *Machine learning *
Когда-то мы уже рассказывали о том, как появился и развивался машинный перевод. С тех пор произошло ещё одно историческое событие – его наконец-то покорили нейронные сети и глубокое обучение. Среди задач обработки естественного языка (Natural Language Processing, NLP) машинный перевод одним из первых получил строгое статистическое основание — еще в начале 1990-х. Но в сфере глубокого обучения он оказался относительно запоздавшим участником. В этом посте мы — команда Яндекса по машинному переводу — обсуждаем, почему это заняло так много времени и какие новые возможности открыл машинный перевод на основе нейросетей.

Мы также будем рады ответить на вопросы на встрече «Яндекс изнутри: от алгоритмов до измерений — в Переводчике, Алисе и Поиске» 1 марта (можно зарегистрироваться или задать вопрос в чате трансляции).



Фразовый машинный перевод


Всего три года назад почти все серьезные промышленные и исследовательские системы машинного перевода были построены с использованием конвейера статистических моделей («фразовый машинный перевод», ФМП), в котором нейронные сети не участвовали. Фразовый машинный перевод впервые сделал машинный перевод доступным для массового пользователя в начале 2000-х годов. При наличии достаточного количества данных и достаточных вычислительных ресурсов ФМП позволял разработчикам создавать системы перевода, которые в основном давали представление о смысле текста, но изобиловали грамматическими, а иногда и семантическими ошибками.
Читать дальше →
Total votes 86: ↑86 and ↓0 +86
Views 19K
Comments 25

Разбор предложений по шаблонам русского языка

Python *
Существует несколько парсеров, подходящих для русского языка. Некоторые из них могут даже выполнять синтаксический анализ, как SyntaxNet, MaltParser и AOT:
Мама мыла раму пластиковых окон

… или выявлять факты, как Tomita.

Глядя на эти парсеры, я вижу какую-то огромную сложность вычислений, требования к памяти, лицензионные ограничения и… ограниченность каждого решения, увы.

Чтобы понять, что же там такого сложного, мне захотелось сделать собственный парсер. Благо выходные оказались длинными.
Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Views 11K
Comments 24

Эсперанто для роботов и агентов Смитов

Artificial Intelligence IOT
Словарь Вильяма Шекспира составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина из книги «12 стульев» легко и свободно обходилась тридцатью.

Человек легко понимает Эллочку. Увы, компьютер скорее бы понял Шекспира, чем Эллочку. Нам хватит понять контекст и интонацию — остальное мы додумаем, — а компьютеру надо четкости в каждом термине. Желательно без синонимов. Чем больше образов скрыто за каждым словом, тем сложнее его понять. Контекстозависимость человеческих слов только одна из сложностей обучения искусственного интеллекта естественному языку. Если отличить съедобный лук от стреляющего лука можно при наличии полноты описания ситуации, то отрицание смысла иронией или риторические вопросы распознаются только по интонации. Дополнительную сложность создает синтаксис и порядок слов в предложении.

Игорь Мордач, сотрудник американской лаборатории искусственного интеллекта OpenAI, однако решил, что Эллочкин язык — далеко не тупиковый путь, а вполне подходящий пример, на котором боты выстроят язык для своего общения, а потом и нас поймут. Только и 30 слов для компьютерной Эллочки он пожалел. В его эксперименте компьютерная программа создавала язык «с нуля».


Total votes 14: ↑13 and ↓1 +12
Views 8.5K
Comments 10

Создаем бота на Aimylogic для автоматизации интернет-магазина

Just AI corporate blog Google API *Development for e-commerce *Artificial Intelligence
Tutorial


Про автоматизацию общения с клиентами сегодня не пишет только ленивый. Но вот как начать ее использовать на практике — об этом рассказывают редко.

Мы в Just AI понимаем, что автоматизация — это тренд, и знаем, как она может помочь вашему малому и большому бизнесу. И сегодня решили написать увлекательный туториал о том, как с помощью Google таблиц и конструктора ботов Aimylogic можно без труда и без программирования автоматизировать первую линию общения с вашими клиентами, чтобы получить из этого реальную пользу, а не просто создать очередного бесполезного чат-бота.
Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 16K
Comments 10

Новогодний датасет 2018: открытая семантика русского языка

Open data *Machine learning *Natural Language Processing *
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →
Total votes 32: ↑32 and ↓0 +32
Views 7.8K
Comments 27

Как в языке сформировать существительное? Сигнал («Видел мамонта»)

Artificial Intelligence Brain Natural Language Processing *

Попробуем сформировать описание процесса появления новой звуковой единицы в естественном языке.


Для этого рассмотрим отдельно живущее племя. И построим цепочку ситуаций, которую необходимо совместно пережить нескольким особям этого племени, приводящую к формированию в языке нового звука.


Звук, который мы попробуем сформировать, будет тождественен фразе: "Видел мамонта".


мамонт

Читать дальше →
Total votes 18: ↑13 and ↓5 +8
Views 3.8K
Comments 12

Пустобрёх GPT-3: генератор языка от OpenAI понятия не имеет, о чём говорит

Artificial Intelligence Learning languages
Translation

Тесты показывают, что популярный ИИ пока ещё плохо разбирается в реальности




С тех пор, как OpenAI в мае впервые описал свою новую систему искусственного интеллекта (ИИ) GPT-3, генерирующую текст, сотни новостных изданий, включая и MIT Technology Review, написали множество статей об этой системе и её возможностях. В твиттере активно обсуждаются её сильные стороны и потенциал. В The New York Times опубликовали большую статью по этому поводу. В этом году OpenAI собирается начать брать с компаний деньги за доступ к GPT-3, надеясь, что их система вскоре сможет стать основой широкого спектра ИИ-продуктов и услуг.

Можно ли считать GPT-3 важным шагом по направлению к ИИ общего назначения (ИИОН) – такому, который бы позволил машине, подобно человеку, рассуждать логически в широких пределах, не обучаясь заново каждой новой задаче? Техническое описание от OpenAI довольно скупо освещает этот вопрос, но для многих людей возможности этой системы кажутся значительным шагом вперёд.
Читать дальше →
Total votes 15: ↑10 and ↓5 +5
Views 12K
Comments 42

Как выучить иностранный язык: алгоритм

Lifehacks for geeks Brain Learning languages

Если вы хоть немного пересекались с Machine Learning, то понимаете, что человеческий мозг — это, по сути, большая нейросеть. А раз так, то и работу с ним можно строить по известным в ML алгоритмам. Так я нашел универсальный способ выучить любой иностранный язык до нормального уровня в разумные сроки. И на себе проверил его эффективность.

Читать далее
Total votes 74: ↑68 and ↓6 +62
Views 122K
Comments 123

Интернациональное программирование на естественных языках

Abnormal programming *Semantics *Programming *Perfect code *Natural Language Processing *
В последнее время часто попадаются на глаза статьи о новых языках программирования, а так же различные рейтинги и прогнозы, связанные с популярностью компьютерных языков.

Заявляют о себе и новые инструментальные средства, которые в своей работе используют собственные форматы описания конфигурационных файлов или последовательности выполняемых команд, которые так же очень сильно приближает их к понятию «язык программирования».

Цель написания данной статьи — формулировка ожиданий и возможной реализации абстрактного языка программирования, который может стать универсальным инструментом для общения между компьютером и человеком.
Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 4.1K
Comments 95

Что такое алгоритм… Часть 10π «Философия»

Algorithms *Brain

А давайте закончим с постановкой вопросов. Поломаем наш странный квест, формируемый лабиринтом уже вышедших статей этой серии. Теперь время статьи с ответом. Да, это немного вызов себе. Но это необходимо. Пора оставить вопросительные знаки и сомнения. Здесь место только точкам, а используемые многоточия лишь способ остаться в рамках запланированного объема.


Под катом в софитах предстанет Философия. Но не она сама, а скорее анализ её ключевых и по совместительству языковых недостатков. Да, за последние лет тридцать в буме технологических прорывов мы немного об этом позабыли, но Философия всё та же. Она наш языковой авангард в великой войне с непознанным. И в этой войне, наконец, найден способ заключить мирный договор. Примирение стало возможно благодаря формализации познания. И хотя эта формализация отнюдь не проста, но прост её краеугольный камень.


Да, Философский камень найден!


И им оказался Алгоритм.


Title


Далее много перегруженных предложений и несколько рисованных иллюстраций.

Читать дальше →
Total votes 5: ↑0 and ↓5 -5
Views 1.9K
Comments 16

Путеводитель по основным трендам 2021 года в области обработки естественного языка и не только

ГК ЛАНИТ corporate blog Machine learning *Reading room Artificial Intelligence Natural Language Processing *
Translation

Когда-то давно люди много путешествовали, посещали новые города и страны, им удавалось насладиться культурой других народов, пообщаться с ними на языке жестов. Исследовать новый для себя город можно по-разному. Например, бесцельно гулять по его улицам, впитывая атмосферу, состоящую из множества разных мелочей. И это отличный способ, если времени на осмотр много и точно знаешь, что рано или поздно еще вернешься. В противном случае полезно оптимизировать визит, используя путеводители, карты достопримечательностей и статьи других путешественников. 

Число исследований в области машинного обучения с каждым годом растет. Конечно, приятно было бы прогуляться по каждой статье или ветке исследований отдельно, но времени на это просто может не хватить, а «посетить» 2021 год еще раз, увы, не удастся. Следовательно, необходимо также искать «путеводители» - статьи, подсвечивающие некоторые тренды, понимание которых важно для будущих направлений исследований. В начале года одна из таких статей «гуляла»  по различным каналам и чатам. Мне захотелось перевести ее на русский и поделиться с вами. Далее приведу перевод этой статьи с моими комментариями.

Читать далее
Total votes 40: ↑39 and ↓1 +38
Views 4.8K
Comments 0

О глупости «программирования на естественном языке»

JUG Ru Group corporate blog History of IT Natural Language Processing *
Translation

От переводчиков. Хотя Эдсгер Дейкстра — одна из главных личностей в истории IT, эта его коротенькая публикация ранее не попадала на Хабр, да и сами мы узнали о ней лишь благодаря докладу на нашей конференции. Но при этом она выглядит очень любопытным документом эпохи, показывая, что ещё несколько десятилетий назад люди думали о перспективе писать программы на «обычном языке». Поэтому мы решили восполнить пробел и перевести.

С первых же дней появления автоматических вычислительных машин были люди, которые считали недостатком тот факт, что программирование требует внимательности и точности, свойственных любому формального символизму. Они критиковали механического слугу за то неукоснительное выполнение данных ему инструкций, когда достаточно было бы поразмышлять мгновение, чтобы заметить, что в этих инструкциях есть очевидная ошибка. «Но мгновение — это долго, а размышлять — болезненный процесс». (А. Э. Хаусман). Они страстно надеялись и ждали появления более разумных машин, которые отказались бы приступать к таким бессмысленным действиям, какие в то время вызывались банальной опечаткой.

Читать далее
Total votes 68: ↑65 and ↓3 +62
Views 21K
Comments 66