Pull to refresh

ИИ нашёл смысл в иероглифах 4000-летней давности

Reading time2 min
Views973
Мощнейшая древнеиндийская цивилизация по своему развитию не уступала Месопотамии и Египту, однако, в отличии от них, не оставила почти никаких письменных артефактов. Всё её лингвистическое наследие — около 1500 полустёртых надписей на осколках посуды, датированных между 2600 и 1900 гг. до н.э. Этот язык вообще не поддаётся расшифровке, потому что самый длинный фрагмент надписи составляет всего 27 символов.



Более столетия археологи безуспешно бьются над загадкой древнеиндийского языка. Обнаружено его сходство со множеством других языков, в том числе древнеславянским. В итоге, после многих лет безуспешных попыток было практически решено, что надписи на самом деле представляют собой не текст, а это просто отдельные символы политического и религиозного содержания — вот одна из научных работ, доказывающих данный тезис. Мол, у индусов того времени, возможно, совсем не было письменности.

Однако с этим оказались в корне не согласны индийские программисты, специалисты по искусственному интеллекту, которые создали специальную программу для поиска лингвистических структур в исторических надписях. Перед работой систему натренировали на трёх вербальных языках (современный английский, санскрит, шумерский) и трёх невербальных системах коммуникации (человеческая ДНК, Фортран, протеины бактерий).
Читать дальше →
Total votes 84: ↑60 and ↓24+36
Comments61

Три кита лингвистического анализа, без которых невозможна работа InfoWatch Traffic Monitor

Reading time7 min
Views3.5K
image

Всем привет! Сегодня мы поговорим о том, как лингвистика интегрирована в работу DLP-системы и как она помогает нам оберегать важные данные от атак злоумышленников.

В последнее время существенно выросла потребность компаний в защите данных от утечек конфиденциальной информации. Переход сотрудников на удаленный режим работы привел к существенному росту кибератак и преступлений в сфере информационной безопасности: согласно отчетам аналитиков, в первой трети 2020 г. количество утечек конфиденциальной информации из российских компаний увеличилось на 38%, и данная тенденция продолжает развиваться.

Как правило, под ударом находятся юридическая документация, финансовые бумаги, личные данные сотрудников и клиентов и т.п. Чтобы уберечь конфиденциальные данные от злоумышленников, компании устанавливают DLP (Data Loss Prevention) — системы для предотвращения утечек информации.
Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments13

Исследователи из Бразилии представили модели анализа нравственности на основе языка

Reading time2 min
Views2.4K
image

Исследователи из Бразилии разработали три модели, которые могут описать моральные принципы людей на основе языка, который они используют. Модели оценивают выбор слов человека, чтобы определить его позицию по пяти ключевым нравственным принципам.
Читать дальше →
Total votes 6: ↑5 and ↓1+4
Comments11

Лингвистический анализ показал резкий рост депрессивных настроений в обществе с 2007 года

Reading time4 min
Views5K

Исследователи Школы информатики и вычислительной техники и кафедры физиологии и нейрофизиологии Индианского университета провели анализ более 14 миллионов книг, опубликованных в период с 1855 по 2019 год. Авторы обнаружили, что за последние два десятилетия частота текстовых аналогов когнитивных искажений резко выросла. Они связывают это с недавними социально-экономическими изменениями, новыми технологиями и социальными сетями.

Читать далее
Total votes 22: ↑22 and ↓0+22
Comments6

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 2: Не тупик, но болото нюансов

Reading time13 min
Views7.6K

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В предыдущей статье речь шла о том, как не имея параллельных текстов, методом структурно-логического анализа удалось дешифровать тексты Линейным письмом В бронзового века с острова Крит и материковой Греции. Косвенную помощь оказала и дешифровка надписей острова Кипр. Обе этих письменности – дальние родственницы, разделённые во времени несколькими сотнями лет – передавали тексты на греческом языке. Но Линейное письмо В было забыто вскоре после гибели дворцов микенского периода, а кипрское так и прозябало на периферии, пока не исчезло – место обоих занял со временем известный нам нынче греческий алфавит.

Однако дешифровка оказалась лишь верхушкой айсберга неразрешённых проблем. Во-первых, до сих пор непонятны догреческие надписи Крита и Кипра. Во-вторых, в Линейном В тоже не всё было просто.

Читать далее
Total votes 63: ↑61 and ↓2+59
Comments15

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 3: Формальный анализ, корпуса и палеография

Reading time12 min
Views4K

Пришло время вернуться к теме, отложенной из-за большого количества работы.

Напомню, в первой части был рассказ о дешифровке древнейшей греческой письменности – Линейного письма В, исчезнувшего вскоре после Троянской войны, когда у дешифровщиков не было привычных «верных помощников» - параллельных текстов на других языках или хотя бы близкородственных письменностей (был разве что очень «дальний родственник»).

Во второй части речь пошла о более древних письменностях Крита, Линейном А и иероглифах, а также родственном кипро-минойском письме о. Кипр, на которых та же методика уже не сработала, поскольку их язык (или языки) имел(и) в принципе иную структуру. Все эти письменности (вместе с дешифрованными Линейным В и кипрским греческим) в настоящее время известны как «эгейские письменности» (по месту их происхождения в бассейне Эгейского моря).

Рассказав о весьма медленном прогрессе в их изучении, мы остановились на ряде «чисто человеческих» ошибок, совершённых дешифровщиками – например, в попытках определить язык надписей. Но там, где человеческий интеллект слаб – возможно, поможет компьютерная лингвистика, если правильно поставить задачу?

Читать далее
Total votes 24: ↑23 and ↓1+22
Comments5

NLP-инженер: чем он занимается и как помогает компаниям становиться умнее

Reading time8 min
Views6.6K

NLP-инженер (NLP от англ. natural language processing) — специалист, обладающий компетенциями в сферах прикладной математики, лингвистики и разработки программного обеспечения. Сегодня предлагаем поближе познакомиться с профессией NLP-инженера, узнать об основных задачах и роли в компании. Помог разобраться в непростой теме Иван Харченко, руководитель математико-лингвистического отдела системы управления репутацией и медиа анализа «СКАН-Интерфакс».

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments0

6 игр за 6 недель — игра пятая

Reading time2 min
Views28K
-Холмс, как вы узнали, что я пхп-специалист?
-Элементарно, Ватсон, у вас слон на свитере.

image

Игра пятая — Пляшущие человечки. Создана по мотивам рассказа Конан-Дойля The adventure of dancing men.

Игра (на момент публикации статьи) не прошла модерацию в магазине. Я объясню почему. Сюжет игры классический — берется 10 строк текста из бессмертного романа А.С. и одинаковые буквы меняются на одинаковые символы. Лингвисты мгновенно расшифровывают. Порог вхождения — высокий. В результате месяца игры я наизусть выучил Евгения Онегина.

Впрочем, картинку типа этой — расшифруют все, кто говорит по-русски.

image
Рисунок 1. Слово из трех букв

Это слово — либо КАК, либо ИЛИ, либо ОНО, либо ТОТ. Конечно, любители немецкого скажут, что это второе слово из фразы ХЕНДЕ ХОХ. Но нет, Пушкин не знал немецкого.

Вернусь к вопросу о непрошедшей проверке.
На экране с очередной загадкой всегда горит строка подсказки — в ней все символы выстроены в порядке убывания их наличия в тексте. Самые распространенные буквы обычно Е Н или О.

image
Рисунок 2. Строка подсказки

Так вот, в этой строке подсказки затаилась крамола. Одна из картинок не прошла модерацию.
Угадайте какая?
В комментариях я отвечу на этот вопрос, первому угадавшему — приз, наушники от iPhone 6 Plus.

UPD.
Выиграл мистер sad.

Читать дальше →
Total votes 49: ↑43 and ↓6+37
Comments56

Немцы создали библиотеку пьяных аудиозаписей

Reading time1 min
Views21K
Эпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.


Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.



Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
Читать дальше →
Total votes 65: ↑46 and ↓19+27
Comments33

Сколько твитов нужно, чтобы узнать ваш характер?

Reading time3 min
Views17K
Экстенсивный рост количества неструктурированных данных (твитов, постов, комментов, фото и видео), генерируемый человечеством – и фантастические возможности, и головная боль для многих старых и новых индустрий.

На днях мы уже приводили фактографию по объемам количества сообщений, производимых человечеством в сутки, понятно, что миллиарды высказываний требуют совершенно других решений и технологий. «Старые» (ужас, прошло 3-5 лет, и уже старые) подходы и люди, их разрабатывающие, борются за место под солнцем. Но…

image

В качестве классического примера приводим перевод недавнего материала от подразделения IBM Watson:
Читать дальше →
Total votes 19: ↑14 and ↓5+9
Comments7

Может ли машина научить английскому языку?

Reading time5 min
Views17K


Биткоин-бот имени Дональда Трампа, победа AlphaGo над одним из сильнейших игроков в го Ли Седолем, изучение английского языка — что объединяет эти три ситуации? Везде в той или иной степени присутствует машинное обучение.

Компьютер может не только генерировать сюжетную канву, как Scheherazade, или отвечать на письма вместо пользователей, как Google Smart Reply, но и создавать идеальные учебники английского языка.
Читать дальше →
Total votes 17: ↑13 and ↓4+9
Comments10

Сосчитать незримое: достоверно определяем словарный запаc

Reading time9 min
Views21K

В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса – задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.

Читать дальше →
Total votes 28: ↑24 and ↓4+20
Comments35

Универсальный грамматический анализатор естественных языков с нуля. Выпуск 1

Reading time13 min
Views13K
Компиляторы, интерпретаторы… Сколько им посвещено книг и проектов! Баста, надоело! А вот сунешся в область анализа естественных языков, и никакой информации! А все что есть как-то очень сложно, непонятно и не универсально. Была у меня идея создать средневековую лингвистическую новеллу. Чтобы можно было разговаривать с персонажами на каком нибудь древнем естественном или вымышленном языке. На Латыни например? И на Квенья. И чтобы они понимали. А почему бы и нет?
Читать дальше →
Total votes 41: ↑37 and ↓4+33
Comments5

Google слышит лучше, искать проще

Reading time4 min
Views12K
Google объявил о том, что они доработали свою систему голосового поиска для того что бы добиться, улучшенного распознавания речи пользователя в шумных местах.



Это всегда была одна из лучших систем распознавания речи, особенно она удобна при поиске с использованием смартфонов. Теперь функция голосового поиска стала еще более развитой чем когда-либо. Блог Google Research описывает в общих чертах улучшения, которые были приняты в обновленной системы.
Читать дальше →
Total votes 24: ↑21 and ↓3+18
Comments14