Search results for «[лингвистический анализ]» / Habr

Publications Hubs Companies Users Comments

alizar Apr 24 2009 at 17:59

ИИ нашёл смысл в иероглифах 4000-летней давности

2 min

973

Мощнейшая древнеиндийская цивилизация по своему развитию не уступала Месопотамии и Египту, однако, в отличии от них, не оставила почти никаких письменных артефактов. Всё её лингвистическое наследие — около 1500 полустёртых надписей на осколках посуды, датированных между 2600 и 1900 гг. до н.э. Этот язык вообще не поддаётся расшифровке, потому что самый длинный фрагмент надписи составляет всего 27 символов.

Более столетия археологи безуспешно бьются над загадкой древнеиндийского языка. Обнаружено его сходство со множеством других языков, в том числе древнеславянским. В итоге, после многих лет безуспешных попыток было практически решено, что надписи на самом деле представляют собой не текст, а это просто отдельные символы политического и религиозного содержания — вот одна из научных работ, доказывающих данный тезис. Мол, у индусов того времени, возможно, совсем не было письменности.

Однако с этим оказались в корне не согласны индийские программисты, специалисты по искусственному интеллекту, которые создали специальную программу для поиска лингвистических структур в исторических надписях. Перед работой систему натренировали на трёх вербальных языках (современный английский, санскрит, шумерский) и трёх невербальных системах коммуникации (человеческая ДНК, Фортран, протеины бактерий).

Читать дальше →

+36

InfoWatch Oct 29 2020 at 11:17

Три кита лингвистического анализа, без которых невозможна работа InfoWatch Traffic Monitor

7 min

3.5K

InfoWatch corporate blogInformation Security*IT-companies

Всем привет! Сегодня мы поговорим о том, как лингвистика интегрирована в работу DLP-системы и как она помогает нам оберегать важные данные от атак злоумышленников.

В последнее время существенно выросла потребность компаний в защите данных от утечек конфиденциальной информации. Переход сотрудников на удаленный режим работы привел к существенному росту кибератак и преступлений в сфере информационной безопасности: согласно отчетам аналитиков, в первой трети 2020 г. количество утечек конфиденциальной информации из российских компаний увеличилось на 38%, и данная тенденция продолжает развиваться.

Как правило, под ударом находятся юридическая документация, финансовые бумаги, личные данные сотрудников и клиентов и т.п. Чтобы уберечь конфиденциальные данные от злоумышленников, компании устанавливают DLP (Data Loss Prevention) — системы для предотвращения утечек информации.

Читать дальше →

maybe_elf Dec 7 2020 at 15:04

Исследователи из Бразилии представили модели анализа нравственности на основе языка

2 min

2.4K

Machine learning*Artificial Intelligence

Исследователи из Бразилии разработали три модели, которые могут описать моральные принципы людей на основе языка, который они используют. Модели оценивают выбор слов человека, чтобы определить его позицию по пяти ключевым нравственным принципам.

Читать дальше →

ancotir Aug 6 2021 at 19:53

Лингвистический анализ показал резкий рост депрессивных настроений в обществе с 2007 года

4 min

Statistics in ITBrainHealth

Исследователи Школы информатики и вычислительной техники и кафедры физиологии и нейрофизиологии Индианского университета провели анализ более 14 миллионов книг, опубликованных в период с 1855 по 2019 год. Авторы обнаружили, что за последние два десятилетия частота текстовых аналогов когнитивных искажений резко выросла. Они связывают это с недавними социально-экономическими изменениями, новыми технологиями и социальными сетями.

+22

Mitridat1974 Jan 3 2022 at 01:51

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 2: Не тупик, но болото нюансов

13 min

7.6K

Learning languagesNatural Language Processing*

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В предыдущей статье речь шла о том, как не имея параллельных текстов, методом структурно-логического анализа удалось дешифровать тексты Линейным письмом В бронзового века с острова Крит и материковой Греции. Косвенную помощь оказала и дешифровка надписей острова Кипр. Обе этих письменности – дальние родственницы, разделённые во времени несколькими сотнями лет – передавали тексты на греческом языке. Но Линейное письмо В было забыто вскоре после гибели дворцов микенского периода, а кипрское так и прозябало на периферии, пока не исчезло – место обоих занял со временем известный нам нынче греческий алфавит.

Однако дешифровка оказалась лишь верхушкой айсберга неразрешённых проблем. Во-первых, до сих пор непонятны догреческие надписи Крита и Кипра. Во-вторых, в Линейном В тоже не всё было просто.

+59

Mitridat1974 Jan 24 2022 at 06:45

Недорасшифрованные письменности Крита, Кипра и филистимлян. Часть 3: Формальный анализ, корпуса и палеография

12 min

Learning languagesNatural Language Processing*

Пришло время вернуться к теме, отложенной из-за большого количества работы.

Напомню, в первой части был рассказ о дешифровке древнейшей греческой письменности – Линейного письма В, исчезнувшего вскоре после Троянской войны, когда у дешифровщиков не было привычных «верных помощников» - параллельных текстов на других языках или хотя бы близкородственных письменностей (был разве что очень «дальний родственник»).

Во второй части речь пошла о более древних письменностях Крита, Линейном А и иероглифах, а также родственном кипро-минойском письме о. Кипр, на которых та же методика уже не сработала, поскольку их язык (или языки) имел(и) в принципе иную структуру. Все эти письменности (вместе с дешифрованными Линейным В и кипрским греческим) в настоящее время известны как «эгейские письменности» (по месту их происхождения в бассейне Эгейского моря).

Рассказав о весьма медленном прогрессе в их изучении, мы остановились на ряде «чисто человеческих» ошибок, совершённых дешифровщиками – например, в попытках определить язык надписей. Но там, где человеческий интеллект слаб – возможно, поможет компьютерная лингвистика, если правильно поставить задачу?

+22

blognetology Mar 17 2022 at 12:53

NLP-инженер: чем он занимается и как помогает компаниям становиться умнее

8 min

6.6K

Нетология corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*Data Engineering*

NLP-инженер (NLP от англ. natural language processing) — специалист, обладающий компетенциями в сферах прикладной математики, лингвистики и разработки программного обеспечения. Сегодня предлагаем поближе познакомиться с профессией NLP-инженера, узнать об основных задачах и роли в компании. Помог разобраться в непростой теме Иван Харченко, руководитель математико-лингвистического отдела системы управления репутацией и медиа анализа «СКАН-Интерфакс».

PapaBubaDiop Dec 22 2014 at 17:06

6 игр за 6 недель — игра пятая

2 min

28K

Papa Buba Diop corporate blogDevelopment for iOS*Development of mobile applications*

-Холмс, как вы узнали, что я пхп-специалист?
-Элементарно, Ватсон, у вас слон на свитере.

Игра пятая — Пляшущие человечки. Создана по мотивам рассказа Конан-Дойля The adventure of dancing men.

Игра (на момент публикации статьи) не прошла модерацию в магазине. Я объясню почему. Сюжет игры классический — берется 10 строк текста из бессмертного романа А.С. и одинаковые буквы меняются на одинаковые символы. Лингвисты мгновенно расшифровывают. Порог вхождения — высокий. В результате месяца игры я наизусть выучил Евгения Онегина.

Впрочем, картинку типа этой — расшифруют все, кто говорит по-русски.

Рисунок 1. Слово из трех букв

Это слово — либо КАК, либо ИЛИ, либо ОНО, либо ТОТ. Конечно, любители немецкого скажут, что это второе слово из фразы ХЕНДЕ ХОХ. Но нет, Пушкин не знал немецкого.

Вернусь к вопросу о непрошедшей проверке.
На экране с очередной загадкой всегда горит строка подсказки — в ней все символы выстроены в порядке убывания их наличия в тексте. Самые распространенные буквы обычно Е Н или О.

Рисунок 2. Строка подсказки

Так вот, в этой строке подсказки затаилась крамола. Одна из картинок не прошла модерацию.
Угадайте какая?
В комментариях я отвечу на этот вопрос, первому угадавшему — приз, ~~наушники от iPhone 6 Plus~~.

UPD.
Выиграл мистер sad.

Читать дальше →

+37

Maslukhin Dec 5 2014 at 15:30

Немцы создали библиотеку пьяных аудиозаписей

1 min

21K

Data Mining*Big Data*

Эпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.

Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.

Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).

Читать дальше →

+27

OzzyTech Sep 19 2015 at 22:00

Сколько твитов нужно, чтобы узнать ваш характер?

3 min

17K

PalitrumLab corporate blogBrand Analytics corporate blogSemantics*Data Mining*Big Data*

Экстенсивный рост количества неструктурированных данных (твитов, постов, комментов, фото и видео), генерируемый человечеством – и фантастические возможности, и головная боль для многих старых и новых индустрий.

На днях мы уже приводили фактографию по объемам количества сообщений, производимых человечеством в сутки, понятно, что миллиарды высказываний требуют совершенно других решений и технологий. «Старые» (ужас, прошло 3-5 лет, и уже старые) подходы и люди, их разрабатывающие, борются за место под солнцем. Но…

В качестве классического примера приводим перевод недавнего материала от подразделения IBM Watson:

Читать дальше →

Ontaelio May 20 2016 at 11:32

Может ли машина научить английскому языку?

5 min

17K

Skyeng corporate blogPython*Machine learning*

Биткоин-бот имени Дональда Трампа, победа AlphaGo над одним из сильнейших игроков в го Ли Седолем, изучение английского языка — что объединяет эти три ситуации? Везде в той или иной степени присутствует машинное обучение.

Компьютер может не только генерировать сюжетную канву, как Scheherazade, или отвечать на письма вместо пользователей, как Google Smart Reply, но и создавать идеальные учебники английского языка.

Читать дальше →

Ontaelio May 19 2016 at 19:41

Сосчитать незримое: достоверно определяем словарный запаc

9 min

21K

Skyeng corporate blogSemantics*Algorithms*

В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса – задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.

Читать дальше →

+20

apborezkiy Mar 11 2017 at 15:12

Универсальный грамматический анализатор естественных языков с нуля. Выпуск 1

13 min

13K

Compilers*

Компиляторы, интерпретаторы… Сколько им посвещено книг и проектов! Баста, надоело! А вот сунешся в область анализа естественных языков, и никакой информации! А все что есть как-то очень сложно, непонятно и не универсально. Была у меня идея создать средневековую лингвистическую новеллу. Чтобы можно было разговаривать с персонажами на каком нибудь древнем естественном или вымышленном языке. На Латыни например? И на Квенья. И чтобы они понимали. А почему бы и нет?

Читать дальше →

+33

habit Oct 1 2015 at 14:27

Google слышит лучше, искать проще

4 min

12K

ua-hosting.company corporate blogSoundIT-companies

Google объявил о том, что они доработали свою систему голосового поиска для того что бы добиться, улучшенного распознавания речи пользователя в шумных местах.

Это всегда была одна из лучших систем распознавания речи, особенно она удобна при поиске с использованием смартфонов. Теперь функция голосового поиска стала еще более развитой чем когда-либо. Блог Google Research описывает в общих чертах улучшения, которые были приняты в обновленной системы.

Читать дальше →

+18