Pull to refresh
  • by relevance
  • by date
  • by rating

Ученые разработали метод обучения ИИ с меньшим числом параметров, который превзошел GPT-3

Algorithms *Machine learning *Artificial Intelligence
image

Команда ученых из Мюнхенского университета Людвига-Максимилиана разработала Pattern-Exploiting Training (PET), методику глубокого обучения для моделей обработки естественного языка (NLP). Используя PET, команда обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.

Разработчики утверждают, что модели требуется до 99,9% меньше параметров. Итерационный вариант iPET способен обучить несколько поколений моделей и может использоваться без каких-либо обучающих данных.
Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Views 4.2K
Comments 3

Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

Open source *Machine learning *Artificial Intelligence

В июне OpenAI презентовала модель машинного обучения GPT-3, обученную на 175 млрд параметров. Эта модель является одной из самых сложных. В отличие от предшественников GPT-2 и GPT-1 ее исходный код или обучающий набор данных решили не открывать. Теперь создатели проекта GPT-Neo от EleutherAI решили воссоздать аналог GPT-3.

Коммерческая лицензия на GPT-3 доступна только для Microsoft, которая инвестировала $1 млрд в OpenAI и построила суперкомпьютер на базе Azure, предназначенный для дальнейших исследований компании.

Было предпринято уже несколько попыток воссоздать GPT-3 с открытым исходным кодом. Однако нынешнюю можно назвать самой серьезной. Создатели GPT-Neo Коннор Лихи, Лео Гао и Сид Блэк собирают рядовых исследователей в области машинного обучения с открытым исходным кодом, чтобы начать проект не позднее августа.

GPT-Neo это кодовое название серии языковых моделей, основанных на преобразователях в стиле архитектуры GPT с открытым исходным кодом. У проекта есть кодовая база, построенная на Tensorflow-mesh (для обучения на TPU) и на Deepspeed (для обучения на GPU). Обе могут масштабироваться до размеров GPT-3, но проекту пока не хватает TPU для полного обучения модели со 175 млрд параметров.

Большую часть модели уже построили и обучили модели размера GPT-2, а также реализовали несколько экспериментальных архитектур. В настоящее время ведется работа над завершением репликации модели размера GPT-2.

Как отметили исследователи, самая большая модель, которую им приходилось тренировать для одного шага, включала 200 млрд параметров.

В октябре команда ученых из Мюнхенского университета Людвига-Максимилиана разработала методику глубокого обучения для моделей обработки естественного языка. Она обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.

А на днях в Google представили метод, который, по утверждению компании, позволил обучить языковую модель, содержащую более триллиона параметров. Исследователи заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 3.9K
Comments 4

OpenAI: более 300 сторонних приложений работают на GPT-3

Development of mobile applications *Machine learning *Artificial Intelligence Natural Language Processing *

OpenAI сообщила, что спустя девять месяцев после выпуска NLP-алгоритма GPT-3 его используют более 300 приложений. Модель генерирует, в среднем, 4,5 млрд слов в день.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Views 2.1K
Comments 0

Яндекс и НИУ ВШЭ в Санкт-Петербурге открывают Лабораторию естественного языка

Artificial Intelligence IT-companies

В лаборатории будут исследовать тексты на естественном языке, разрабатывать методы deep learning для их генерации и анализировать данные в компьютерной лингвистике. «Яндекс» на правах партнера проекта будет помогать привлекать ведущих специалистов в области искусственного интеллекта и анализа данных для работы в лаборатории на долгосрочной основе. Руководить лабораторией будет Иван Ямщиков, научный сотрудник «Яндекса» и доцент НИУ ВШЭ в Санкт-Петербурге.

Читать далее
Total votes 12: ↑9 and ↓3 +6
Views 800
Comments 0

Microsoft добавила в Power Fx автодополнение для кода на GPT-3

Artificial Intelligence IT-companies

Microsoft внедрила модель естественного языка OpenAI GPT-3 в собственную платформу Power Apps. Нововведение позволит создавать приложения практически без знания формул или основ программирования.

Читать далее
Total votes 14: ↑14 and ↓0 +14
Views 2.6K
Comments 4

Интеллектуальные диалоговые системы с интерфейсом на естественном языке

Artificial Intelligence
Sandbox
Как Вы уже наверно поняли, речь пойдет о так называемых виртуальных собеседниках или, как их еще называют, чат-ботах. В названии поста я умышленно использовал понятие «интеллектуальная диалоговая система» (для краткости дальше по тексту сокращенно — ИДС), поскольку считаю, что понятия «чат-бот» и «виртуальный собеседник» полностью дискредитированы и не отражают всей сути этого «явления».

В посте пойдет речь о проектировании ИДС и сложностях, которые при этом возникают. Также будут рассмотрены распространенные алгоритмы, используемые в ИДС, их достоинства, недостатки и многое многое другое. Если эта тема Вам интересна, добро пожаловать под кат.
Читать дальше →
Total votes 26: ↑23 and ↓3 +20
Views 8.4K
Comments 76

Наиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста

Programming *
Sandbox
Я программист php, но захотел расширить горизонты, узнать что ни будь новое. Поэтому решил поучить другие языки и технологии. Выбор пал пока на perl, python и mysql.

Был взят замечательный пакет pymorphy , библиотека Флибуста (только .fb2), sedna для хранения fb2, mysql percona 5.1 для хранения статистики и маленький напильник. Была создана примитивная myisam табличка куда записывалась сколько встречалось предложение, и описание частей речи этого предложения.
Читать дальше →
Total votes 63: ↑52 and ↓11 +41
Views 3.7K
Comments 43

NLPub — каталог лингвистических решений

Self Promo
Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать дальше →
Total votes 47: ↑46 and ↓1 +45
Views 8.5K
Comments 39

Mathlingvo — блог о компьютерной лингвистике

Self Promo
Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать дальше →
Total votes 29: ↑27 and ↓2 +25
Views 4.7K
Comments 8

Google купил новостной стартап Wavii за более чем 30 млн долларов

Data Mining *
image

Google договорился о приобретении стартапа Wavii за сумму более 30 млн долларов, сообщает TechCrunch. Что представляет собой стартап можно понять из описания журналиста Time: «Wavii ищет в Интернете, находит новости и обобщает их, со ссылками на полные статьи из множества источников». При этом он использует собственную технологию обработки естественного языка.

За стартап из Сиэтла боролись Apple и Google, и в итоге выиграл последний. Apple хотел использовать технологии агрегации и обработки естественного языка в своём Siri, но в итоге команда из 25 человек переезжает в подразделение Google, занимающееся проектом «Сеть знаний» (Knowledge Graph).
Читать дальше →
Total votes 31: ↑27 and ↓4 +23
Views 19K
Comments 28

Подбор мнемонических цитат для автомобильных и телефонных номеров

PHP *Programming *
Sandbox
Порой бывает сложно запомнить цифровую или цифро-буквенную последовательность, но если при помощи простого правила, строка стихотворения, выученного в детстве может быть преобразована к этому числу — всё станет легче. В этой статье методами Монте-Карло сравниваются результаты подбора таких отрывков при помощи двух различных способов кодирования чисел.

Приведу пример: Если кодировать цифры согласными буквами, то каждое слово или предложение соответствует целому числу. Обычно выбирают следующий способ кодирования 1-р, 2-д, 3-т, 4-ч, 5-п, 6-ш, 7-с, 8-в, 9-м (потому что 9 это “много”). Тогда слова “добрый мой приятель” соответствуют числу 219513. Но это несколько неудобно, поскольку без специальной подготовки не получается быстро выкинуть ненужные буквы, тем не менее, “добрый мой приятель” забыть довольно сложно, что всегда позволит вам находясь в спокойной обстановке вспомнить число 219513. И это весьма заманчиво, поскольку само по себе число это является весьма абстрактным и может запросто перепутаться с другими такими же абстрактными числами.
Читать дальше →
Total votes 29: ↑25 and ↓4 +21
Views 13K
Comments 12

Подсветка естественного языка

JavaScript *Google Chrome
Идея такой подсветки у меня возникла в связи с законопроектом о приравнивании компьютерных языков иностранным 416D65726963612043616E20436F646520, рассмотренным конгрессом США в декабре 2013. Использование подсветки синтаксиса при создании программ уже давно принятая практика, но вопрос подсветки естественных языков на момент написания этого материала ограничивался парой коротких обсуждений на англоязычных форумах. Тем не менее, если можно облегчить визуальное восприятие текста путём автоматического выделения некоторых слов почему бы не попробовать.
Читать дальше →
Total votes 28: ↑18 and ↓10 +8
Views 12K
Comments 33

Обработка естественного языка в задаче мониторинга предвыборной агитации

Data Mining *Algorithms *
Sandbox
В данной статье мы рассмотрим процесс разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ с использованием обработки естественного языка и машинного обучения.
Также я остановлюсь на особенностях и нюансах, ведь задача стояла довольно специализированная: необходимо было выделять агитацию, и, если она может нарушать закон — оперативно уведомлять Избирком. Забегая вперед скажу, что с задачей я успешно справился.

В задаче разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ применяются наработки из нескольких смежных областей знаний:
  • автоматизированная обработка текстов (текстмайнинг),
  • обработка естественного языка,
  • машинное обучение.

Читать дальше →
Total votes 16: ↑9 and ↓7 +2
Views 8.8K
Comments 4

Современные аспекты представления текстов при анализе естественного языка: классические и альтернативные подходы

Search engines *Algorithms *
Sandbox

Введение


В computer science из года в год все более популярной становится тема обработки естественного языка. Из-за огромного количества задач, где требуется подобный анализ, сложно переоценить необходимость автоматической обработки текстовых документов.

В этой статье мы максимально просто постараемся описать наиболее популярные современные подходы к представлению текстовых документов для компьютерной обработки. А на одном из них, который в настоящее время еще не получил широкого распространения, однако имеет на это все шансы, остановимся более подробно, поскольку этот метод мы используем в SlickJump при разработке алгоритмов, например, контекстного таргетинга рекламы.

Отметим, что приводимые подходы применимы не только к текстам, а вообще к любым объектам, которые можно представить в виде символьных последовательностей, например, какие-нибудь макромолекулы (ДНК, РНК, протеины) из генетики. Всего мы рассмотрим 4 метода:

  1. Признаковое описание.
  2. Попарное наложение (выравнивание) текстов.
  3. Формирование профиля и скрытой марковской модели.
  4. Представление фрагментами.

Итак, приступим.
Читать дальше →
Total votes 23: ↑21 and ↓2 +19
Views 9.4K
Comments 2

Deep Learning, NLP, and Representations

Search engines *Semantics *Big Data *Machine learning *
Sandbox
Предлагаю читателям «Хабрахабра» перевод поста «Deep Learning, NLP, and Representations» крутого Кристофера Олаха. Иллюстрации оттуда же.

В последние годы методы, использующие глубокое обучение нейросетей (deep neural networks), заняли ведущее положение в распознавании образов. Благодаря им планка для качества методов компьютерного зрения значительно поднялась. В ту же сторону движется и распознавание речи.

Результаты результатами, но почему они так круто решают задачи?



В посте освещено несколько впечатляющих результатов применения глубоких нейронных сетей в обработке естественного языка (Natural Language Processing; NLP). Таким образом я надеюсь доходчиво изложить один из ответов на вопрос, почему глубокие нейросети работают.
Вглубь по кроличьей норе
Total votes 22: ↑21 and ↓1 +20
Views 56K
Comments 17

Как мы придумывали систему анализа текстов

MeanoTek corporate blog Semantics *Programming *Machine learning *
Доброго времени суток всем. Это наш первый пост в блог стартапа «Meanotek», и наверное он будет больше ознакомительного характера. Чтобы не было совсем скучно читать, мы попробуем рассказать историю, о том как одна практическая задача привела нас к созданию полноценной системы «понимания» текста компьютером, и что из этого получилось.

Мысль научить компьютер общаться на человеческом языке у меня появилась еще в школе, когда у меня дома был один из первых советских аналогов IBM PC, с языком программирования GW BASIC. Понятно, что далеко эта задумка в то время не ушла, потом ее заслонили другие более важные дела, но совершенно неожиданно она всплыла вновь спустя много лет, уже в связи с конкретной потребностью.

Собственно идея пришла в голову во время работы над другим проектом — сайтом поиска отзывов reviewdot.ru. Идея reviewdot.ru была в следующем — пользователь вводит запрос, например «зеркальный фотоаппарат для начинающих» — и получает список ссылок на отзывы в интернете, которые касаются именно этого вопроса. Или к примеру, чтобы по запросу «что ломается в стиральной машине Indesit?” появлялись ссылки на отзыв пользователей марки Indesit, у которых что-то сломалось. Вопрос ценности данного ресурса для людей пока оставим за скобками, и поговорим немного о технической стороне реализации.
Читать дальше →
Total votes 14: ↑11 and ↓3 +8
Views 16K
Comments 35

Классификация предложений с помощью нейронных сетей без предварительной обработки

MeanoTek corporate blog Semantics *Programming *Algorithms *Machine learning *
Довольно часто встречается задача классификации текстов — например, определение тональности (выражает ли текст позитивное мнение или отрицательное о чем-либо), или разнесения текста по тематикам. На Хабре уже есть хорошие статьи с введением в данный вопрос.

Сегодня я хочу поговорить о проблеме классификации отдельных предложений. Решение этой задачи позволяет делать много интересного, например, выделять положительные и отрицательные моменты из длинных текстов, определять тональность твитов, является компонентом многих систем отвечающих на естественно-языковые вопросы (классификация типа вопроса), помогает сегментировать веб-страницы на смысловые блоки и многое другое. Однако, классификация отдельных предложений значительно сложнее классификации больших блоков текста — в одном предложении значительно меньше полезных признаков, и велико влияние порядка слов. Например: «как положено фильму ужасов, этот фильм был ну очень жутким» — содержит негативные слова («ужас», «жуткий»), но выражает положительное мнение о фильме, «все было ужасно красиво», или даже «отличный фильм, ничего не скажешь, только зря деньги потратили».
Читать дальше →
Total votes 28: ↑25 and ↓3 +22
Views 68K
Comments 21

Chatbot на нейронных сетях

MeanoTek corporate blog Website development *Semantics *Machine learning *
Недавно набрел на такую статью. Как оказалось некая компания с говорящим названием «наносемантика» объявила конкурс русских чатботов помпезно назвав это «Тестом Тьюринга»». Лично я отношусь к подобным начинаниям отрицательно — чатбот — программа для имитации разговора — создание, как правило, не умное, основанное на заготовленных шаблонах, и соревнования их науку не двигают, зато шоу и внимание публики обеспечено. Создается почва для разных спекуляций про разумные компьютеры и великие прорывы в искусственном интеллекте, что крайне далеко от истины. Особенно в данном случае, когда принимаются только боты написанные на движке сопоставления шаблонов, причем самой компании «Наносемантика».

Впрочем, ругать других всегда легко, а вот сделать что-то работающее бывает не так просто. Мне стало любопытно, можно ли сделать чатбот не ручным заполнением шаблонов ответа, а с помощью обучения нейронной сети на образцах диалогов. Быстрый поиск в Интернете полезной информации не дал, поэтому я решил быстро сделать пару экспериментов и посмотреть что получится.
Читать дальше →
Total votes 28: ↑24 and ↓4 +20
Views 57K
Comments 9

Создание своей модели для извлечения информации из текста с помощью web-API от Meanotek

MeanoTek corporate blog Website development *Semantics *.NET *Machine learning *
Сейчас есть много сервисов, которые позволяют извлекать некоторую информацию из текстов, например именованные сущности, такие как имена людей, названия организаций, названия мест, даты, что позволяет решать некоторые интересные задачи. Но намного больше интересных задач остается за скобками.

Что если нужны названия товаров, причем не всех, а каких-то определенных? Или мы хотим интерпретировать команды для мобильного приложения? Разделить адрес на название улицы, дома, города? Как насчет выделить важные факты из обращения клиента в службу поддержки: «Я возмущен качеством обслуживания в вашей компании. Не так давно, я заказывал ноутбук, но менеджер разговаривал некорректно и сказал, что товар закончился». Сегодня я расскажу о новом сервисе позволяющим решать широкий круг задач извлечения информации из текста. Этот сервис мы только что открыли для публичного доступа.
Читать дальше →
Total votes 9: ↑8 and ↓1 +7
Views 15K
Comments 0

Text Analytics as Commodity: обзор приложений текстовой аналитики

Textocat corporate blog Search engines *Semantics *Data Mining *Development for e-commerce *
text analytics landscapeЕсли бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение


Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как
  • категоризация текста
  • извлечение информации
  • информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.
Читать дальше →
Total votes 6: ↑6 and ↓0 +6
Views 12K
Comments 2