Pull to refresh

Пять книг про NLP, с которых можно начать

Level of difficultyEasy
Reading time3 min
Views16K

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их. 

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments7

Вашингтон пытается заставить TSMC производить микросхемы в США

Reading time3 min
Views16K


Американские власти усилили давление на Taiwan Semiconductor Manufacturing Co. (TSMC) для переноса производства микросхем военного назначения с Тайваня в США, чтобы гарантировать отсутствие китайского вмешательства в производство чипов, сообщают источники Nikkei Asian Review.

TSMC производит компьютерные чипы для истребителей F-35 и спутников, служит ключевым поставщиком для Apple, AMD, Google, Qualcomm и Huawei, среди прочих. Это крупнейший производитель микросхем в мире (50% мирового рынка полупроводников), и раньше ему удавалось обходить подобные требования США, даже под угрозой санкций.
Читать дальше →
Total votes 34: ↑34 and ↓0+34
Comments166

Системы рекоммендаций: введение в гибридные системы

Reading time6 min
Views2.8K
Системы рекомендаций:
Советы от машины
Холодное начало
— Введение в гибридные системы
искусственные имунные системы и эффект идиотипов


Продолжим с того момента, на котором мы остановились в прошлый раз: мы рассмотрели несколько способов решения проблемы холодного начала, теперь я предлагаю рассмотреть другие проблемы систем рекомендаций (далее просто СР) и подумать, как разные типы СР могут дополнять друг-друга. Сразу оговорюсь, что я не буду подробно рассматривать способы решения той или иной проблемы. Цель этой статьи — лишь помочь разработчикам ориентироваться в разновидностях СР и в связанных с ними проблемах.

Для начала все-таки придется дополнить классификацию СР. Przemyslaw Kazienko и Pawel Kolodziejski предложили разделить все СР на пять типов: статистические, коллективные, ассоциативные и информационные. Начнем с самых простых.
Читать дальше →
Total votes 37: ↑35 and ↓2+33
Comments10

Почему в 21 веке геофизики верят в теорию плоской Земли?

Reading time3 min
Views12K

Значительная часть геофизических публикаций в "солидных" журналах используют широко известную поправку к гравитационным данным — редукцию Буге. И все глобальные модели гравики ее используют. Наверное, это что-то очень важное и основано на детально проработанной теории? Давайте посмотрим, как можно графически проиллюстрировать смысл этой поправки. На рисунке показана идеальная плоскопараллельная пластина радиусом 200км, применяемая для вычисления поправки Буге согласно определению:



Рисунок из книги К.Ф. Огородникова «На чем Земля держится», 1953 г.

Читать дальше →
Total votes 37: ↑15 and ↓22+1
Comments32

Курс “Введение в информационный поиск” и немного истории

Reading time3 min
Views4.9K

Меня зовут Павел Браславский, я научный сотрудник JetBrains Research и доцент Питерской Вышки.


Осенью прошлого года я после большого перерыва прочитал курс “Введение в информационный поиск”, на этот раз — для студентов академических программ JetBrains в Питерской Вышке и ИТМО. Comeback получил продолжение — зимой я прочитал мини-курс с обзором моделей информационного поиска и подходов к оценке для сотрудников Tinkoff, а весной — обзорную лекцию про информационный поиск в рамках курса по обработке естественного языка. В этой статье я кратко расскажу о курсе и его “исторических предпосылках”.


image

Читать дальше →
Total votes 10: ↑9 and ↓1+12
Comments0

Автоматическое обучение взаимодействию функций с помощью самонастраиваемых нейронных сетей

Reading time35 min
Views3.2K

Прогноз кликабельности (CTR), цель которого - предсказать вероятность того, что пользователь нажмет на объявление или товар, имеет решающее значение для многих онлайн-приложений, таких как онлайн-реклама и рекомендательные системы. Эта проблема очень сложна, поскольку: 1) входные функции (например, идентификатор пользователя, возраст пользователя, идентификатор элемента, категория элемента) обычно разрежены; 2) эффективное предсказание опирается на комбинаторные функции высокого порядка (они же кросс-функции), которые очень трудоемки для ручной обработки экспертами предметной области и не перечислимы. Поэтому были предприняты усилия по поиску низкоразмерных представлений разреженных и высокоразмерных необработанных объектов и их значимых комбинаций. 

Читать далее
Total votes 3: ↑1 and ↓2-1
Comments0

Последовательное глубокое обучение для мониторинга кредитных рисков с использованием табличных финансовых данных

Reading time22 min
Views3.7K

Машинное обучение играет важную роль в предотвращении финансовых потерь в банковской отрасли. Возможно, наиболее актуальной задачей прогнозирования, является оценка кредитного риска (риска дефолта по долгу). Такие риски могут привести к потерям в миллиарды долларов ежегодно. Сегодня большая часть выгод от машинного обучения в проблеме прогнозирования кредитного риска обусловлена моделями дерева решений с градиентным усилением. Тем не менее, эти выгоды начинают снижаться, если не поддерживаются новыми источниками данных и/или высокотехнологичных, гибких функций. В этой статье мы представляем наши попытки создать новый подход оценки кредитного риска с использованием глубокого обучения, который не предполагает сложного мониторинга, не опирается на новые входные данные модели. Мы предлагаем новые методы выборки транзакций по кредитным картам для использования с глубокими рекуррентными и причинно-следственными сверточными нейронными сетями, которые используют временные последовательности финансовых данных, без особых требований к ресурсам. Показываем, что наш последовательный подход к глубокому обучению с использованием временной сверточной сети превзошел эталонную непоследовательную древовидную модель, добившись значительной финансовой экономии и раннего обнаружения кредитного риска. Мы также демонстрируем потенциал нашего подхода для его использования в производственной среде, где предлагаемая методика выборки позволяет эффективно хранить последовательности в памяти, используя их для быстрого онлайн-обучения и продукций. 

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments3

Как сделать полнотекстовую поисковую машину на 150 строках кода Python

Reading time14 min
Views28K

Полнотекстовый поиск — неотъемлемая часть нашей жизни. Разыскать нужные материалы в сервисе облачного хранения документов Scribd, найти фильм в Netflix, купить туалетную бумагу на Amazon или отыскать с помощью сервисов Google интересующую информацию в Интернете — наверняка вы сегодня уже не раз отправляли похожие запросы на поиск нужной информации в невообразимых объёмах неструктурированных данных. И что удивительнее всего — несмотря на то что вы осуществляли поиск среди миллионов (или даже миллиардов) записей, вы получали ответ за считанные миллисекунды. Специально к старту нового потока курса Fullstack-разработчик на Python, в данной статье мы рассмотрим основные компоненты полнотекстовой поисковой машины и попытаемся создать систему, которая сможет за миллисекунды находить информацию в миллионах документов и ранжировать результаты по релевантности, причём всю систему можно воплотить всего в 150 строках кода на Python!

Читать далее
Total votes 8: ↑6 and ↓2+4
Comments8

Kickstarter + D = DConf 2013

Reading time3 min
Views5.1K
На слуху множество разнообразных проектов, успешно получивших финансирование на Kickstarter. И если обычно они относятся к тематике Habrahabr лишь в том, что тут есть хаб Crowdfunding, то этот случай более примечателен — требуемая сумма была набрано проектом по финансированию конференции по языку программирования D.

Читать дальше →
Total votes 16: ↑14 and ↓2+12
Comments3

Обработка естественного языка в задаче мониторинга предвыборной агитации

Reading time13 min
Views9.1K
В данной статье мы рассмотрим процесс разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ с использованием обработки естественного языка и машинного обучения.
Также я остановлюсь на особенностях и нюансах, ведь задача стояла довольно специализированная: необходимо было выделять агитацию, и, если она может нарушать закон — оперативно уведомлять Избирком. Забегая вперед скажу, что с задачей я успешно справился.

В задаче разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ применяются наработки из нескольких смежных областей знаний:
  • автоматизированная обработка текстов (текстмайнинг),
  • обработка естественного языка,
  • машинное обучение.

Читать дальше →
Total votes 16: ↑9 and ↓7+2
Comments4

Улучшаем генеративных чатботов на нейросети ruGPT3: умный ранжировщик ответов

Reading time16 min
Views6.3K

Нейронные сети все прочнее входят в нашу жизнь. В последнее время особую значимость приобретают исследования, связанные с обучением искусственных нейронных сетей в сфере анализа естественного языка (NLP, NLU) для создания реалистичных, человечных разговорных «скиллов». Одним из первых примеров «человечных» диалоговых решений стала Xiaoice от Microsoft, которая обладала навыками дружелюбности. Позже такие компании как Яндекс, Google [1], Mail.ru и другие выпустили на рынок своих голосовых помощников. Однако все они столкнулись с фундаментальной проблемой: их решения хорошо выполняют запросы пользователей, связанные с четкими командами («расскажи новости»), но совершенно не обладают человечными способностями, качествами характера, эмуляцией чувств, эмпатией и поэтому не способны поддерживать человеческий разговор на различные темы. При этом «видимость человечности» часто обеспечивается набором шаблонных фраз и шуток, подходящих практически в любой ситуации (неспецифичных контексту разговора).

В этой статье мы покажем, как устроен и как работает разработанный нами умный Ранжировщик ответов для нейросеток Трансформер и какой эффект он оказывает на качество разговора любых генеративных чатботов.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments11