Pull to refresh
4
0
Sergey Vyazmin @Vyazmin

User

Send message

Итоговые проекты курса Deep Learning in Natural Language Processing (by DeepPavlov Lab)

Reading time5 min
Views7.4K
Недавно завершился «Deep Learning in Natural Language Processing», открытый образовательный курс по обработке естественного языка. По традиции кураторы курса — сотрудники проекта DeepPavlov, открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Курс проводился при информационной поддержке сообщества Open Data Science. Если нужно больше деталей по формату курса, то вам сюда. Один из ключевых элементов «DL in NLP» — это возможность почувствовать себя исследователем и реализовать собственный проект.

Периодически мы рассказываем на Medium о проектах, которые участники создают в рамках наших образовательных программ, например о том, как построить разговорного оракула. Сегодня мы готовы поделиться итогами весеннего семестрового курса 2020 года.



Немного данных и аналитики


В этом году мы побили все рекорды по численности курса: в начале февраля записавшихся было около 800 человек. Скажем честно, мы не были готовы к такому количеству участников, поэтому многие моменты придумывали на ходу вместе с ними. Но об этом мы напишем в следующий раз.

Вернемся к участникам. Неужели все окончили курс? Ответ, конечно, очевиден. С каждым новым заданием желающих становилось все меньше и меньше. Как итог — то ли из-за карантина, то ли по другим причинам, но к середине курса осталась только половина. Ну что ж, а дальше пришлось определяться с проектами. В качестве итоговых участниками было заявлено семьдесят работ. А самый популярный проект — Tweet sentiment extraction — девятнадцать команд пытались выполнить задание на Kaggle.

Подробнее про представленные проекты


На прошлой неделе мы провели заключительное занятие курса, где несколько команд представили свои проекты. Если вы пропустили открытый семинар, то мы подготовили запись. А ниже мы постараемся кратко описать реализованные кейсы.
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Comments0

Чат-бот своими руками: история одного велосипеда

Reading time7 min
Views9K


Привет, хабр! Сегодня я расскажу о том, как своими руками с нуля собирались мозги для чат-бота, умеющего создавать резюме на основе беседы с человеком. Речь пойдет о том, как развивался написанный для этого дела велосипед, какие трудности встречал на своем пути и как изменялся в целях преодоления этих трудностей. Все описанные события происходили в процессе моего обучения в Школе программистов HeadHunter в 2017 году. Кому интересно — добро пожаловать под кат.
Читать дальше →
Total votes 17: ↑11 and ↓6+5
Comments0

Пустобрёх GPT-3: генератор языка от OpenAI понятия не имеет, о чём говорит

Reading time7 min
Views14K

Тесты показывают, что популярный ИИ пока ещё плохо разбирается в реальности




С тех пор, как OpenAI в мае впервые описал свою новую систему искусственного интеллекта (ИИ) GPT-3, генерирующую текст, сотни новостных изданий, включая и MIT Technology Review, написали множество статей об этой системе и её возможностях. В твиттере активно обсуждаются её сильные стороны и потенциал. В The New York Times опубликовали большую статью по этому поводу. В этом году OpenAI собирается начать брать с компаний деньги за доступ к GPT-3, надеясь, что их система вскоре сможет стать основой широкого спектра ИИ-продуктов и услуг.

Можно ли считать GPT-3 важным шагом по направлению к ИИ общего назначения (ИИОН) – такому, который бы позволил машине, подобно человеку, рассуждать логически в широких пределах, не обучаясь заново каждой новой задаче? Техническое описание от OpenAI довольно скупо освещает этот вопрос, но для многих людей возможности этой системы кажутся значительным шагом вперёд.
Читать дальше →
Total votes 15: ↑10 and ↓5+5
Comments42

Как научить свою нейросеть генерировать стихи

Reading time10 min
Views54K
Умоляю перестань мне сниться
Я люблю тебя моя невеста
Белый иней на твоих ресницах
Поцелуй на теле бессловесном

Когда-то в школе мне казалось, что писать стихи просто: нужно всего лишь расставлять слова в нужном порядке и подбирать подходящую рифму. Следы этих галлюцинаций (или иллюзий, я их не различаю) встретили вас в эпиграфе. Только это стихотворение, конечно, не результат моего тогдашнего творчества, а продукт обученной по такому же принципу нейронной сети.

Вернее, нейронная сеть нужна лишь для первого этапа — расстановки слов в правильном порядке. С рифмовкой справляются правила, применяемые поверх предсказаний нейронной сети. Хотите узнать подробнее, как мы это реализовывали? Тогда добро пожаловать под кат.
Читать дальше →
Total votes 76: ↑75 and ↓1+74
Comments30

Если интересно, этот текст написан человеком

Reading time4 min
Views8.6K
«Висконсин явно вышел на победный путь, выигрывая 51-10 после третьей четверти матча. Команда увеличила своё преимущество, когда Рассел Вилсон нашёл пасом Якоба Петерсена, и тот совершил тачдаун после семиметрового рывка, сделав счёт 44-3».

Этими словами начинается фрагмент новостной заметки, опубликованный через 60 секунд после окончания третьей четверти футбольного матча между университетскими командами Висконсина и Невады. Хотя на первый взгляд трудно понять, но данная заметка полностью написана компьютерной программой.

Генератор журналистских текстов создан в компании Narrative Science, которая ведёт разработки в области искусственного интеллекта.
Читать дальше →
Total votes 79: ↑65.5 and ↓13.5+52
Comments47

NaNoGenMo: как компьютеры пишут новеллы

Reading time9 min
Views10K

Ноябрь считается месяцем литературного творчества. Каждый год в интернете проходит мероприятие NaNoWriMo (National Novel Writing Month). Участники должны до конца месяца написать новеллу длиной не менее 50000 слов. За 17 лет в нем поучаствовали больше 20000 человек.


В 2013 году у программистов появилось аналогичное соревнование — NaNoGenMo (National Novel Generation Month). Задача NaNoGenMo — написать программу, которая сгенерирует новеллу длиной 50000 слов или больше. При этом требования к новелле довольно слабые — подойдет любой текст достаточной длины. Как вы увидите, это может быть сборник рассказов, пьеса, кулинарная книга, словарь или туристический путеводитель. На самом деле, произведение не обязано даже быть текстовым.


image

Графическая новелла «Сгенерированный детектив»

Читать дальше →
Total votes 24: ↑23 and ↓1+22
Comments5

Генерация художественных картин в нейросети, обученной для распознавания порно

Reading time4 min
Views54K
Предупреждение: статья содержит абстрактные изображения обнажённого тела и может не подходить для просмотра на рабочем месте


Некоторые примеры абстрактного искусства, сгенерированного с помощью нейросети open_nsfw

Недавно компания Yahoo открыла исходный код нейросети open_nsfw. Это специально обученная нейросеть остаточного обучения (ResNet), которая классифицирует изображения, выставляя им «оценку неприличности» от 0 до 1. Программа предназначена для автоматического выявления картинок NSFW, то есть неподходящих для просмотра на рабочем месте. Проще говоря, для выявления порнографии. Естественно, цель состоит в фильтрации таких изображений — удалении их из открытого доступа.

Наверное, компания Yahoo не предполагала, каким именно образом находчивые хакеры применят её интеллектуальную разработку.
Читать дальше →
Total votes 48: ↑43 and ↓5+38
Comments45

Сэм Альтман: генерация идей

Reading time3 min
Views2K
image


Самый распространенный вопрос, который задают потенциальные основатели стартапов, — как придумать идеи для стартапов. Второй наиболее распространенный вопрос — есть ли у вас какие-то идеи для их запуска.

Но дать основателям идею почти всегда не получается. Наличие идей является одним из самых важных качеств для основателя стартапа — вам нужно будет генерировать много новых идей в процессе запуска стартапа.

Y Combinator однажды попробовал провести эксперимент по финансированию, казалось бы, хороших основателей без каких-либо идей. Я думаю, что каждая компания в этом исследовании без идей потерпела неудачу. Оказывается, что у хороших основателей есть много идей для всего, поэтому, если вы хотите быть основателем и не можете придумать идею для компании, вам, вероятно, следует сначала поработать над тем, чтобы стать хорошим генератором идей.

Как это сделать?
Читать дальше →
Total votes 3: ↑1 and ↓2-1
Comments0

Pathfinder — визуальный язык для генерации хореографии

Reading time5 min
Views6.9K


Введение


Pathfinder — это визуальный язык для генерации хореографии.

Генеративные решения в области искусств имеют долгую историю. Решения, использующие компьютер, открывают новые перспективы и поднимают новые вопросы в отношении произведения, вовлечённости и экспрессии. В особенности это относится к музыке и изобразительному искусству. Сейчас работа с танцем и прочими движениями пока ещё пребывает в самом начальном состоянии и, как правило, сводится к алгоритмам оцифровки и визуализации движений тел. Такой подход даёт новаторские выступления, предлагая новые способы восприятия танца. Однако, взгляд на алгоритмы лишь как на способ измерения и преобразования не отражает современную роль алгоритмов в художественном исследовании и генеративном дизайне.
Читать дальше →
Total votes 6: ↑6 and ↓0+6
Comments4

Генерация кроссвордов с помощью SAT солвера

Reading time9 min
Views9.2K
На Хабре было несколько статей про генерацию кроссвордов. В одной из них «Самый сложный кроссворд, составленный компьютером» говорилось про очень сложный кроссворд, составленный компьютером, которому «пришлось немного помочь» вручную. Во второй статье «Алгоритм формирования кроссвордов» рассказывается про алгоритм, созданный автором для составления кроссвордов, и отмечается, что этот «самый сложный кроссворд» остался непокоренным и говорится, что «может быть эта непокоренная вершина вдохновит кого-нибудь на новый штурм!». Что же, можно принять вызов. Что из этого получилось, смотрите под катом.
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments2

Генерация коротких текстов с ограничивающими условиями — для рекламы и других целей

Reading time5 min
Views8.6K
На практике нередко встречается задача не просто написать какой-то текст, а выполнить некоторые условия — например уложить максимум ключевых слов в заданную длину и/или использовать/не использовать определенные слова и словосочетания. Это бывает важно для бизнеса (при составление рекламных объявлений, в том числе, для контекстной рекламы, при SEO-оптимизации сайтов), для образовательных целей (автоматическое составление тестовых вопросов) и в ряде других случаев. Такие задачи оптимизации вызывают много головной боли, т. к. людям относительно легко сочинять тексты, но при этом не так просто написать что-то отвечающее тем или иным критериям «оптимальности». С другой стороны, компьютеры отлично справляются с задачами оптимизации в других областях, но плохо понимают естественный язык, и поэтому им трудно сочинять текст. В данной статье, рассмотрим известные подходы к решению этой задачи и немного поделимся собственным опытом.


Читать дальше →
Total votes 12: ↑7 and ↓5+2
Comments0

Система, которую используют для генерации идей все креативные гении

Reading time4 min
Views9.1K
image

Довольно часто мы слышим о том, что не надо ставить телегу впереди лошади. А как насчет того, чтобы сломать стереотипы, и начать проект, имея лишь общее представление о том, что должно получиться в итоге? О том, как это делают Крис Рок, Фрэнк Гери и команда студии Pixar, рассказывает Питер Симс.
Читать дальше →
Total votes 11: ↑8 and ↓3+5
Comments0

Chatbot на базе рекуррентной нейронной сети своими руками за 1 вечер/6$ и ~ 100 строчек кода

Reading time10 min
Views109K
В данной статье я хочу показать насколько просто сегодня использовать нейронные сети. Вокруг меня довольно много людей одержимы идеей того, что нейронки может использовать только исследователь. И что бы получить хоть какой то выхлоп, нужно иметь как минимуму кандидатскую степень. А давайте на реальном примере посмотрим как оно на самом деле, взять и с нуля за один вечер обучить chatbot. Да еще не просто абы чем а самым что нинаесть ламповым TensorFlow. При этом я постарался описать все настолько просто, что-бы он был понятен даже начинающему программисту! В путь!

image
Читать дальше →
Total votes 57: ↑54 and ↓3+51
Comments26

Нейросетевой визуальный поиск

Reading time10 min
Views5.2K
История знает много примеров преждевременных открытий и изобретений. Хочу рассказать об одном из них.

Речь пойдет о визуальном поисковике, получившим первые западные венчурные инвестиции в области ИТ в России, построенном на основе активных семантических нейронных сетях. Под катом мы расскажем об его основных принципах работы и архитектуре.
Читать дальше →
Total votes 6: ↑6 and ↓0+6
Comments43

Основы Natural Language Processing для текста

Reading time12 min
Views191K
Обработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!


Total votes 33: ↑31 and ↓2+29
Comments9

Эвристическая сеть — аналог рекуррентной нейронной сети для программы чат бот

Reading time5 min
Views8.9K
В статье представлен алгоритм эвристической сети по некоторым свойствам аналогичный рекуррентной нейронной сети для программы виртуального собеседника. Алгоритм усовершенствован с использованием толкового словаря русского языка. В эвристическую сеть внедрен генератор новых ответов на базе статистической информации базы знаний.
Читать дальше →
Total votes 16: ↑13 and ↓3+10
Comments8

Искусственный интеллект в области юриспруденции. Часть 4

Reading time2 min
Views2.4K

В продолжение цикла статей мы решили выложить на Хабр запись недавнего мероприятия Moscow Legal Hackers, посвященного теме создания юридического ИИ.


Основные вопросы мероприятия:


  • зачем в юриспруденции ИИ? какие есть боли и проблемы?
  • как на архитектурном уровне выглядит юридический ИИ?
  • какие задачи нужно решить, чтобы успешно внедрить ИИ?
  • бонусом небольшой экскурс в историю нейронных сетей.

Картинка для привлечения внимания:
Представь что ты будешь знать завтра, когда заработает юридический ИИ.



Полное видео и таймкоды записи — под катом:

Total votes 9: ↑4 and ↓5-1
Comments11

Искусственный интеллект в области юриспруденции. Статья 3

Reading time45 min
Views6.8K

Введение


Мы продолжаем цикл статей на тему юридического искусственного интеллекта, аспектов его разработки и перспектив практического применения на отечественном рынке. В предыдущих публикациях мы неоднократно говорили, что, по нашему мнению, разработка Legal AI может быть обеспечена с помощью создания и применения нового семантического блока, включающего в себя:


  • инструменты лингвистического анализа текстов на естественном языке;
  • структурированную модель юридических знаний (графы знаний и онтологии);
  • предобученные нейронные сети.

В первой статье мы детально исследовали существующие инструменты процессинга русскоязычного текста. Во второй статье мы рассмотрели подходы к созданию продуктов на основе искусственного интеллекта, а также вопросы взаимодействия специалистов в области IT и юриспруденции. В настоящей статье мы предлагаем погрузиться в тему онтологий и ответить на следующие вопросы:


  1. Какова роль онтологий в процессе создания искусственного интеллекта?
  2. Почему существующие онтологии в области права неприменимы для Legal AI, несмотря на многолетние попытки зарубежных специалистов структурировать юридические знания?
  3. Какими свойствами должны обладать онтологии для Legal AI, чтобы решать практические задачи?

Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments8

Как объединить 10 BERT-ов для задач общего понимания текста?

Reading time10 min
Views2.5K

Всем привет! В этом посте я расскажу о проекте, который выполнил совместно с командой Google Brain во время исследовательской стажировки в Цюрихе. Мы работали над моделью обработки естественного языка, которая решает задачи на общее понимание текста (задачи из набора GLUE: General Language Understanding Evaluation).


BERT-подобные модели мы комбинировали с помощью маршрутизирующих сетей и добились того, что при увеличении мощности скорость вывода почти не изменилась. Финальная модель объединяет 10 BERTlarge моделей и имеет более 3,4 миллиарда параметров. Подробности под катом!


Читать дальше →
Total votes 1: ↑1 and ↓0+1
Comments2

Автоматы и разумное поведение. Основные положения концепции (подхода) Н.М. Амосова

Reading time121 min
Views6.7K



В продолжении одной из тем, поднятых в публикации Александра Ершова (Ustas) «Нейросетевой визуальный поиск», предлагаю читателям Хабра погрузиться в мир концепции Н.М. Амосова, ее $i$-моделей, М-сетей и автоматов. Как я надеюсь, именно они — наиболее вероятные кандидаты на роль «серебряной пули», которая позволит энтузиастам «сильного интеллекта» или, в другой терминологии, «искусственного разума» приблизиться к пониманию путей его реализации.


В данной статье автор попытался предельно сжато (конспективно) изложить основные положения концепции Николая Михайловича Амосова. Этот подход достаточно детально изложен в коллективной монографии «Автоматы и разумное поведение. Опыт моделирования», авторами которой был Н.М. Амосов и его соратники: A.M. Касаткин, Л.М. Касаткина и С.А. Талаев. Могу сказать, что это единственная монография, из всех работ по теме «искусственного разума», с которыми я смог познакомиться до сегодняшнего дня, содержащая ясное, обстоятельное, всестороннее, систематическое и в тоже время убедительное, а, в отдельных местах — даже высокохудожественное (говорю это без малейшей доли иронии) — изложение теоретических основ авторской концепции «искусственного разума», а также полученных на ее основе экспериментальных результатов.


Обращаюсь ко всем, у кого есть задор, жгучий интерес к теме «искусственного разума», а также желание поближе познакомиться с подходом Н.М. Амосова — читайте дальше...

Читать дальше →
Total votes 13: ↑10 and ↓3+7
Comments191
1

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Date of birth
Registered
Activity