Как стать автором
Обновить
44
0
Petr Ermakov @couatl

ML

Отправить сообщение

Насколько естественен естественный язык? Представляем датасет RuCoLA

Время на прочтение 7 мин
Количество просмотров 7.5K


В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Комментарии 16

PyMC3 — MCMC и не только

Время на прочтение 17 мин
Количество просмотров 21K

PyMC3 — МСМС и не только



Привет, Хабрахабр!


В этом посте уже упоминался PyMC3. Там можно почитать про основы MCMC-сэмплирования. Здесь я расскажу про вариационный вывод (ADVI), про то, зачем все это нужно и покажу на довольно простых примерах из галереи PyMC3, чем это может быть полезно. Одним из таких примеров будет байесовская нейронная сеть для задачи классификации, но это в самом конце. Кому интересно — добро пожаловать!


Читать дальше →
Всего голосов 48: ↑42 и ↓6 +36
Комментарии 3

Библиотеки для глубокого обучения Theano/Lasagne

Время на прочтение 14 мин
Количество просмотров 44K

Привет, Хабр!


Параллельно с публикациями статей открытого курса по машинному обучению мы решили запустить ещё одну серию — о работе с популярными фреймворками для нейронных сетей и глубокого обучения.


Я открою этот цикл статьёй о Theano — библиотеке, которая используется для разработки систем машинного обучения как сама по себе, так и в качестве вычислительного бекэнда для более высокоуровневых библиотек, например, Lasagne, Keras или Blocks.


Theano разрабатывается с 2007 года главным образом группой MILA из Университета Монреаля и названа в честь древнегреческой женщины-философа и математика Феано (предположительно изображена на картинке). Основными принципами являются: интеграция с numpy, прозрачное использование различных вычислительных устройств (главным образом GPU), динамическая генерация оптимизированного С-кода.

Читать дальше →
Всего голосов 53: ↑53 и ↓0 +53
Комментарии 11

Google представил новый поисковый алгоритм Hummingbird

Время на прочтение 3 мин
Количество просмотров 124K
На пресс-конференции посвящённой 15-летию Google был представлен новый поисковый алгоритм, который получил имя Hummingbird — «Колибри». Название должно символизировать точность и быстроту его работы. Представители компании сообщили, что изменения были внесены в поисковой движок еще месяц назад и охватывают 90% поисковых запросов, но объявление о переходе на новый поисковый алгоритм Hummingbird было решено приурочить к 15-й годовщине Google.

Читать дальше →
Всего голосов 64: ↑58 и ↓6 +52
Комментарии 62

Логика мышления. Часть 5. Волны мозга

Время на прочтение 15 мин
Количество просмотров 77K


Итак, мы подошли к описанию одного из ключевых принципов описываемой модели. Этот принцип ранее не использовался ни в нейронных сетях, ни при описании работы мозга. В связи с этим я крайне рекомендую ознакомится с предыдущими частями. Как минимум необходимо прочитать четвертую часть без которой описанное ниже, будет совершенно непонятно.

В предыдущей части мы говорили о том, что активность нейронов делится на вызванную и фоновую. Отголоски фоновой активности наблюдают, снимая электроэнцефалограмму. Записываемые сигналы имеют сложную форму и зависят от места приложения электродов к голове, но, тем не менее, в них достаточно четко прослеживаются отдельные гармонические составляющие.
Читать дальше →
Всего голосов 40: ↑36 и ↓4 +32
Комментарии 67

Визуализация активности пользователей Google+

Время на прочтение 5 мин
Количество просмотров 3K
Давно уже увлекаюсь визуализацией различной статистики в программе code_swarm и gource.
Недавно я решил освоить Google api для Google Plus, и решил, что самым удобным и интересным будет придумать алгоритм сбора статистки по активности пользователей и потом визуализировать эту информацию выше упомянутыми средствами. В данной статье пойдет речь о результатах проделанной работы.


Что я использовал



Исходники приложения есть на github (Инсталлер).
Я не буду углубятся в реализацию, опишу только основные моменты.

Читать дальше →
Всего голосов 58: ↑51 и ↓7 +44
Комментарии 31

О бесплатном онлайн-образовании на примере Stanford AI Class

Время на прочтение 2 мин
Количество просмотров 2.9K
Не так давно Стенфордский университет организовал бесплатные онлайн-курсы по искуственному интеллекту. Казалось бы, вот оно, счастье — иди ботай! Грамотно провели маркетинг и постарались сделать всё максимально дружелюбным: сами ролики — на YouTube, официальная группа обсуждений — на Reddit, объявления и новости курса в Twitter, обещали даже интеграцию аккаунта с Facebook сделать… И вот уже набралась рекордно большая аудитория — 160 тысяч слушателей (пруф). Это победа, даёшь высшее образование в массы!

Только вот что-то странное происходит с посещаемостью этого курса.
Читать дальше →
Всего голосов 50: ↑42 и ↓8 +34
Комментарии 87

Я хочу работать в Google! Телефонное интервью (часть 2)

Время на прочтение 14 мин
Количество просмотров 17K
Сегодня мы будет обсуждать технические аспекты и реализацию задач на Python и C/C++, которыми нас будет закидывать инженер из Google. Начнём с самых тривиальных проблем с последующим нарастанием сложности. Параллельно обратим внимание о чём стоит упомянуть во время интервью и где не попасть в ловушку.
Читать дальше →
Всего голосов 102: ↑86 и ↓16 +70
Комментарии 134

Я хочу работать в Google! Телефонное интервью (часть 1)

Время на прочтение 4 мин
Количество просмотров 31K
Привет Хабр! Давно не писал. Да это и понятно. Защита диссертации, получение PhD, а сейчас ещё и активный поиск работы — всё это занимает очень много драгоценного времени. Но разговор сегодня пойдёт не о том. Хотелось бы поделиться с Вами, уважаемые хабралюди, ресурсами и описанием процесса подготовки к телефонному техническому интервью с Гуглом, первый технический этап которого я уже прошёл, и теперь готовлюсь ко второму, который будет в пятницу.
Читать дальше →
Всего голосов 207: ↑182 и ↓25 +157
Комментарии 99

Как я победил в олимпиаде по программированию, не умея программировать

Время на прочтение 5 мин
Количество просмотров 15K
Не совсем победил, а занял второе место, хотя и имел все шансы и на первое, и не совсем не не умел, но об этом со всеми подробностями дальше.

Вообще топик скорее пятничный, поэтому ничего страшного не случится если вы отложите его чтение на соответствующий день.

image

Итак, на дворе осень 97 года, я ученик 10 (предпоследнего) физ-мат класса общеобразовательной школы. Я в этом классе и в этой школе новичок, и наверное единственный кто добирается в школу каждый день на автобусе, т.к. живу не в этом микрорайоне.

В один из дней, меня вызывают в класс информатики, где вместе с учителем оной присутствовал и директор школы. Мне торжественно объявляют что в РайОНо было решено провести районную олимпиаду по программированию в нашей школе, т.к. она на хорошем счету и у нас целых два класса информатики. И для того, что бы поддержать престиж хозяев данного мероприятия нам срочно нужен участник от нашей школы, а я идеальный кандидат, по их мнению, и да, олимпиада через неделю.
Не то что бы я не умел программировать вообще, программировать я умел, но маленько не на том языке, на котором предполагалось проводить олимпиаду. Да и не в том объеме, если честно.

Читать дальше →
Всего голосов 193: ↑144 и ↓49 +95
Комментарии 89

Чеклист при подготовке презентации

Время на прочтение 3 мин
Количество просмотров 7.1K
В последнее время я наблюдал несколько десятков презентаций, которые начинались вот так:

— Мы делаем систему управления электронным обучением…

— Мы провели исследование поведения посетителей на нашем сайте…

— Наша компания была основана более ста лет назад…

Это просто удивительно как люди любят так поступать. Они с первых секунд садятся на уши аудитории рассказом про себя:

— Мы предлагаем SAAS-решение…

— Наши технологии…

И мое любимое:

— Начну рассказ с того, кто мы такие…

Почему все так уверены, что именно это в первую очередь интересует слушателей? Единственное что выступающий гарантированно получит в таком выступлении — это претензии к себе лично и своей компании.

Я видел как один из директоров Microsoft схлопотал громкое улюлюканье, а представитель Ростелекома — едкий троллинг из зала только потому, что выступили по этому шаблону.

Почему каждый раз это происходит?

Читать дальше →
Всего голосов 75: ↑68 и ↓7 +61
Комментарии 36

Средство для синхронизации любых файлов с Google Account: SyncDocs

Время на прочтение 3 мин
Количество просмотров 7.3K
Syncdocs – Google Docs Sync and BackupУзнав из недавно пробегавшей статьи, что появилась возможность закачивать в Google Docs любые файлы, а так же ознакомившись со смешными ценами на дополнительное пространство, я было возрадовался этой возможности и начал искать инструменты, с помощью которых можно было бы синхронизировать свои документы с данным сервисом. Меня в первую очередь интересовала возможность хранения данных в облаке и синхронизации этих данных с несколькими компьютерами. Однако радость моя была недолгой. «Родного» клиента от Google так и нет, а сторонние средства либо тяжелые, либо требуют дополнительной оплаты за возможность использовать все доступное место в облаке. Так и не подобрав инструмент по вкусу, я отказался от этой идеи.

Однако буквально сегодня появилась задача, решение которой всерьез облегчилось бы наличием синхронизации через облако. Я посмотрел несколько вариантов с другими сервисами, но вернулся к поискам утилиты именно для Google Docs. И, самое интересное, нашел именно то, что мне подошло — SyncDocs.

Утилита, которая в настоящий момент имеет статус беты, предназначена для синхронизации и резервного копирования любых файлов с Google Docs. Предназначена она под Windows (но, как оказалось, отлично работает и в Linux под wine) и имеет как «установочную», так и portable-версию.
О возможностях под катом
Всего голосов 47: ↑44 и ↓3 +41
Комментарии 40

10 лучших вузов в области речевых технологий и искусственного интеллекта

Время на прочтение 11 мин
Количество просмотров 24K


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...
Всего голосов 39: ↑29 и ↓10 +19
Комментарии 21

Что не так с программой Microsoft Student Partners (MSP)?

Время на прочтение 3 мин
Количество просмотров 3.9K
В свете недавнего обсуждения об обучении в наших вузах и того, что на днях понаблюдал со стороны за программой Microsoft Student Partners (MSP), решил написать этот топик. Суть программы в следующем – компания выбирает наиболее активных студентов, и они становятся представителями Microsoft в своём вузе. Активность требуется подтверждать каждый семестр. В её перечень входит проведение студенческих user groups, организация конкурсов (призы Microsoft предоставляет), запись веб-кастов и т.д. По выпуску из программы (а он совпадает с завершением учёбы в вузе, а как подсказал kultishev, может быть продлён на срок обучения в аспирантуре) каждый студент получает диплом и шанс на собеседование в Microsoft без предварительного телефонного собеседования.

Так что же на так с программой?
Всего голосов 39: ↑27 и ↓12 +15
Комментарии 43

Нейронные сети и распознавание символов

Время на прочтение 7 мин
Количество просмотров 125K
В последнее время на Хабре появилось, а также существует много содержательных статей, описывающих работу и принцип понятия “нейронная сеть”, но, к сожалению, как всегда очень мало описания и разбора полученных практических результатов или их не получения. Я думаю, что многим, как и мне удобней, проще и понятней разбираться на реальном примере. Поэтому в данной статье постараюсь описать почти пошаговое решение задачи распознавания букв латинского алфавита + пример для самостоятельного исследования. Распознавание цифр с помощью однослойного персептрона уже сделано, теперь давайте еще разберёмся и научим компьютер распознавать буквы.
Немного желания и можно начинать...
Всего голосов 92: ↑75 и ↓17 +58
Комментарии 57

В поисках НЛО. Детект объектов на изображении

Время на прочтение 6 мин
Количество просмотров 55K
Взлом captcha это, конечно, интересно и познавательно, но, по большому счёту, бесполезно. Это лишь частный случай задачи, которая возникает в одном из интересных направлений развития IT – распознавание образов (pattern recognition).



Сегодня мы рассмотрим алгоритм (точнее, более правильно считать это методикой, т.к. она объединяет в себе множество алгоритмов), который стоит на стыке таких областей, как Machine Learning и Computer Vision.

С помощью этого алгоритма мы будем искать НЛО (позарился на святое) на изображениях.

Уберите детей!
Всего голосов 92: ↑91 и ↓1 +90
Комментарии 37

Логика английских времен

Время на прочтение 6 мин
Количество просмотров 71K
Изучавшие или изучающие английский язык знают, каким страшным может казаться множество английских временных форм глаголов.
Всего в английском 12 временных форм. А в русском-то, на первый взгляд, всего 3, и как их связать с английскими, для новичка может быть совершенно не понятно.
Читать дальше →
Всего голосов 196: ↑173 и ↓23 +150
Комментарии 202

Некоторые (полезные) советы по Windows 7

Время на прочтение 4 мин
Количество просмотров 38K
Содержание:
1. Быстрый запуск приложений с правами администратора
2. Отчет об использовании электроэнергии
3. Поиск в интернете из меню «пуск»
4. Навигация по панели задач
5. Скрытие значка Windows Live Messenger
6. Сворачивание окон
7. Быстрое открытие и закрытие копии приложения
8. Копирование файлов из командной строки в несколько потоков
9. Быстрое управление окном

Читать дальше →
Всего голосов 282: ↑218 и ↓64 +154
Комментарии 113

Android@Home: проникновение в дом

Время на прочтение 2 мин
Количество просмотров 7.3K
Вчера на конференции Google I/O была анонсирован фреймворк Android@Home, который объединяет функции ОС по использованию Android-устройства в качестве домашнего мультимедийного центра и контроллера домашних приборов.

Фреймворк Android@Home позволяет транслировать контент c Google Music и управлять различными устройствами: бытовой техникой, освещением, контроллерами электроэнергии, системами полива газонов и всем остальным, на что только хватит фантазии у разработчика. См. также описание Open Accessory API для Android 3.1. Это уже выход на новый уровень.
Читать дальше →
Всего голосов 31: ↑27 и ↓4 +23
Комментарии 29

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность