Как стать автором
Обновить
46
0
Petr Ermakov @couatl

ML

Отправить сообщение

Насколько естественен естественный язык? Представляем датасет RuCoLA

Время на прочтение7 мин
Количество просмотров7.8K


В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать дальше →
Всего голосов 26: ↑25 и ↓1+35
Комментарии16

PyMC3 — MCMC и не только

Время на прочтение17 мин
Количество просмотров21K

PyMC3 — МСМС и не только



Привет, Хабрахабр!


В этом посте уже упоминался PyMC3. Там можно почитать про основы MCMC-сэмплирования. Здесь я расскажу про вариационный вывод (ADVI), про то, зачем все это нужно и покажу на довольно простых примерах из галереи PyMC3, чем это может быть полезно. Одним из таких примеров будет байесовская нейронная сеть для задачи классификации, но это в самом конце. Кому интересно — добро пожаловать!


Читать дальше →
Всего голосов 48: ↑42 и ↓6+36
Комментарии3

Библиотеки для глубокого обучения Theano/Lasagne

Время на прочтение14 мин
Количество просмотров45K

Привет, Хабр!


Параллельно с публикациями статей открытого курса по машинному обучению мы решили запустить ещё одну серию — о работе с популярными фреймворками для нейронных сетей и глубокого обучения.


Я открою этот цикл статьёй о Theano — библиотеке, которая используется для разработки систем машинного обучения как сама по себе, так и в качестве вычислительного бекэнда для более высокоуровневых библиотек, например, Lasagne, Keras или Blocks.


Theano разрабатывается с 2007 года главным образом группой MILA из Университета Монреаля и названа в честь древнегреческой женщины-философа и математика Феано (предположительно изображена на картинке). Основными принципами являются: интеграция с numpy, прозрачное использование различных вычислительных устройств (главным образом GPU), динамическая генерация оптимизированного С-кода.

Читать дальше →
Всего голосов 53: ↑53 и ↓0+53
Комментарии11

Google представил новый поисковый алгоритм Hummingbird

Время на прочтение3 мин
Количество просмотров124K
На пресс-конференции посвящённой 15-летию Google был представлен новый поисковый алгоритм, который получил имя Hummingbird — «Колибри». Название должно символизировать точность и быстроту его работы. Представители компании сообщили, что изменения были внесены в поисковой движок еще месяц назад и охватывают 90% поисковых запросов, но объявление о переходе на новый поисковый алгоритм Hummingbird было решено приурочить к 15-й годовщине Google.

Читать дальше →
Всего голосов 64: ↑58 и ↓6+52
Комментарии62

Логика мышления. Часть 5. Волны мозга

Время на прочтение15 мин
Количество просмотров78K


Итак, мы подошли к описанию одного из ключевых принципов описываемой модели. Этот принцип ранее не использовался ни в нейронных сетях, ни при описании работы мозга. В связи с этим я крайне рекомендую ознакомится с предыдущими частями. Как минимум необходимо прочитать четвертую часть без которой описанное ниже, будет совершенно непонятно.

В предыдущей части мы говорили о том, что активность нейронов делится на вызванную и фоновую. Отголоски фоновой активности наблюдают, снимая электроэнцефалограмму. Записываемые сигналы имеют сложную форму и зависят от места приложения электродов к голове, но, тем не менее, в них достаточно четко прослеживаются отдельные гармонические составляющие.
Читать дальше →
Всего голосов 40: ↑36 и ↓4+32
Комментарии67

Визуализация активности пользователей Google+

Время на прочтение5 мин
Количество просмотров3.1K
Давно уже увлекаюсь визуализацией различной статистики в программе code_swarm и gource.
Недавно я решил освоить Google api для Google Plus, и решил, что самым удобным и интересным будет придумать алгоритм сбора статистки по активности пользователей и потом визуализировать эту информацию выше упомянутыми средствами. В данной статье пойдет речь о результатах проделанной работы.


Что я использовал



Исходники приложения есть на github (Инсталлер).
Я не буду углубятся в реализацию, опишу только основные моменты.

Читать дальше →
Всего голосов 58: ↑51 и ↓7+44
Комментарии31

О бесплатном онлайн-образовании на примере Stanford AI Class

Время на прочтение2 мин
Количество просмотров2.9K
Не так давно Стенфордский университет организовал бесплатные онлайн-курсы по искуственному интеллекту. Казалось бы, вот оно, счастье — иди ботай! Грамотно провели маркетинг и постарались сделать всё максимально дружелюбным: сами ролики — на YouTube, официальная группа обсуждений — на Reddit, объявления и новости курса в Twitter, обещали даже интеграцию аккаунта с Facebook сделать… И вот уже набралась рекордно большая аудитория — 160 тысяч слушателей (пруф). Это победа, даёшь высшее образование в массы!

Только вот что-то странное происходит с посещаемостью этого курса.
Читать дальше →
Всего голосов 50: ↑42 и ↓8+34
Комментарии87

Я хочу работать в Google! Телефонное интервью (часть 2)

Время на прочтение14 мин
Количество просмотров17K
Сегодня мы будет обсуждать технические аспекты и реализацию задач на Python и C/C++, которыми нас будет закидывать инженер из Google. Начнём с самых тривиальных проблем с последующим нарастанием сложности. Параллельно обратим внимание о чём стоит упомянуть во время интервью и где не попасть в ловушку.
Читать дальше →
Всего голосов 102: ↑86 и ↓16+70
Комментарии134

Я хочу работать в Google! Телефонное интервью (часть 1)

Время на прочтение4 мин
Количество просмотров31K
Привет Хабр! Давно не писал. Да это и понятно. Защита диссертации, получение PhD, а сейчас ещё и активный поиск работы — всё это занимает очень много драгоценного времени. Но разговор сегодня пойдёт не о том. Хотелось бы поделиться с Вами, уважаемые хабралюди, ресурсами и описанием процесса подготовки к телефонному техническому интервью с Гуглом, первый технический этап которого я уже прошёл, и теперь готовлюсь ко второму, который будет в пятницу.
Читать дальше →
Всего голосов 207: ↑182 и ↓25+157
Комментарии99

Как я победил в олимпиаде по программированию, не умея программировать

Время на прочтение5 мин
Количество просмотров15K
Не совсем победил, а занял второе место, хотя и имел все шансы и на первое, и не совсем не не умел, но об этом со всеми подробностями дальше.

Вообще топик скорее пятничный, поэтому ничего страшного не случится если вы отложите его чтение на соответствующий день.

image

Итак, на дворе осень 97 года, я ученик 10 (предпоследнего) физ-мат класса общеобразовательной школы. Я в этом классе и в этой школе новичок, и наверное единственный кто добирается в школу каждый день на автобусе, т.к. живу не в этом микрорайоне.

В один из дней, меня вызывают в класс информатики, где вместе с учителем оной присутствовал и директор школы. Мне торжественно объявляют что в РайОНо было решено провести районную олимпиаду по программированию в нашей школе, т.к. она на хорошем счету и у нас целых два класса информатики. И для того, что бы поддержать престиж хозяев данного мероприятия нам срочно нужен участник от нашей школы, а я идеальный кандидат, по их мнению, и да, олимпиада через неделю.
Не то что бы я не умел программировать вообще, программировать я умел, но маленько не на том языке, на котором предполагалось проводить олимпиаду. Да и не в том объеме, если честно.

Читать дальше →
Всего голосов 193: ↑144 и ↓49+95
Комментарии89

Чеклист при подготовке презентации

Время на прочтение3 мин
Количество просмотров7.1K
В последнее время я наблюдал несколько десятков презентаций, которые начинались вот так:

— Мы делаем систему управления электронным обучением…

— Мы провели исследование поведения посетителей на нашем сайте…

— Наша компания была основана более ста лет назад…

Это просто удивительно как люди любят так поступать. Они с первых секунд садятся на уши аудитории рассказом про себя:

— Мы предлагаем SAAS-решение…

— Наши технологии…

И мое любимое:

— Начну рассказ с того, кто мы такие…

Почему все так уверены, что именно это в первую очередь интересует слушателей? Единственное что выступающий гарантированно получит в таком выступлении — это претензии к себе лично и своей компании.

Я видел как один из директоров Microsoft схлопотал громкое улюлюканье, а представитель Ростелекома — едкий троллинг из зала только потому, что выступили по этому шаблону.

Почему каждый раз это происходит?

Читать дальше →
Всего голосов 75: ↑68 и ↓7+61
Комментарии36

Средство для синхронизации любых файлов с Google Account: SyncDocs

Время на прочтение3 мин
Количество просмотров7.4K
Syncdocs – Google Docs Sync and BackupУзнав из недавно пробегавшей статьи, что появилась возможность закачивать в Google Docs любые файлы, а так же ознакомившись со смешными ценами на дополнительное пространство, я было возрадовался этой возможности и начал искать инструменты, с помощью которых можно было бы синхронизировать свои документы с данным сервисом. Меня в первую очередь интересовала возможность хранения данных в облаке и синхронизации этих данных с несколькими компьютерами. Однако радость моя была недолгой. «Родного» клиента от Google так и нет, а сторонние средства либо тяжелые, либо требуют дополнительной оплаты за возможность использовать все доступное место в облаке. Так и не подобрав инструмент по вкусу, я отказался от этой идеи.

Однако буквально сегодня появилась задача, решение которой всерьез облегчилось бы наличием синхронизации через облако. Я посмотрел несколько вариантов с другими сервисами, но вернулся к поискам утилиты именно для Google Docs. И, самое интересное, нашел именно то, что мне подошло — SyncDocs.

Утилита, которая в настоящий момент имеет статус беты, предназначена для синхронизации и резервного копирования любых файлов с Google Docs. Предназначена она под Windows (но, как оказалось, отлично работает и в Linux под wine) и имеет как «установочную», так и portable-версию.
О возможностях под катом
Всего голосов 47: ↑44 и ↓3+41
Комментарии40

10 лучших вузов в области речевых технологий и искусственного интеллекта

Время на прочтение11 мин
Количество просмотров24K


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...
Всего голосов 39: ↑29 и ↓10+19
Комментарии21

Что не так с программой Microsoft Student Partners (MSP)?

Время на прочтение3 мин
Количество просмотров3.9K
В свете недавнего обсуждения об обучении в наших вузах и того, что на днях понаблюдал со стороны за программой Microsoft Student Partners (MSP), решил написать этот топик. Суть программы в следующем – компания выбирает наиболее активных студентов, и они становятся представителями Microsoft в своём вузе. Активность требуется подтверждать каждый семестр. В её перечень входит проведение студенческих user groups, организация конкурсов (призы Microsoft предоставляет), запись веб-кастов и т.д. По выпуску из программы (а он совпадает с завершением учёбы в вузе, а как подсказал kultishev, может быть продлён на срок обучения в аспирантуре) каждый студент получает диплом и шанс на собеседование в Microsoft без предварительного телефонного собеседования.

Так что же на так с программой?
Всего голосов 39: ↑27 и ↓12+15
Комментарии43

Нейронные сети и распознавание символов

Время на прочтение7 мин
Количество просмотров125K
В последнее время на Хабре появилось, а также существует много содержательных статей, описывающих работу и принцип понятия “нейронная сеть”, но, к сожалению, как всегда очень мало описания и разбора полученных практических результатов или их не получения. Я думаю, что многим, как и мне удобней, проще и понятней разбираться на реальном примере. Поэтому в данной статье постараюсь описать почти пошаговое решение задачи распознавания букв латинского алфавита + пример для самостоятельного исследования. Распознавание цифр с помощью однослойного персептрона уже сделано, теперь давайте еще разберёмся и научим компьютер распознавать буквы.
Немного желания и можно начинать...
Всего голосов 92: ↑75 и ↓17+58
Комментарии57

В поисках НЛО. Детект объектов на изображении

Время на прочтение6 мин
Количество просмотров55K
Взлом captcha это, конечно, интересно и познавательно, но, по большому счёту, бесполезно. Это лишь частный случай задачи, которая возникает в одном из интересных направлений развития IT – распознавание образов (pattern recognition).



Сегодня мы рассмотрим алгоритм (точнее, более правильно считать это методикой, т.к. она объединяет в себе множество алгоритмов), который стоит на стыке таких областей, как Machine Learning и Computer Vision.

С помощью этого алгоритма мы будем искать НЛО (позарился на святое) на изображениях.

Уберите детей!
Всего голосов 92: ↑91 и ↓1+90
Комментарии37

Логика английских времен

Время на прочтение6 мин
Количество просмотров71K
Изучавшие или изучающие английский язык знают, каким страшным может казаться множество английских временных форм глаголов.
Всего в английском 12 временных форм. А в русском-то, на первый взгляд, всего 3, и как их связать с английскими, для новичка может быть совершенно не понятно.
Читать дальше →
Всего голосов 196: ↑173 и ↓23+150
Комментарии202

Некоторые (полезные) советы по Windows 7

Время на прочтение4 мин
Количество просмотров38K
Содержание:
1. Быстрый запуск приложений с правами администратора
2. Отчет об использовании электроэнергии
3. Поиск в интернете из меню «пуск»
4. Навигация по панели задач
5. Скрытие значка Windows Live Messenger
6. Сворачивание окон
7. Быстрое открытие и закрытие копии приложения
8. Копирование файлов из командной строки в несколько потоков
9. Быстрое управление окном

Читать дальше →
Всего голосов 282: ↑218 и ↓64+154
Комментарии113

Android@Home: проникновение в дом

Время на прочтение2 мин
Количество просмотров7.3K
Вчера на конференции Google I/O была анонсирован фреймворк Android@Home, который объединяет функции ОС по использованию Android-устройства в качестве домашнего мультимедийного центра и контроллера домашних приборов.

Фреймворк Android@Home позволяет транслировать контент c Google Music и управлять различными устройствами: бытовой техникой, освещением, контроллерами электроэнергии, системами полива газонов и всем остальным, на что только хватит фантазии у разработчика. См. также описание Open Accessory API для Android 3.1. Это уже выход на новый уровень.
Читать дальше →
Всего голосов 31: ↑27 и ↓4+23
Комментарии29
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность