Pull to refresh
462
0
Краковецкий Александр @sashaeve

CEO DevRain

Send message

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Reading time34 min
Views108K
Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

Тренируем генеративно-состязательную сеть для рисования картин на Azure ML

Reading time10 min
Views9.7K

Глубокое обучение иногда выглядит как чистая магия, особенно тогда, когда компьютер учится делать что-то действительно креативное, например, рисовать картины! Используемая для этого технология называется GAN — генеративно-состязательная сеть, и в этой заметке мы рассмотрим, как такие сети устроены, и как натренировать их для генерации картин с помощью Azure Machine Learning.


Banner


Этот пост является частью инициативы AI April. Каждый день апреля мои коллеги из Microsoft пишут интересные статьи на тему AI и машинного обучения. Посмотрите на календарь — вдруг вы найдёте там другие интересующие вас темы. Статьи преимущественно на английском.

Продукт на .NET, помогающий спасать жизни

Reading time11 min
Views7.2K
В некоторых жизненных ситуациях нужно действовать очень быстро. Иногда это условие невыполнимо: например, просто невозможно без огромного везения за очень короткое время найти человека с редкой группой крови, так еще и готового ей поделиться. Ребята создали продукт под названием DonorUA, который действительно помогает спасать жизни при помощи чат-бота. Подробнее под катом.

Читать дальше →

Palantir и отмывание денег

Reading time6 min
Views37K


Palantir
[Контент удален по требованию Википедии]

На официальном канале Palantir есть видео с демонстрацией работы аналитика, использующего систему Palantir в ходе расследования отмывания денег. По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»), Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»), о которых я писал немного ранее.

(За помощь с переводом спасибо Ворсину Алексею)

А если найду? Перелет еще дешевле чем вы уже нашли

Reading time3 min
Views123K
Если вы планируете поездку и уже нашли недорогой перелет, не спешите покупать билеты, потому что сейчас вы найдете билеты еще дешевле. И это не реклама очередного говноагрегатора.

Всем известно, что авиакомпании берут свои цены с потолка. Маркетологи придумывают хитроумные непрозрачные схемы отъёма денег у пассажиров пропорционально финансовым возможностям последних. Так, чтобы богатые платили за билеты побольше, а бедные — сколько смогут.

Читать дальше →

Человеческий фактор в разработке программного обеспечения: психологические и математические аспекты

Reading time8 min
Views27K
Разработка программного продукта — это процесс, в котором человеческий фактор играет очень важную роль. В статье поговорим о различных психологических и математических законах и принципах. Некоторые из этих принципов и законов вам хорошо известны, некоторые — не очень, а некоторые помогут объяснить ваше поведение или поведение ваших сотрудников и коллег.

Разработка ПО – нелинейный процесс

Разработка программного обеспечения — нелинейный процесс. Если на проект выделено 5 разработчиков, которые за 5 месяцев должны разработать продукт (25 чел./мес.), то 25 разработчиков не смогут сделать эту же работу за 1 месяц (те же 25 чел./мес.).


image
Читать дальше →

Серия плакатов об ученых и их открытиях

Reading time1 min
Views181K
Newton, Kapil Bhagat

Индийский дизайнер Капил Бхагат из Мумбая в своем блоге разместил серию плакатов об ученых и их открытиях. Плакаты наглядно иллюстрируют достижения ученных с помощью их фамилий. Таким образом Капил предложил отпраздновать День наук в Индии.

Все постеры под катом.
Читать дальше →

Налоги в США. Часть 1. Введение, income tax, федеральный налог, налог штата, Social Security taxes

Reading time7 min
Views222K

Введение


Последние месяцы на Хабре мне часто попадаются обсуждения налогов в США. Как правило, это происходит в топиках, где обсуждение по какой-то причине скатилось к вечным темам «у нас все плохо — у них хорошо», «у нас хорошо — у них все плохо», «пора валить отсюда», «Да в США такие налоги, что непонятно, как бедные люди вообще там выживают» и т.п.

В очередной раз наткнувшись на такое обсуждение, я спросил тут же в комментарии и даже задал соответствующий хабравопрос — народ, а может вместо того, чтобы беспорядочно спорить о налогах в США в куче разных топиков, давайте я напишу отдельный подробный пост на эту тему, и там и будем спорить? За этот комментарий и хабравопрос я получил изрядно кармы и хабрасилы, и, собственно, на этом можно было бы и остановиться ибо цель достигнута, муа-ха-ха. Однако, меня уже начинают спрашивать некоторые люди, где же обещанная статья, и судя по всему, отвертеться от написания поста мне не удастся…

Обсуждающие налоги в таких топиках делятся, как правило, на три заметные группы:

  • Те, кто о налогах в США знает мало, но хотел бы узнать побольше из первых рук, а так же задать в одном месте все интересующие вопросы и получить ответы всего за 0.99$ за один ответ!
  • Те, кто реально разбирается в предмете (в 90% случаев это люди, работающие и живущие в США). В обсуждениях участвуют обычно короткими репликами, так как вопрос сложный и расписывать все в деталях каждый раз лень и вообще дело неблагодарное.
  • Те, кто о налогах в США знает из разных сомнительных источников, вроде блогпостов диванных аналитиков, но мнение имеет.

Для первых я и решил написать этот пост. От вторых я с благодарностью приму замечания и дополнения. Третьи могут не беспокоиться.

В первой части я напишу про налоги вообще, про федеральный налог и налог штатов и как они вычисляются и про Social Security / Medicare tax.

Во второй части (coming soon) — про годовой цикл налогообложения и различные формы — W-2, W-4, 1040NZ и прочее и прочее.

В третьей части (coming soon) — про процесс подачи Tax Return, про сайты которые помогают заполнять здоровенные формы, про применение налоговых вычетов, и, ГЛАВНОЕ о налогах в США — если есть основания, как можно получить обратно существенную часть удержанных с вас налогов. Поэтому, читая этот пост, держите в голове — большинство людей платит существенно меньшие налоги, чем те, которые я тут вычисляю для примера без учета возможных вычетов.

Поехали.
Читать дальше →

Публикация книг в Apple iBookstore

Reading time4 min
Views46K
Возможность публиковать на мобильных устройствах от Apple контента с извлечением скромной материальной выгоды уже давно занимала воображение Вашего покорного слуги. Идея того, какого рода контент это должен быть, сформировалась некоторое время назад, но руки никак не доходили до реализации в виде iOS-приложения под видом разного рода отговорок о нехватке времени. Анонс iBooks Author для Mac и iBooks 2.0 для iOS дал мощный толчок к активизации телодвижений в этой области, и я, было, весьма обрадовался, полагая, что вот оно, и уж теперь-то заживем! Однако более пристальное изучение деталей процесса публикации книг в iBookstore полностью похоронило мой оптимизм.
И вот почему...

Поздравление с Новым 2012 годом на 150 языках

Reading time7 min
Views3.5K
Уважаемые Хабравчане!
Поздравляю вас с наступающим новым годом! Желаю Вам творческих успехов, карьерного, интеллектуального и духовного роста!

Хочу сделать вам небольшой подарок: поздравления с новым годом на более чем 150 языках программирования!

image
Читать дальше →

Ускоренное расширение Вселенной: несколько популярных слов

Reading time8 min
Views9.2K
Некоторая ирония природы состоит в том, что наиболее изобильная форма энергии во Вселенной есть и наиболее загадочная. После ошеломляющего открытия ускоренного расширения Вселенной довольно быстро возникла согласованная картина, указывающая на то, что 2/3 космоса «сделаны» из «темной энергии» — некоторого сорта гравитационно отталкивающего материала. Но достаточно ли убедительны доказательства, подтверждающие новые экзотические законы природы? Может имеются более простые астрофизические объяснения этих результатов?
Читать дальше →

Windows Phone 7 Rocks #3

Reading time1 min
Views723
Прямая запись с конференции Uneta Plus. В гостях Алекс Голеш, Владимир Юнев, Макс Павловский, Александр Краковецкий.

Алекс Голеш — Senior Architect в Sela Group, компании-партнера Microsoft, которая разрабатывает демонстрационный код для конференций, Channel 9, MSDN, создают обучающие видео, а также ведут коммерческие разработки на Silverlight, WPF, XNA и под Windows Phone и другие мобильные платформы.

Макс Павловский работает в EPAM, лидер Silverlight / Windows Phone 7 Minsk.

Темы обсуждения:
  • Партнерские отношения Microsoft и разработчиков, влияние отзывов разработчиков на развитие платформы
  • Html5 поддерживают все платформы, почему бы не заменить им native-приложения?
  • Прототипирование, кто что использует?
Наш RPOD.RU и Twitter

Проверьтесь на монополизм

Reading time4 min
Views864
googlelogoЛюбому, кто будет всерьез утверждать, что Google еще не монополизировала рынок Интернет-поиска, я могу лишь рассмеяться в ответ. Подобные аргументы не выдерживают серьезной критики, а отчеты об объеме рынка и доходах, которые ежеквартально публикует Google, как и любая другая публичная компания, говорят лишь об одном — ни Bing, ни, прости Господи, Яндекс, ни даже новомодный Yelp (чьи функции пока несут хоть какую-то полезность только для жителей США и Великобритании) не в состоянии вести адекватную конкуренцию c компанией, в чьем названии есть две «о». В некотором смысле, успешность последних обеспечена популярностью первого, но это мое суждение, с которым можно не согласиться.

Но, как известно, то, что еще не написано пером, вдвойне невозможно вырубить топором. Поэтому любые подобные нападки на Google, в отсутствии официального заключения Антимонопольного Комитета США, могут, а скорее всего будут, считаться плодом чьей-то воспаленной фантазии. По курьезному стечению обстоятельств, вполне возможно, что в скором времени у конкурентов и ненавистников компании появится вполне обоснованный повод называть последнюю не иначе, как «монополия». Федеральная Торговая Комиссия США (FTC) уполномочена провести расследование в отношении главной статьи дохода компании — рекламного бизнеса, построенного вокруг поискового движка Google.

Что еще удивительнее, лично для меня, — это нежелание Брина и Пейджа появиться на августовских слушаниях в Вашингтонском Сенате, представители которого очень хотят услышать ответы на вопросы о позициях Google на рынке, политике компании, а так же, очевидно, на некоторые другие, более или менее щепетильные вопросы. Даже несмотря на «настойчивую рекомендацию» со стороны представителей исполнительной власти США прийти на слушание одному из двух, а лучше паре основателей компании — они посылают туда главу юридического отдела Дэвида Драммонда (David Drummond), чьей профессией является умение отвечать на вопросы представителей чего угодно. Кроме упомянутой позиции, на которой он числится аж с 2002 года, Драммонд так же является вице-президентом по корпоративному развитию и занимается, помимо всего прочего, отношениями с правительством — пишет Bloomberg.

Согласно Wall Street Journal: «Расследование пройдет вокруг фундаментальных вопросов, связанных с ядром рекламного бизнеса Google, построенного вокруг поиска, который приносит головокружительную прибыль компании. Это расследование будет включать в себя такие щепетильные для Google темы, как нечестное использование собственных каналов доставки информации пользователю, с целью увеличения собственной базы пользователей ценой притеснения конкурентов». О, как. На практике это означает, что по мнению представителей Торговой Комиссии, Google использует собственную силу и возможности для того, чтобы «проталкивать» в выдаче ссылки на свои собственные сервисы.
Читать дальше →

10 лучших вузов в области речевых технологий и искусственного интеллекта

Reading time11 min
Views24K


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...

Apple vs Microsoft

Reading time4 min
Views9.6K
image

Немногим меньше года назад Уолл-стрит в битве Microsoft vs Apple впервые оценил рыночную стоимость Apple выше Microsoft.

Apple'овская рыночная капитализация (общая стоимость всех акций) превысила капитализацию Microsoft'а, хотя последняя компания имела большую выручку и вдвое больший размер прибыли, чем у Apple. Ясно, что Уолл-стрит смотрит на потенциальный рост компании, а не на ее текущие доходы, поэтому Apple выглядит более привлекательной компанией.

Рыночная капитализация


Хотя стоимость Microsoft и Apple были очень близки прошлой весной, теперь все иначе. С 26 мая 2010 года, когда Apple впервые обогнала Microsoft, рыночная капитализация Apple выросла с $223 млрд. до более чем $306 млрд (по состоянию на 14 апреля 2011). Капитализация Microsoft, тем временем, немного упала с $219 млрд до $212 млрд.

Читать дальше →

Как продвигать игру в AppStore: делюсь опытом на примере Wordrive

Reading time13 min
Views35K
Хочу поделиться опытом по продвижению своей новой игры для iPhone/iPad — Wordrive.

Статья может быть полезна не только для продвижения iPhone-приложений, но любого мобильного или прикладного софта, потому что часть советов довольно универсальны. Многое из описываемого тут я в сети нигде не нашел. Надеюсь, это поможет пройти этот этап без типичных ошибок.

Итак, вот у вас готово приложение и оно появилось в AppStore. Первый поток людей на него направляется из iTunes/App Store, сам собой — за счет появления в «новинках». Рассчитывать на него нечего — он как пришел, так и уйдет через пару-тройку дней. За это время нужно делать все, чтобы о программе или игре стали писать в сети. Если программа за это время сможет собрать еще и интернет-аудиторию, то выйти в топы будет сильно проще. А чтобы ее собрать, к моменту запуска в App Store нужно уже много что сделать.

Читать дальше →

Инфографика: The Rise And Fall of Yahoo

Reading time1 min
Views747
В то время как крупнейшие интернет гиганты хвастают чуть ли не лучшими квартальными и годовыми прибылями в своей истории, есть среди них одна, дела у которой идут не так радужно.

Пусть не принято показывать пальцем — Yahoo вляпалась уже давно. Поиск покупателя для Delicious и дальнейшая «реструктуризация» наверняка не понравилась пятистам, уже бывшим, сотрудникам.

Ребята из Focus попытались изобразить ключевые моменты в истории этой некогда активной компании. Шаг за шагом, все переломы, приобретения, взлеты и падения с 1994 года, по февраль прошлого года. Не хватает только упомянутых событий декабря.

На следующей неделе Yahoo объявит финансовые результаты своей деятельности за прошедшие квартал, и год, а значит глаза многих будут устремлены не только на цифры, но и на людей, работающих в компании. Остается надеяться, что каждый из них знает ответ на вопрос: «Do You Yahoo!?»

Читать дальше →

Автор, его фанаты и издатель — третий лишний

Reading time7 min
Views1.5K
Начиная этот топик, хочется заранее извиниться перед хабражителями.
Тема уже замучена донельзя, а комментарии к постам в блоге «Копирайт» развиваются по многократно отрепетированному сценарию. Я постараюсь не оправдывать ваших худших ожиданий.


1. Причины, по которым я взялся за клавиатуру



Так случилось, что я люблю творчество одной не сильно известной музыкальной группы. И некоторое время назад музыканты, играющие в этой группе, опубликовали открытое письмо к своим поклонникам. Оно меня сильно зацепило, и с момента его прочтения у меня назревал этот текст, который я сейчас пишу.
Читать дальше →

Конкурс приложений WP7 с телефонами HTC

Reading time1 min
Views875
На прошлой неделе на Windows Phone Camp мы объявили о новом конкурсе приложений для Windows Phone 7.

Конкурс проходит в четырех номинациях, в том числе отдельно среди студентов. Победители получат телефоны HTC, сертификаты от Softkey (напомню про акцию с бесплатной регистрацией в Marketplace), специальные призы от WP7Rocks.

В конкурсе могут принять участие разработчики из России, которые опубликовали свои приложения после 20 августа 2011 года. На сайте будут также публиковаться обзоры конкурсных приложений.

Дополнительная информация доступна на сайте WP7Rocks.
1
23 ...

Information

Rating
Does not participate
Location
Киев, Киевская обл., Украина
Date of birth
Registered
Activity