Pull to refresh
461
0
Краковецкий Александр @sashaeve

CEO DevRain

Send message

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Reading time 34 min
Views 86K
Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

Total votes 57: ↑55 and ↓2 +53
Comments 25

Тренируем генеративно-состязательную сеть для рисования картин на Azure ML

Reading time 10 min
Views 8.9K

Глубокое обучение иногда выглядит как чистая магия, особенно тогда, когда компьютер учится делать что-то действительно креативное, например, рисовать картины! Используемая для этого технология называется GAN — генеративно-состязательная сеть, и в этой заметке мы рассмотрим, как такие сети устроены, и как натренировать их для генерации картин с помощью Azure Machine Learning.


Banner


Этот пост является частью инициативы AI April. Каждый день апреля мои коллеги из Microsoft пишут интересные статьи на тему AI и машинного обучения. Посмотрите на календарь — вдруг вы найдёте там другие интересующие вас темы. Статьи преимущественно на английском.
Total votes 16: ↑16 and ↓0 +16
Comments 6

Продукт на .NET, помогающий спасать жизни

Reading time 11 min
Views 7.1K
В некоторых жизненных ситуациях нужно действовать очень быстро. Иногда это условие невыполнимо: например, просто невозможно без огромного везения за очень короткое время найти человека с редкой группой крови, так еще и готового ей поделиться. Ребята создали продукт под названием DonorUA, который действительно помогает спасать жизни при помощи чат-бота. Подробнее под катом.

Читать дальше →
Total votes 27: ↑24 and ↓3 +21
Comments 4

Palantir и отмывание денег

Reading time 6 min
Views 37K


Palantir
[Контент удален по требованию Википедии]

На официальном канале Palantir есть видео с демонстрацией работы аналитика, использующего систему Palantir в ходе расследования отмывания денег. По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»), Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»), о которых я писал немного ранее.

(За помощь с переводом спасибо Ворсину Алексею)

Total votes 27: ↑23 and ↓4 +19
Comments 17

А если найду? Перелет еще дешевле чем вы уже нашли

Reading time 3 min
Views 122K
Если вы планируете поездку и уже нашли недорогой перелет, не спешите покупать билеты, потому что сейчас вы найдете билеты еще дешевле. И это не реклама очередного говноагрегатора.

Всем известно, что авиакомпании берут свои цены с потолка. Маркетологи придумывают хитроумные непрозрачные схемы отъёма денег у пассажиров пропорционально финансовым возможностям последних. Так, чтобы богатые платили за билеты побольше, а бедные — сколько смогут.

Читать дальше →
Total votes 123: ↑99 and ↓24 +75
Comments 299

Человеческий фактор в разработке программного обеспечения: психологические и математические аспекты

Reading time 8 min
Views 27K
Разработка программного продукта — это процесс, в котором человеческий фактор играет очень важную роль. В статье поговорим о различных психологических и математических законах и принципах. Некоторые из этих принципов и законов вам хорошо известны, некоторые — не очень, а некоторые помогут объяснить ваше поведение или поведение ваших сотрудников и коллег.

Разработка ПО – нелинейный процесс

Разработка программного обеспечения — нелинейный процесс. Если на проект выделено 5 разработчиков, которые за 5 месяцев должны разработать продукт (25 чел./мес.), то 25 разработчиков не смогут сделать эту же работу за 1 месяц (те же 25 чел./мес.).


image
Читать дальше →
Total votes 51: ↑39 and ↓12 +27
Comments 14

Серия плакатов об ученых и их открытиях

Reading time 1 min
Views 180K
Newton, Kapil Bhagat

Индийский дизайнер Капил Бхагат из Мумбая в своем блоге разместил серию плакатов об ученых и их открытиях. Плакаты наглядно иллюстрируют достижения ученных с помощью их фамилий. Таким образом Капил предложил отпраздновать День наук в Индии.

Все постеры под катом.
Читать дальше →
Total votes 224: ↑170 and ↓54 +116
Comments 108

Налоги в США. Часть 1. Введение, income tax, федеральный налог, налог штата, Social Security taxes

Reading time 7 min
Views 220K

Введение


Последние месяцы на Хабре мне часто попадаются обсуждения налогов в США. Как правило, это происходит в топиках, где обсуждение по какой-то причине скатилось к вечным темам «у нас все плохо — у них хорошо», «у нас хорошо — у них все плохо», «пора валить отсюда», «Да в США такие налоги, что непонятно, как бедные люди вообще там выживают» и т.п.

В очередной раз наткнувшись на такое обсуждение, я спросил тут же в комментарии и даже задал соответствующий хабравопрос — народ, а может вместо того, чтобы беспорядочно спорить о налогах в США в куче разных топиков, давайте я напишу отдельный подробный пост на эту тему, и там и будем спорить? За этот комментарий и хабравопрос я получил изрядно кармы и хабрасилы, и, собственно, на этом можно было бы и остановиться ибо цель достигнута, муа-ха-ха. Однако, меня уже начинают спрашивать некоторые люди, где же обещанная статья, и судя по всему, отвертеться от написания поста мне не удастся…

Обсуждающие налоги в таких топиках делятся, как правило, на три заметные группы:

  • Те, кто о налогах в США знает мало, но хотел бы узнать побольше из первых рук, а так же задать в одном месте все интересующие вопросы и получить ответы всего за 0.99$ за один ответ!
  • Те, кто реально разбирается в предмете (в 90% случаев это люди, работающие и живущие в США). В обсуждениях участвуют обычно короткими репликами, так как вопрос сложный и расписывать все в деталях каждый раз лень и вообще дело неблагодарное.
  • Те, кто о налогах в США знает из разных сомнительных источников, вроде блогпостов диванных аналитиков, но мнение имеет.

Для первых я и решил написать этот пост. От вторых я с благодарностью приму замечания и дополнения. Третьи могут не беспокоиться.

В первой части я напишу про налоги вообще, про федеральный налог и налог штатов и как они вычисляются и про Social Security / Medicare tax.

Во второй части (coming soon) — про годовой цикл налогообложения и различные формы — W-2, W-4, 1040NZ и прочее и прочее.

В третьей части (coming soon) — про процесс подачи Tax Return, про сайты которые помогают заполнять здоровенные формы, про применение налоговых вычетов, и, ГЛАВНОЕ о налогах в США — если есть основания, как можно получить обратно существенную часть удержанных с вас налогов. Поэтому, читая этот пост, держите в голове — большинство людей платит существенно меньшие налоги, чем те, которые я тут вычисляю для примера без учета возможных вычетов.

Поехали.
Читать дальше →
Total votes 129: ↑122 and ↓7 +115
Comments 103

Публикация книг в Apple iBookstore

Reading time 4 min
Views 46K
Возможность публиковать на мобильных устройствах от Apple контента с извлечением скромной материальной выгоды уже давно занимала воображение Вашего покорного слуги. Идея того, какого рода контент это должен быть, сформировалась некоторое время назад, но руки никак не доходили до реализации в виде iOS-приложения под видом разного рода отговорок о нехватке времени. Анонс iBooks Author для Mac и iBooks 2.0 для iOS дал мощный толчок к активизации телодвижений в этой области, и я, было, весьма обрадовался, полагая, что вот оно, и уж теперь-то заживем! Однако более пристальное изучение деталей процесса публикации книг в iBookstore полностью похоронило мой оптимизм.
И вот почему...
Total votes 60: ↑51 and ↓9 +42
Comments 61

Поздравление с Новым 2012 годом на 150 языках

Reading time 7 min
Views 3.3K
Уважаемые Хабравчане!
Поздравляю вас с наступающим новым годом! Желаю Вам творческих успехов, карьерного, интеллектуального и духовного роста!

Хочу сделать вам небольшой подарок: поздравления с новым годом на более чем 150 языках программирования!

image
Читать дальше →
Total votes 103: ↑68 and ↓35 +33
Comments 69

Ускоренное расширение Вселенной: несколько популярных слов

Reading time 8 min
Views 8.7K
Некоторая ирония природы состоит в том, что наиболее изобильная форма энергии во Вселенной есть и наиболее загадочная. После ошеломляющего открытия ускоренного расширения Вселенной довольно быстро возникла согласованная картина, указывающая на то, что 2/3 космоса «сделаны» из «темной энергии» — некоторого сорта гравитационно отталкивающего материала. Но достаточно ли убедительны доказательства, подтверждающие новые экзотические законы природы? Может имеются более простые астрофизические объяснения этих результатов?
Читать дальше →
Total votes 182: ↑175 and ↓7 +168
Comments 76

Windows Phone 7 Rocks #3

Reading time 1 min
Views 723
Прямая запись с конференции Uneta Plus. В гостях Алекс Голеш, Владимир Юнев, Макс Павловский, Александр Краковецкий.

Алекс Голеш — Senior Architect в Sela Group, компании-партнера Microsoft, которая разрабатывает демонстрационный код для конференций, Channel 9, MSDN, создают обучающие видео, а также ведут коммерческие разработки на Silverlight, WPF, XNA и под Windows Phone и другие мобильные платформы.

Макс Павловский работает в EPAM, лидер Silverlight / Windows Phone 7 Minsk.

Темы обсуждения:
  • Партнерские отношения Microsoft и разработчиков, влияние отзывов разработчиков на развитие платформы
  • Html5 поддерживают все платформы, почему бы не заменить им native-приложения?
  • Прототипирование, кто что использует?
Наш RPOD.RU и Twitter
Total votes 27: ↑14 and ↓13 +1
Comments 11

Проверьтесь на монополизм

Reading time 4 min
Views 810
googlelogoЛюбому, кто будет всерьез утверждать, что Google еще не монополизировала рынок Интернет-поиска, я могу лишь рассмеяться в ответ. Подобные аргументы не выдерживают серьезной критики, а отчеты об объеме рынка и доходах, которые ежеквартально публикует Google, как и любая другая публичная компания, говорят лишь об одном — ни Bing, ни, прости Господи, Яндекс, ни даже новомодный Yelp (чьи функции пока несут хоть какую-то полезность только для жителей США и Великобритании) не в состоянии вести адекватную конкуренцию c компанией, в чьем названии есть две «о». В некотором смысле, успешность последних обеспечена популярностью первого, но это мое суждение, с которым можно не согласиться.

Но, как известно, то, что еще не написано пером, вдвойне невозможно вырубить топором. Поэтому любые подобные нападки на Google, в отсутствии официального заключения Антимонопольного Комитета США, могут, а скорее всего будут, считаться плодом чьей-то воспаленной фантазии. По курьезному стечению обстоятельств, вполне возможно, что в скором времени у конкурентов и ненавистников компании появится вполне обоснованный повод называть последнюю не иначе, как «монополия». Федеральная Торговая Комиссия США (FTC) уполномочена провести расследование в отношении главной статьи дохода компании — рекламного бизнеса, построенного вокруг поискового движка Google.

Что еще удивительнее, лично для меня, — это нежелание Брина и Пейджа появиться на августовских слушаниях в Вашингтонском Сенате, представители которого очень хотят услышать ответы на вопросы о позициях Google на рынке, политике компании, а так же, очевидно, на некоторые другие, более или менее щепетильные вопросы. Даже несмотря на «настойчивую рекомендацию» со стороны представителей исполнительной власти США прийти на слушание одному из двух, а лучше паре основателей компании — они посылают туда главу юридического отдела Дэвида Драммонда (David Drummond), чьей профессией является умение отвечать на вопросы представителей чего угодно. Кроме упомянутой позиции, на которой он числится аж с 2002 года, Драммонд так же является вице-президентом по корпоративному развитию и занимается, помимо всего прочего, отношениями с правительством — пишет Bloomberg.

Согласно Wall Street Journal: «Расследование пройдет вокруг фундаментальных вопросов, связанных с ядром рекламного бизнеса Google, построенного вокруг поиска, который приносит головокружительную прибыль компании. Это расследование будет включать в себя такие щепетильные для Google темы, как нечестное использование собственных каналов доставки информации пользователю, с целью увеличения собственной базы пользователей ценой притеснения конкурентов». О, как. На практике это означает, что по мнению представителей Торговой Комиссии, Google использует собственную силу и возможности для того, чтобы «проталкивать» в выдаче ссылки на свои собственные сервисы.
Читать дальше →
Total votes 78: ↑64 and ↓14 +50
Comments 120

10 лучших вузов в области речевых технологий и искусственного интеллекта

Reading time 11 min
Views 24K


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...
Total votes 39: ↑29 and ↓10 +19
Comments 21

Apple vs Microsoft

Reading time 4 min
Views 9.5K
image

Немногим меньше года назад Уолл-стрит в битве Microsoft vs Apple впервые оценил рыночную стоимость Apple выше Microsoft.

Apple'овская рыночная капитализация (общая стоимость всех акций) превысила капитализацию Microsoft'а, хотя последняя компания имела большую выручку и вдвое больший размер прибыли, чем у Apple. Ясно, что Уолл-стрит смотрит на потенциальный рост компании, а не на ее текущие доходы, поэтому Apple выглядит более привлекательной компанией.

Рыночная капитализация


Хотя стоимость Microsoft и Apple были очень близки прошлой весной, теперь все иначе. С 26 мая 2010 года, когда Apple впервые обогнала Microsoft, рыночная капитализация Apple выросла с $223 млрд. до более чем $306 млрд (по состоянию на 14 апреля 2011). Капитализация Microsoft, тем временем, немного упала с $219 млрд до $212 млрд.

Читать дальше →
Total votes 59: ↑41 and ↓18 +23
Comments 49

Как продвигать игру в AppStore: делюсь опытом на примере Wordrive

Reading time 13 min
Views 35K
Хочу поделиться опытом по продвижению своей новой игры для iPhone/iPad — Wordrive.

Статья может быть полезна не только для продвижения iPhone-приложений, но любого мобильного или прикладного софта, потому что часть советов довольно универсальны. Многое из описываемого тут я в сети нигде не нашел. Надеюсь, это поможет пройти этот этап без типичных ошибок.

Итак, вот у вас готово приложение и оно появилось в AppStore. Первый поток людей на него направляется из iTunes/App Store, сам собой — за счет появления в «новинках». Рассчитывать на него нечего — он как пришел, так и уйдет через пару-тройку дней. За это время нужно делать все, чтобы о программе или игре стали писать в сети. Если программа за это время сможет собрать еще и интернет-аудиторию, то выйти в топы будет сильно проще. А чтобы ее собрать, к моменту запуска в App Store нужно уже много что сделать.

Читать дальше →
Total votes 109: ↑104 and ↓5 +99
Comments 89

Инфографика: The Rise And Fall of Yahoo

Reading time 1 min
Views 708
В то время как крупнейшие интернет гиганты хвастают чуть ли не лучшими квартальными и годовыми прибылями в своей истории, есть среди них одна, дела у которой идут не так радужно.

Пусть не принято показывать пальцем — Yahoo вляпалась уже давно. Поиск покупателя для Delicious и дальнейшая «реструктуризация» наверняка не понравилась пятистам, уже бывшим, сотрудникам.

Ребята из Focus попытались изобразить ключевые моменты в истории этой некогда активной компании. Шаг за шагом, все переломы, приобретения, взлеты и падения с 1994 года, по февраль прошлого года. Не хватает только упомянутых событий декабря.

На следующей неделе Yahoo объявит финансовые результаты своей деятельности за прошедшие квартал, и год, а значит глаза многих будут устремлены не только на цифры, но и на людей, работающих в компании. Остается надеяться, что каждый из них знает ответ на вопрос: «Do You Yahoo!?»

Читать дальше →
Total votes 31: ↑27 and ↓4 +23
Comments 26

Автор, его фанаты и издатель — третий лишний

Reading time 7 min
Views 1.5K
Начиная этот топик, хочется заранее извиниться перед хабражителями.
Тема уже замучена донельзя, а комментарии к постам в блоге «Копирайт» развиваются по многократно отрепетированному сценарию. Я постараюсь не оправдывать ваших худших ожиданий.


1. Причины, по которым я взялся за клавиатуру



Так случилось, что я люблю творчество одной не сильно известной музыкальной группы. И некоторое время назад музыканты, играющие в этой группе, опубликовали открытое письмо к своим поклонникам. Оно меня сильно зацепило, и с момента его прочтения у меня назревал этот текст, который я сейчас пишу.
Читать дальше →
Total votes 121: ↑103 and ↓18 +85
Comments 317

Конкурс приложений WP7 с телефонами HTC

Reading time 1 min
Views 831
На прошлой неделе на Windows Phone Camp мы объявили о новом конкурсе приложений для Windows Phone 7.

Конкурс проходит в четырех номинациях, в том числе отдельно среди студентов. Победители получат телефоны HTC, сертификаты от Softkey (напомню про акцию с бесплатной регистрацией в Marketplace), специальные призы от WP7Rocks.

В конкурсе могут принять участие разработчики из России, которые опубликовали свои приложения после 20 августа 2011 года. На сайте будут также публиковаться обзоры конкурсных приложений.

Дополнительная информация доступна на сайте WP7Rocks.
Total votes 43: ↑32 and ↓11 +21
Comments 19

Information

Rating
Does not participate
Location
Киев, Киевская обл., Украина
Date of birth
Registered
Activity