Articles / Bookmarks / Profile of kypexin / Habr

How to become an author

Владимир Михнович @kypexin

Data scientist

Profile Publications 2Comments 87Bookmarks 40

Milfgard Oct 31 2017 at 13:16

«Говорит президент. Кажется, на вашу ферму упала орбитальная станция» — «Ага, сейчас бычков посмотрю»

5 min

66K

В 1973 году американцы вывели на орбиту огромную хреновину на 77 тонн. Называлась эта штука Skylab. У нас она особо известна тем, что есть как минимум полдюжины конспирологических теорий, зачем она действительно была нужна. Самая простая – что там был шлюз для корабля пришельцев.

Но это не важно. Важно то, что в 1979 году её хотели затопить в океане, но вместо этого затопили на паре австралийских ферм. Местные в разных поселениях с большим удовольствием смаковали эту историю, и поэтому я не мог не раскопать детали. И, конечно же, там обнаружился целый цирк.

Картинка Университета Флиндерса (Южная Австралия, апрель 2012)

Итак, для начала NASA не знала, куда именно грохнется Скайлаб. Уточнённый прогноз предполагал, что она развалится в атмосфере и даст кучу осколков с покрытием 7400 километров по вектору входа в атмосферу. Надо отметить, что вся эта история происходила в 1978-м году.

А 1978 год особо примечателен тем, что в Канаду уже упал наш советский спутник. Так в Канаде появилось новое месторождение урана. Причём сразу обогащённого.

В результате прогноз попадания в хотя бы одного человека 1 к 152 воспринимался примерно так же как фраза капитана пассажирского самолёта «Уважаемые пассажиры, пожалуйста, сохраняйте спокойствие».

Читать дальше →

+159

sheepwalker Jan 12 2017 at 04:25

Трактор в Эстонию

5 min

22K

Довольно много историй было и видимо будет на Хабре про переезды, хочу рассказать свою тоже.

Вводная часть

Я разработчик, пару лет работаю удаленно на европейских и американских клиентов. До этого 10 лет проработала разработчиком и техническим менеджером в Москве.

Какое-то время назад озаботилась вопросом легализации доходов от удалённой работы и одновременного переезда.

Если честно не думаю, что мой опыт может слишком сильно пригодиться кому-то ещё, потому что я в итоге выбрала окольный путь, с открытием своей компании, выплатой налогов и зарплаты себе, как единственному сотруднику. И дальше запросу внж с помощью своей компании. Кажется, что все можно сделать гораздо проще.

Но мне уже не очень хотелось наниматься к кому-то (почему, читайте ниже) и прельстила идея “собственного бизнеса”.

Уточню, что на получение документов у меня ушел примерно год.

Читать дальше →

+40

vchampion Oct 31 2015 at 16:00

Введение в RapidMiner

7 min

56K

Open source*Data Mining*Big Data*

Tutorial

На данный момент существует много компаний нуждающихся в системах аналитики, но дороговизна и чрезмерная сложность данного ПО в большинстве случаев вынуждает отказаться от идеи построения собственной аналитической системы в пользу простого всем известного экселя. Также дополнительные расходы на обучение сотрудников, поддерживание дорогих систем хранения данных и т.д. И тут на помощь могут прийти Open Source решения — их не так много, но есть очень достойное ПО, одним из которых которых является RapidMiner.

Читать дальше →

+16

Jaylla Aug 17 2015 at 14:44

Методы отбора фич

10 min

83K

Data Mining*Machine learning*

Эта статья — обзор, компиляция из нескольких источников, полный список которых я приведу в конце. Отбор фич (feature selection) — важная составляющая машинного обучения. Поэтому мне захотелось лучше разобраться со всевозможными его методами. Я получила большое удовольствие от поиска информации, чтения статей, просмотра лекций. И хочу поделиться этими материалами с вами. Я постаралась написать статью так, чтобы она требовала минимальных знаний в области и была доступна новичкам.

Читать дальше →

+19

rocknrollnerd Jun 2 2015 at 10:30

Внезапный диван леопардовой расцветки

8 min

83K

Algorithms*Image processing*Machine learning*

Если вы интересуетесь искусственным интеллектом и прочим распознаванием, то наверняка уже видели эту картинку:

А если не видели, то это результаты Хинтона и Крижевского по классификации ImageNet-2010 глубокой сверточной сетью

Давайте взглянем на ее правый угол, где алгоритм опознал леопарда с достаточной уверенностью, разместив с большим отрывом на втором и третьем месте ягуара и гепарда.

Это вообще довольно любопытный результат, если задуматься. Потому что… скажем, вы знаете, как отличить одного большого пятнистого котика от другого большого пятнистого котика? Я, например, нет. Наверняка есть какие-то зоологические, достаточно тонкие различия, типа общей стройности/массивности и пропорций тела, но мы же все-таки говорим о компьютерном алгоритме, которые до сих пор допускают какие-то вот такие достаточно глупые с человеческой точки зрения ошибки. Как он это делает, черт возьми? Может, тут что-то связанное с контекстом и фоном (леопарда вероятнее обнаружить на дереве или в кустах, а гепарда в саванне)? В общем, когда я впервые задумался над конкретно этим результатом, мне показалось, что это очень круто и мощно, разумные машины где-то за углом и поджидают нас, да здравствует deep learning и все такое.

Так вот, на самом деле все совершенно не так.

под катом пятна

+142

Enano May 20 2015 at 21:51

Как создать искусственный интеллект? История вторая. Алгоритмы интеллектуального поиска и хранения информации

10 min

70K

Search engines*Data Mining*

В серии статей мы рассказываем о новых подходах в Искусственном Интеллекте, моделировании личности и обработке BIG Data, которые недоступны для большинства специалистов по ИИ и общественности. Ценность этой информации в том, что она вся проверена на практике и большинство теоретических наработок реализованы в прикладных проектах.

Все вы без исключения пользуетесь современными поисковыми системами, которые хорошо справляются с поиском ссылок по ключевым словам. Но можно ли считать эти технологии поиском информации, умеют ли они отвечать на ваши вопросы в разных контекстах, могут ли они размышлять, воображать на основе сотен, тысяч источников на разных языках?

Крупные поисковые компании обладают почти неограниченными ресурсами – у них есть деньги, на них работают самые профессиональные сотрудники, тысячи и даже миллионы серверов обслуживают поисковые запросы.
Так почему же до сих пор вы получаете в качестве ответа ссылки, а не ответ на свой вопрос?

В этой статье мы поговорим о технологиях и алгоритмах, которые изменят ваше представление о поиске и хранении информации.

Читать дальше →

+9

Enano Apr 15 2015 at 10:52

Как создать искусственный интеллект? История первая. Что такое интеллект?

6 min

105K

Artificial Intelligence

В серии статей мы расскажем о новых подходах в ИИ, моделировании личности и обработке BIG Data, которые недоступны для большинства специалистов по ИИ и общественности. Ценность этой информации в том, что она вся проверена на практике и большинство теоретических наработок реализованы в прикладных проектах.

Многие из вас слышали про современные технологии, которые ассоциируются сегодня с понятием искусственный интеллект, а именно: экспертные системы, нейронные сети, лингвистические алгоритмы, гибридные системы, когнитивные технологии, имитационные(чат-боты) и пр.

Да, многие компании с помощью приведенных выше технологий решают задачи своих клиентов по обработке информации. Некоторые из этих компаний пишут, что создают или создали решения в области искусственного интеллекта. Но интеллект ли это?

Читать дальше →

+6

Durham Apr 21 2015 at 17:31

Как мы придумывали систему анализа текстов

5 min

17K

Semantics*Programming*Machine learning*MeanoTek corporate blog

Доброго времени суток всем. Это наш первый пост в блог стартапа «Meanotek», и наверное он будет больше ознакомительного характера. Чтобы не было совсем скучно читать, мы попробуем рассказать историю, о том как одна практическая задача привела нас к созданию полноценной системы «понимания» текста компьютером, и что из этого получилось.

Мысль научить компьютер общаться на человеческом языке у меня появилась еще в школе, когда у меня дома был один из первых советских аналогов IBM PC, с языком программирования GW BASIC. Понятно, что далеко эта задумка в то время не ушла, потом ее заслонили другие более важные дела, но совершенно неожиданно она всплыла вновь спустя много лет, уже в связи с конкретной потребностью.

Собственно идея пришла в голову во время работы над другим проектом — сайтом поиска отзывов reviewdot.ru. Идея reviewdot.ru была в следующем — пользователь вводит запрос, например «зеркальный фотоаппарат для начинающих» — и получает список ссылок на отзывы в интернете, которые касаются именно этого вопроса. Или к примеру, чтобы по запросу «что ломается в стиральной машине Indesit?” появлялись ссылки на отзыв пользователей марки Indesit, у которых что-то сломалось. Вопрос ценности данного ресурса для людей пока оставим за скобками, и поговорим немного о технической стороне реализации.

Читать дальше →

+8

Durham Apr 25 2015 at 13:53

Классификация предложений с помощью нейронных сетей без предварительной обработки

6 min

72K

Semantics*Programming*Algorithms*Machine learning*MeanoTek corporate blog

Довольно часто встречается задача классификации текстов — например, определение тональности (выражает ли текст позитивное мнение или отрицательное о чем-либо), или разнесения текста по тематикам. На Хабре уже есть хорошие статьи с введением в данный вопрос.

Сегодня я хочу поговорить о проблеме классификации отдельных предложений. Решение этой задачи позволяет делать много интересного, например, выделять положительные и отрицательные моменты из длинных текстов, определять тональность твитов, является компонентом многих систем отвечающих на естественно-языковые вопросы (классификация типа вопроса), помогает сегментировать веб-страницы на смысловые блоки и многое другое. Однако, классификация отдельных предложений значительно сложнее классификации больших блоков текста — в одном предложении значительно меньше полезных признаков, и велико влияние порядка слов. Например: «как положено фильму ужасов, этот фильм был ну очень жутким» — содержит негативные слова («ужас», «жуткий»), но выражает положительное мнение о фильме, «все было ужасно красиво», или даже «отличный фильм, ничего не скажешь, только зря деньги потратили».

Читать дальше →

+22

elcoyot Dec 14 2013 at 16:29

Машинное обучение и анализ данных. Лекция для Малого ШАДа Яндекса

3 min

61K

Яндекс corporate blogAlgorithms*

Tutorial

Все чаще и чаще мы сталкиваемся с необходимостью выявлять внутренние закономерности больших объёмов данных. Например, для распознавания спама необходимо уметь находить закономерности в содержании электронных писем, а для прогнозирования стоимости акций — закономерности в финансовых данных. К сожалению, выявить их «вручную» часто невозможно, и тогда на помощь приходят методы машинного обучения. Они позволяют строить алгоритмы, которые помогают находить новые, ещё не описанные закономерности. Мы поговорим о том, что такое машинное обучение, где его стоит применять и какие сложности могут при этом возникнуть. Принципы работы нескольких популярных методов машинного обучения будут рассмотрены на реальных примерах.

Лекция предназначена для старшеклассников — студентов Малого ШАДа, но и взрослые с ее помощью смогут составить представление об основах машинного обучения.

Основная идея машинного обучения заключается в том, что имея обучающуюся программу и примеры данных с закономерностями, мы можем построить некоторую модель закономерности и находить закономерности в новых данных.

Видеозапись и конспект лекции

+60

vkalenov Apr 18 2015 at 13:38

Напутственные слова выступающему на конференции в первый раз

3 min

9.9K

Знание типичных ошибок вынуждает начинающих больше нервничать, а после доклада — более мотивированно себя ругать. Поэтому про ошибки не буду, а приведу очевидные тезисы, которые не всем приходят в голову. Об этом я всегда говорю людям, которые собираются выступать в первый раз, сразу после рассказа о том, как вообще подготовиться.

Не заморачивайтесь с броским названием.
Аудитория не знает, что именно и как вы собираетесь рассказывать.
Докладчик — не слуга аудитории.
Вы делаете доклад для тех, кто в зале прямо сейчас.
Озвучьте аудитории удобные для вас правила ответов на вопросы. Соблюдайте их.
Фиксируйте результаты выступления — в течение 3-х дней после мероприятия.

Далее немного подробнее о каждом пункте.

Читать дальше →

+14

marks Apr 17 2015 at 19:30

Мобильные кошельки популярнее всего… на юге Сахары

2 min

8.9K

Finance in ITCellular communication

Системы мобильных платежей и мобильные кошельки — далеко не новость для всех нас. Пользователи многих стран используют мобильные кошельки весьма активно. Тем не менее, активнее всего используют подобные системы жители африканских стран на юге Сахары. Согласно отчету Global Financial Inclusion от Word Bank, около 12% взрослых в этом регионе (64 миллионов человек) имеют мобильные кошельки, или то, что жители Африки называют «счет мобильных денег». Эта система не имеет отношения к банкам. У примерно половины пользователей таких «счетов» есть и традиционные счета в банках.

Тем не менее, около 50% пользователей мобильных кошельков в Африке полностью зависят от своих телефонов в финансовом плане. Особенно популярны такие системы в Кении, где около 58% взрослого населения страны получает доступ к своим деньгам посредством мобильного телефона. Что касается мобильных кошельков, это предоплаченный сервис сотовых операторов, не связанный с финансовыми институтами. При помощи такой системы пользователи получают возможность оплачивать счета и отправлять наличку.

Читать дальше →

+12

klimovkl Sep 26 2014 at 16:18

Эффективный антифрод: как защитить бизнес от мошенничества в интернете

5 min

18K

Information Security*Development for e-commerce*Payture corporate blog

Всем привет! Это наш первый пост на Хабре, которым мы начинаем серию публикаций о фроде и антифрод-сервисах. Мы — Payture, а если быть точными, международная процессинговая компания, специализирующаяся на услугах в области электронной и мобильной коммерции, а также предоставляющая услуги антифрод-сервиса.

Фрод и фишинг ходят рядом (о том, где берутся данные для фрода)

Далее про фишинг и 2 истории фрода из нашей практики

+2

kashapa Feb 12 2015 at 18:55

Популярно про фрод — ответы на вопросы из реальной жизни электронных коммерсантов

7 min

40K

Information Security*Development for e-commerce*Payture corporate blogDevelopment of communication systems*

Под термином фрод сейчас подразумевают любое мошенничество в IT. Кардингом называют любые незаконные операции с банковской картой. Мы специализируемся на предотвращении карточного фрода в электронной коммерции. Проблема в том, что начиная свой бизнес в сети, предприниматели, как правило, в первую очередь думают о стоимости приема платежей и мало знают о рисках, связанных с фродом. Самые популярные вопросы от ТСП (торгово-сервисные предприятия, интернет-магазины, мерчанты) приведены ниже.

Читать дальше →

+1

OsipovRoman Apr 13 2015 at 02:17

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW)

28 min

27K

Programming*Algorithms*Wolfram Research corporate blogMathematics*Machine learning*

Translation

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Frontiers of Computational Thinking: A SXSW Report".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

На прошлой неделе я выступал на SXSW Interactive 2015 в Остине, штат Техас. Вот несколько отредактированная стенограмма моего выступления:

Содержание

Наиболее продуктивный год
Язык Wolfram Language
Язык для реального мира
Философия Wolfram Language
Программы размером в один твит
Вычислительное мышление для детей
Ввод запросов на естественном языке
Масштабная идея: Символьное программирование
Язык для развёртывания
Автоматизация программирования
Масштабные программы
Интернет вещей
Машинное обучение
Исследования Вычисляемой Вселенной
Вычислять, подобно тому, как это делает мозг
Язык как символьное представление
Пост-лингвистические понятия
Древняя история
Чем будет заниматься искусственный интеллект?
Бессмертие и за его пределами
Коробка триллиона душ
Обратно в 2015 год

Читать дальше →

+20

Pastafarianist Sep 8 2014 at 23:11

Learning How to Learn: впечатления

4 min

87K

Я закончил августовскую сессию курса Learning How to Learn (LH2L) на Coursera и хотел бы поделиться впечатлениями с хабрасообществом, а также дать несколько советов и предостеречь.

Постулируемая цель курса — рассказать об эффективных методах обучения. В том числе и самообразования.

Курс проходил с 1 августа по 1 сентября. Лекторы — Barbara Oakley (подавляющее большинство записей) и Terence Sejnowski (появлялся изредка). К курсу прилагался опциональный учебник «A Mind for Numbers», который авторы старательно рекламировали.

Содержание курса:

Содержание, впечатления, скандалы, интриги

+23

magfirnen Sep 10 2014 at 14:57

«Learning how to learn»: краткий обзор материалов курса

5 min

109K

Как учиться лучше и быть эффективнее: простые и полезные техники

Просмотрела курс на Coursera «Learning how to learn», который рассказывает, как лучше учиться, запоминать информацию и быть более эффективным, и составила список из 17 советов-приемов. Возможно, вы найдете их полезными.

Читать дальше →

+45

khmelkoff Apr 7 2015 at 12:12

Мешок слов и сентимент-анализ на R

5 min

23K

Data Mining*R*Machine learning*

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.

Читать дальше →

+11

Olga_Volodko Apr 7 2015 at 16:59

Глобальная значимость английского, немецкого, русского, китайского и других языков в Интернете (Data Mining)

7 min

36K

Data Mining*Big Data*New Professions Lab corporate blog

Центральные языки на этой карте могут и не иметь самого большого количества носителей, однако они служат «общими» языками для общения элит.

В молодом направлении Big Data есть свои восходящие звезды и многообещающие лидеры, один из самых ярких это Цезарь Хидальго — профессор MIT Media Lab, разработчик онлайн-платформы визуализации данных о торговых связях между разными странами мира Observatory of Economic Complexity, и один из “50 человек, которые изменят мир” по версии журнала Wired.

Несколько лет назад Цезарю и его боевым товарищам захотелось исследовать взаимосвязь языковых узлов в Интернете. Языки отличаются по значимости по куче причин: начиная от технических и заканчивая демографическими. Задачу ставили себе амбициозную — определить глобальную значимость языка, которая не зависит от простых демографических и экономических показателей. О том, что из этого получилось, читайте в посте ниже.

Читать дальше →

+25

KustikovaV Apr 7 2015 at 20:45

Сравнение библиотек глубокого обучения на примере задачи классификации рукописных цифр

21 min

53K

Intel corporate blogData Mining*Algorithms*Image processing*Machine learning*

Кручинин Дмитрий, Долотов Евгений, Кустикова Валентина, Дружков Павел, Корняков Кирилл

Введение

В настоящее время машинное обучение является активно развивающейся областью научных исследований. Это связано как с возможностью быстрее, ~~выше, сильнее~~, проще и дешевле собирать и обрабатывать данные, так и с развитием методов выявления из этих данных законов, по которым протекают физические, биологические, экономические и другие процессы. В некоторых задачах, когда такой закон определить достаточно сложно, используют глубокое обучение.

Глубокое обучение (deep learning) рассматривает методы моделирования высокоуровневых абстракций в данных с помощью множества последовательных нелинейных трансформаций, которые, как правило, представляются в виде искусственных нейронных сетей. На сегодняшний день нейросети успешно используются для решения таких задач, как прогнозирование, распознавание образов, сжатие данных и ряда других.

Читать дальше →

+29

1