Pull to refresh
9
0
Владимир Михнович @kypexin

Data scientist

«Говорит президент. Кажется, на вашу ферму упала орбитальная станция» — «Ага, сейчас бычков посмотрю»

Reading time 5 min
Views 65K
В 1973 году американцы вывели на орбиту огромную хреновину на 77 тонн. Называлась эта штука Skylab. У нас она особо известна тем, что есть как минимум полдюжины конспирологических теорий, зачем она действительно была нужна. Самая простая – что там был шлюз для корабля пришельцев.

Но это не важно. Важно то, что в 1979 году её хотели затопить в океане, но вместо этого затопили на паре австралийских ферм. Местные в разных поселениях с большим удовольствием смаковали эту историю, и поэтому я не мог не раскопать детали. И, конечно же, там обнаружился целый цирк.


Картинка Университета Флиндерса (Южная Австралия, апрель 2012)

Итак, для начала NASA не знала, куда именно грохнется Скайлаб. Уточнённый прогноз предполагал, что она развалится в атмосфере и даст кучу осколков с покрытием 7400 километров по вектору входа в атмосферу. Надо отметить, что вся эта история происходила в 1978-м году.

А 1978 год особо примечателен тем, что в Канаду уже упал наш советский спутник. Так в Канаде появилось новое месторождение урана. Причём сразу обогащённого.

В результате прогноз попадания в хотя бы одного человека 1 к 152 воспринимался примерно так же как фраза капитана пассажирского самолёта «Уважаемые пассажиры, пожалуйста, сохраняйте спокойствие».
Читать дальше →
Total votes 163: ↑161 and ↓2 +159
Comments 52

Трактор в Эстонию

Reading time 5 min
Views 22K

Довольно много историй было и видимо будет на Хабре про переезды, хочу рассказать свою тоже.


Вводная часть


Я разработчик, пару лет работаю удаленно на европейских и американских клиентов. До этого 10 лет проработала разработчиком и техническим менеджером в Москве.


Какое-то время назад озаботилась вопросом легализации доходов от удалённой работы и одновременного переезда.


Если честно не думаю, что мой опыт может слишком сильно пригодиться кому-то ещё, потому что я в итоге выбрала окольный путь, с открытием своей компании, выплатой налогов и зарплаты себе, как единственному сотруднику. И дальше запросу внж с помощью своей компании. Кажется, что все можно сделать гораздо проще.


Но мне уже не очень хотелось наниматься к кому-то (почему, читайте ниже) и прельстила идея “собственного бизнеса”.


Уточню, что на получение документов у меня ушел примерно год.


Читать дальше →
Total votes 50: ↑45 and ↓5 +40
Comments 62

Введение в RapidMiner

Reading time 7 min
Views 54K
RapidMiner logoНа данный момент существует много компаний нуждающихся в системах аналитики, но дороговизна и чрезмерная сложность данного ПО в большинстве случаев вынуждает отказаться от идеи построения собственной аналитической системы в пользу простого всем известного экселя. Также дополнительные расходы на обучение сотрудников, поддерживание дорогих систем хранения данных и т.д. И тут на помощь могут прийти Open Source решения — их не так много, но есть очень достойное ПО, одним из которых которых является RapidMiner.
Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Comments 9

Методы отбора фич

Reading time 10 min
Views 80K
Эта статья — обзор, компиляция из нескольких источников, полный список которых я приведу в конце. Отбор фич (feature selection) — важная составляющая машинного обучения. Поэтому мне захотелось лучше разобраться со всевозможными его методами. Я получила большое удовольствие от поиска информации, чтения статей, просмотра лекций. И хочу поделиться этими материалами с вами. Я постаралась написать статью так, чтобы она требовала минимальных знаний в области и была доступна новичкам.
Читать дальше →
Total votes 21: ↑20 and ↓1 +19
Comments 22

Внезапный диван леопардовой расцветки

Reading time 8 min
Views 83K
Если вы интересуетесь искусственным интеллектом и прочим распознаванием, то наверняка уже видели эту картинку:


А если не видели, то это результаты Хинтона и Крижевского по классификации ImageNet-2010 глубокой сверточной сетью

Давайте взглянем на ее правый угол, где алгоритм опознал леопарда с достаточной уверенностью, разместив с большим отрывом на втором и третьем месте ягуара и гепарда.

Это вообще довольно любопытный результат, если задуматься. Потому что… скажем, вы знаете, как отличить одного большого пятнистого котика от другого большого пятнистого котика? Я, например, нет. Наверняка есть какие-то зоологические, достаточно тонкие различия, типа общей стройности/массивности и пропорций тела, но мы же все-таки говорим о компьютерном алгоритме, которые до сих пор допускают какие-то вот такие достаточно глупые с человеческой точки зрения ошибки. Как он это делает, черт возьми? Может, тут что-то связанное с контекстом и фоном (леопарда вероятнее обнаружить на дереве или в кустах, а гепарда в саванне)? В общем, когда я впервые задумался над конкретно этим результатом, мне показалось, что это очень круто и мощно, разумные машины где-то за углом и поджидают нас, да здравствует deep learning и все такое.

Так вот, на самом деле все совершенно не так.
под катом пятна
Total votes 148: ↑145 and ↓3 +142
Comments 141

Как создать искусственный интеллект? История вторая. Алгоритмы интеллектуального поиска и хранения информации

Reading time 10 min
Views 69K
image
В серии статей мы рассказываем о новых подходах в Искусственном Интеллекте, моделировании личности и обработке BIG Data, которые недоступны для большинства специалистов по ИИ и общественности. Ценность этой информации в том, что она вся проверена на практике и большинство теоретических наработок реализованы в прикладных проектах.

image

Все вы без исключения пользуетесь современными поисковыми системами, которые хорошо справляются с поиском ссылок по ключевым словам. Но можно ли считать эти технологии поиском информации, умеют ли они отвечать на ваши вопросы в разных контекстах, могут ли они размышлять, воображать на основе сотен, тысяч источников на разных языках?

Крупные поисковые компании обладают почти неограниченными ресурсами – у них есть деньги, на них работают самые профессиональные сотрудники, тысячи и даже миллионы серверов обслуживают поисковые запросы.
Так почему же до сих пор вы получаете в качестве ответа ссылки, а не ответ на свой вопрос?

В этой статье мы поговорим о технологиях и алгоритмах, которые изменят ваше представление о поиске и хранении информации.
Читать дальше →
Total votes 21: ↑15 and ↓6 +9
Comments 51

Как создать искусственный интеллект? История первая. Что такое интеллект?

Reading time 6 min
Views 103K
image

В серии статей мы расскажем о новых подходах в ИИ, моделировании личности и обработке BIG Data, которые недоступны для большинства специалистов по ИИ и общественности. Ценность этой информации в том, что она вся проверена на практике и большинство теоретических наработок реализованы в прикладных проектах.

Многие из вас слышали про современные технологии, которые ассоциируются сегодня с понятием искусственный интеллект, а именно: экспертные системы, нейронные сети, лингвистические алгоритмы, гибридные системы, когнитивные технологии, имитационные(чат-боты) и пр.

Да, многие компании с помощью приведенных выше технологий решают задачи своих клиентов по обработке информации. Некоторые из этих компаний пишут, что создают или создали решения в области искусственного интеллекта. Но интеллект ли это?
Читать дальше →
Total votes 18: ↑12 and ↓6 +6
Comments 74

Как мы придумывали систему анализа текстов

Reading time 5 min
Views 17K
Доброго времени суток всем. Это наш первый пост в блог стартапа «Meanotek», и наверное он будет больше ознакомительного характера. Чтобы не было совсем скучно читать, мы попробуем рассказать историю, о том как одна практическая задача привела нас к созданию полноценной системы «понимания» текста компьютером, и что из этого получилось.

Мысль научить компьютер общаться на человеческом языке у меня появилась еще в школе, когда у меня дома был один из первых советских аналогов IBM PC, с языком программирования GW BASIC. Понятно, что далеко эта задумка в то время не ушла, потом ее заслонили другие более важные дела, но совершенно неожиданно она всплыла вновь спустя много лет, уже в связи с конкретной потребностью.

Собственно идея пришла в голову во время работы над другим проектом — сайтом поиска отзывов reviewdot.ru. Идея reviewdot.ru была в следующем — пользователь вводит запрос, например «зеркальный фотоаппарат для начинающих» — и получает список ссылок на отзывы в интернете, которые касаются именно этого вопроса. Или к примеру, чтобы по запросу «что ломается в стиральной машине Indesit?” появлялись ссылки на отзыв пользователей марки Indesit, у которых что-то сломалось. Вопрос ценности данного ресурса для людей пока оставим за скобками, и поговорим немного о технической стороне реализации.
Читать дальше →
Total votes 14: ↑11 and ↓3 +8
Comments 35

Классификация предложений с помощью нейронных сетей без предварительной обработки

Reading time 6 min
Views 71K
Довольно часто встречается задача классификации текстов — например, определение тональности (выражает ли текст позитивное мнение или отрицательное о чем-либо), или разнесения текста по тематикам. На Хабре уже есть хорошие статьи с введением в данный вопрос.

Сегодня я хочу поговорить о проблеме классификации отдельных предложений. Решение этой задачи позволяет делать много интересного, например, выделять положительные и отрицательные моменты из длинных текстов, определять тональность твитов, является компонентом многих систем отвечающих на естественно-языковые вопросы (классификация типа вопроса), помогает сегментировать веб-страницы на смысловые блоки и многое другое. Однако, классификация отдельных предложений значительно сложнее классификации больших блоков текста — в одном предложении значительно меньше полезных признаков, и велико влияние порядка слов. Например: «как положено фильму ужасов, этот фильм был ну очень жутким» — содержит негативные слова («ужас», «жуткий»), но выражает положительное мнение о фильме, «все было ужасно красиво», или даже «отличный фильм, ничего не скажешь, только зря деньги потратили».
Читать дальше →
Total votes 28: ↑25 and ↓3 +22
Comments 21

Машинное обучение и анализ данных. Лекция для Малого ШАДа Яндекса

Reading time 3 min
Views 60K
Все чаще и чаще мы сталкиваемся с необходимостью выявлять внутренние закономерности больших объёмов данных. Например, для распознавания спама необходимо уметь находить закономерности в содержании электронных писем, а для прогнозирования стоимости акций — закономерности в финансовых данных. К сожалению, выявить их «вручную» часто невозможно, и тогда на помощь приходят методы машинного обучения. Они позволяют строить алгоритмы, которые помогают находить новые, ещё не описанные закономерности. Мы поговорим о том, что такое машинное обучение, где его стоит применять и какие сложности могут при этом возникнуть. Принципы работы нескольких популярных методов машинного обучения будут рассмотрены на реальных примерах.

Лекция предназначена для старшеклассников — студентов Малого ШАДа, но и взрослые с ее помощью смогут составить представление об основах машинного обучения.

image

Основная идея машинного обучения заключается в том, что имея обучающуюся программу и примеры данных с закономерностями, мы можем построить некоторую модель закономерности и находить закономерности в новых данных.
Видеозапись и конспект лекции
Total votes 68: ↑64 and ↓4 +60
Comments 3

Напутственные слова выступающему на конференции в первый раз

Reading time 3 min
Views 9.7K
Знание типичных ошибок вынуждает начинающих больше нервничать, а после доклада — более мотивированно себя ругать. Поэтому про ошибки не буду, а приведу очевидные тезисы, которые не всем приходят в голову. Об этом я всегда говорю людям, которые собираются выступать в первый раз, сразу после рассказа о том, как вообще подготовиться.

  • Не заморачивайтесь с броским названием.
  • Аудитория не знает, что именно и как вы собираетесь рассказывать.
  • Докладчик — не слуга аудитории.
  • Вы делаете доклад для тех, кто в зале прямо сейчас.
  • Озвучьте аудитории удобные для вас правила ответов на вопросы. Соблюдайте их.
  • Фиксируйте результаты выступления — в течение 3-х дней после мероприятия.

Далее немного подробнее о каждом пункте.
Читать дальше →
Total votes 14: ↑14 and ↓0 +14
Comments 1

Мобильные кошельки популярнее всего… на юге Сахары

Reading time 2 min
Views 8.9K


Системы мобильных платежей и мобильные кошельки — далеко не новость для всех нас. Пользователи многих стран используют мобильные кошельки весьма активно. Тем не менее, активнее всего используют подобные системы жители африканских стран на юге Сахары. Согласно отчету Global Financial Inclusion от Word Bank, около 12% взрослых в этом регионе (64 миллионов человек) имеют мобильные кошельки, или то, что жители Африки называют «счет мобильных денег». Эта система не имеет отношения к банкам. У примерно половины пользователей таких «счетов» есть и традиционные счета в банках.

Тем не менее, около 50% пользователей мобильных кошельков в Африке полностью зависят от своих телефонов в финансовом плане. Особенно популярны такие системы в Кении, где около 58% взрослого населения страны получает доступ к своим деньгам посредством мобильного телефона. Что касается мобильных кошельков, это предоплаченный сервис сотовых операторов, не связанный с финансовыми институтами. При помощи такой системы пользователи получают возможность оплачивать счета и отправлять наличку.
Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Comments 3

Эффективный антифрод: как защитить бизнес от мошенничества в интернете

Reading time 5 min
Views 18K
Всем привет! Это наш первый пост на Хабре, которым мы начинаем серию публикаций о фроде и антифрод-сервисах. Мы — Payture, а если быть точными, международная процессинговая компания, специализирующаяся на услугах в области электронной и мобильной коммерции, а также предоставляющая услуги антифрод-сервиса.



Фрод и фишинг ходят рядом (о том, где берутся данные для фрода)

Далее про фишинг и 2 истории фрода из нашей практики
Total votes 6: ↑4 and ↓2 +2
Comments 3

Популярно про фрод — ответы на вопросы из реальной жизни электронных коммерсантов

Reading time 7 min
Views 40K
Под термином фрод сейчас подразумевают любое мошенничество в IT. Кардингом называют любые незаконные операции с банковской картой. Мы специализируемся на предотвращении карточного фрода в электронной коммерции. Проблема в том, что начиная свой бизнес в сети, предприниматели, как правило, в первую очередь думают о стоимости приема платежей и мало знают о рисках, связанных с фродом. Самые популярные вопросы от ТСП (торгово-сервисные предприятия, интернет-магазины, мерчанты) приведены ниже.
Читать дальше →
Total votes 3: ↑2 and ↓1 +1
Comments 0

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW)

Reading time 28 min
Views 27K

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Frontiers of Computational Thinking: A SXSW Report".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.


На прошлой неделе я выступал на SXSW Interactive 2015 в Остине, штат Техас. Вот несколько отредактированная стенограмма моего выступления:


Содержание


Наиболее продуктивный год
Язык Wolfram Language
Язык для реального мира
Философия Wolfram Language
Программы размером в один твит
Вычислительное мышление для детей
Ввод запросов на естественном языке
Масштабная идея: Символьное программирование
Язык для развёртывания
Автоматизация программирования
Масштабные программы
Интернет вещей
Машинное обучение
Исследования Вычисляемой Вселенной
Вычислять, подобно тому, как это делает мозг
Язык как символьное представление
Пост-лингвистические понятия
Древняя история
Чем будет заниматься искусственный интеллект?
Бессмертие и за его пределами
Коробка триллиона душ
Обратно в 2015 год
Читать дальше →
Total votes 32: ↑26 and ↓6 +20
Comments 27

Learning How to Learn: впечатления

Reading time 4 min
Views 86K
Я закончил августовскую сессию курса Learning How to Learn (LH2L) на Coursera и хотел бы поделиться впечатлениями с хабрасообществом, а также дать несколько советов и предостеречь.

Постулируемая цель курса — рассказать об эффективных методах обучения. В том числе и самообразования.

Курс проходил с 1 августа по 1 сентября. Лекторы — Barbara Oakley (подавляющее большинство записей) и Terence Sejnowski (появлялся изредка). К курсу прилагался опциональный учебник «A Mind for Numbers», который авторы старательно рекламировали.

Содержание курса:
Содержание, впечатления, скандалы, интриги
Total votes 25: ↑24 and ↓1 +23
Comments 11

«Learning how to learn»: краткий обзор материалов курса

Reading time 5 min
Views 107K
Как учиться лучше и быть эффективнее: простые и полезные техники

Просмотрела курс на Coursera «Learning how to learn», который рассказывает, как лучше учиться, запоминать информацию и быть более эффективным, и составила список из 17 советов-приемов. Возможно, вы найдете их полезными.
Читать дальше →
Total votes 49: ↑47 and ↓2 +45
Comments 13

Мешок слов и сентимент-анализ на R

Reading time 5 min
Views 23K
Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.
Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Comments 9

Глобальная значимость английского, немецкого, русского, китайского и других языков в Интернете (Data Mining)

Reading time 7 min
Views 36K


Центральные языки на этой карте могут и не иметь самого большого количества носителей, однако они служат «общими» языками для общения элит.

В молодом направлении Big Data есть свои восходящие звезды и многообещающие лидеры, один из самых ярких это Цезарь Хидальго — профессор MIT Media Lab, разработчик онлайн-платформы визуализации данных о торговых связях между разными странами мира Observatory of Economic Complexity, и один из “50 человек, которые изменят мир” по версии журнала Wired.

Несколько лет назад Цезарю и его боевым товарищам захотелось исследовать взаимосвязь языковых узлов в Интернете. Языки отличаются по значимости по куче причин: начиная от технических и заканчивая демографическими. Задачу ставили себе амбициозную — определить глобальную значимость языка, которая не зависит от простых демографических и экономических показателей. О том, что из этого получилось, читайте в посте ниже.
Читать дальше →
Total votes 31: ↑28 and ↓3 +25
Comments 15

Сравнение библиотек глубокого обучения на примере задачи классификации рукописных цифр

Reading time 21 min
Views 53K
Кручинин Дмитрий, Долотов Евгений, Кустикова Валентина, Дружков Павел, Корняков Кирилл

Введение


В настоящее время машинное обучение является активно развивающейся областью научных исследований. Это связано как с возможностью быстрее, выше, сильнее, проще и дешевле собирать и обрабатывать данные, так и с развитием методов выявления из этих данных законов, по которым протекают физические, биологические, экономические и другие процессы. В некоторых задачах, когда такой закон определить достаточно сложно, используют глубокое обучение.

Глубокое обучение (deep learning) рассматривает методы моделирования высокоуровневых абстракций в данных с помощью множества последовательных нелинейных трансформаций, которые, как правило, представляются в виде искусственных нейронных сетей. На сегодняшний день нейросети успешно используются для решения таких задач, как прогнозирование, распознавание образов, сжатие данных и ряда других.
Читать дальше →
Total votes 29: ↑29 and ↓0 +29
Comments 20
1

Information

Rating
Does not participate
Location
Таллин, Эстония, Эстония
Date of birth
Registered
Activity