Статьи / Закладки / Профиль Dreamastiy / Хабр

Как стать автором

Дмитрий @Dreamastiy

Пользователь

ПрофильСтатьи5ПостыНовостиКомментарии61

marks 1 апр 2016 в 19:49

Когнитивный сервис от IBM распознает фото и рассказывает, что изображено на снимках

2 мин

4.6K

Блог компании IBMАлгоритмы*

Распознавание изображений — одна из задач, с которой лучше всего справляются сервисы с элементами искусственного интеллекта. Корпорация IBM запустила в тестовом режиме проект, который позволяет любому пользователю проверить возможности когнитивной системы Watson касательно распознавания изображений.

Сервис работает с фотографиями или картинками (можно загружать свои файлы, указывать адрес картинки в Сети или попробовать поработать с фотографией, представленной компанией). Если распознавание прошло успешно, система укажет список объектов, предположительно изображенных на картинке или фото, а также покажет вероятность каждого предположения. При желании можно создать собственную категорию объектов (уточнить существующую категорию, либо создать новую).

Читать дальше →

+2

dmagin 1 апр 2016 в 18:09

Сказ царя Салтана о потенциале лапласиана

9 мин

45K

Алгоритмы*Математика*

«Три девицы под окном пряли поздно вечерком.»

Ну как пряли. Не пряли, конечно, а лайкали друг на друга. По условиям конкурса «мисс Салтан» девицы должны были выбрать меж собой лучшую.

«Какой-то странный конкурс», — беспокоились девицы. И это было правдой. По правилам конкурса вес лайка участника зависел от того, сколько лайков он получает от других. Что это значит, — никто из девиц до конца не понимал.
«Как все сложно», — тосковали девушки и подбадривали себя песней «Кабы я была царицей».

Вскоре «в светлицу вошел царь — стороны той государь» (показан на рисунке). «Во все время разговора...», — ну понятно в общем.
«Собираем лайки нежности — формируем матрицу смежности», — бодро срифмовал он.
Девицы-красавицы с именами Алена, Варвара и Софья засмущались, но лайки (из балалайки) передали.

Вот что там было:

Алена получила 1 лайк от Софьи и 2 лайка от Варвары.
Варвара получила по лайку от Алены и Софьи.
А Софья получила 2 лайка от Алены и 1 от Варвары.

Царь взял лайки, покрутил гайки, постучал по колесам, пошмыгал носом, причмокнул губами, поскрипел зубами, сгонял в палаты и объявил результаты.

Наибольший вес лайков (7 баллов) получила Софья, но титул «мисс Салтан» достался Алене (15 баллов).

Подробнее о матрице лайков

Для матрицы

вектор потенциалов равен (5, 4, 7), а вектор потоков — (15, 12, 14).

После объявления результатов девицы ~~бросились~~ обратились к царю с просьбой рассказать,- откуда взялись эти странные цифры?

Действительно - откуда?

+63

yorko 31 мар 2016 в 14:33

16 ядер и 30 Гб под капотом Вашего Jupyter за $0.25 в час

8 мин

32K

Amazon Web Services*Data Mining*Python*

Туториал

Если Вам не очень повезло, и на работе нет n-ядерного монстра, которого можно загрузить своими скриптами, то эта статья для Вас. Также если Вы привыкли запускать скрипты на всю ночь (и утром читать, что где-то забыли скобочку, и 6 часов вычислений пропали) — у Вас есть шанс наконец познакомиться с Amazon Web Services.

В этой статье я расскажу, как начать работать с сервисом EC2. По сути это пошаговая инструкция по полуавтоматической аренде спотового инстанса AWS для работы с Jupyter-блокнотами и сборкой библиотек Anaconda. Будет полезно, например, тем, кто в соревнованиях Kaggle все еще пользуется своим игрушечным маком.

Читать дальше →

+18

Elena_sm 30 мар 2016 в 09:27

Маршрут перемещения потока данных: загрузка в реляционную БД

3 мин

6K

Блог компании ua-hosting.companyR*

Использование языка программирования R вместе со свободной реляционной системой управления базами данных PostgresSQL может значительно ускорить и упростить процесс загрузки данных в БД.

Структурирование файлов

Перед началом загрузки данных в PostgreSQL, следует рассортировать файлы по типу в разные директории. R делает операции достаточно простыми на уровне ОС:

#### 1. Setting directory to FTP folder where files incoming from Adobe
## Has ~2000 files in it from 2 years of data
setwd("~/Downloads/datafeed/")

#### 2. Sort files into three separate folders
## Manifests - plain text files
if(!dir.exists("manifest")){
  dir.create("manifest")
  lapply(list.files(pattern = "*.txt"), function(x) file.rename(x, paste("manifest", x, sep = "/")) 
}

## Server calls tsv.gz
if(!dir.exists("servercalls")){
  dir.create("servercalls")
  lapply(list.files(pattern = "*.tsv.gz"), function(x) file.rename(x, paste("servercalls", x, sep = "/"))) 
}

## Lookup files .tar.gz
if(!dir.exists("lookup")){
  dir.create("lookup")
  lapply(list.files(pattern = "*.tar.gz"), function(x) file.rename(x, paste("lookup", x, sep = "/"))) 
}

Читать дальше →

+12

Pavel_Osipov 24 июл 2012 в 21:18

PyBrain работаем с нейронными сетями на Python

8 мин

166K

Python*Алгоритмы*

В рамках одного проекта столкнулся необходимостью работать с нейронными сетями, рассмотрел несколько вариантов, больше всего понравилась PyBrain. Надеюсь её описание будет многим интересно почитать.

PyBrain — одна из лучших Python библиотек для изучения и реализации большого количества разнообразных алгоритмов связанных с нейронными сетями. Являет собой удачный пример совмещения компактного синтаксиса Python с хорошей реализацией большого набора различных алгоритмов из области машинного интеллекта.

Предназначен для:

Исследователей — предоставляет единообразную среду для реализации различных алгоритмов, избавляя от потребности в использовании десятков различных библиотек. Позволяет сосредоточится на самом алгоритме а не особенностях его реализации.
Студентов — с использованием PyBrain удобно реализовать домашнее задание, курсовой проект или вычисления в дипломной работе. Гибкость архитектуры позволяет удобно реализовывать разнообразные сложные методы, структуры и топологии.
Лекторов — обучение методам Machine Learning было одной из основных целей при создании библиотеки. Авторы будут рады, если результаты их труда помогут в подготовке грамотных студентов и специалистов.
Разработчиков — проект Open Source, поэтому новым разработчикам всегда рады.

Читать дальше →

+89

musictheory 28 мар 2016 в 10:08

Дискуссия: Лучшее гитарное соло в истории

5 мин

14K

Блог компании Аудиомания

Фото Libert Schmidt CC BY

Вне зависимости от музыкального жанра соло на гитаре всегда было, есть и будет особой, порой главной частью песни. В этой связи участники обсуждения на ресурсе Quora, которые по совместительствую являются любителями рок-музыки, попытались выяснить, какое гитарное соло лучшее в мире.

Читать дальше →

+2

marks 25 мар 2016 в 17:50

Все советские диафильмы оцифруют и выложат в Сеть до конца 2016 года

1 мин

32K

История ITВидеотехника

Думаю, на Geektimes немало тех, кто застал в свое время диафильмы. Я застал, в детстве смотрел их почти каждый день. И хотя многие знал практически наизусть, просматривать эти пленки мне не надоедало. Сделаны эти истории были очень неплохо для своего времени, включая и сюжетную линию, и художественное оформление. Да и с сам процесс подготовки проектора к работе, его прогревание, особенный запах, сама атмосфера просмотра — все это очень нравилось.

Диафильмы, что удивительно, вовсе не умерли с течением времени, и даже телефоны с компьютерами не уничтожили диафильмы, как класс. Напротив, для ПК и телефонов выпускаются программы, которые имитируют демонстрацию диафильмов, показывая оцифрованные версии пленок того времени. А сейчас и вовсе отличный момент поностальгировать — Российская государственная библиотека собирается оцифровать все диафильмы, которые у нее есть. А это, на минуточку — около 16 тысяч пленок.

Читать дальше →

+28

darikova 23 мар 2016 в 16:22

Как нельзя делать рекомендации контента

9 мин

23K

Блог компании SurfingbirdBig Data*Data Mining*Машинное обучение*

Recovery Mode

Во время общения с медиа мы в Relap.io часто сталкиваемся с массой заблуждений, в которые все верят, потому что так сложилось исторически. На сайте есть блоки типа «Читать также» или «Самое горячее» и т.п. Словом, всё то, что составляет обвязку статьи и стремится дополнить UX дорогого читателя. Мы расскажем, какие заблуждения есть у СМИ, которые делают контентные рекомендации, и развеем их цифрами.

HAbr1

HAbr1

Читать дальше →

+32

pkruglov 21 мар 2016 в 16:54

Отчёт с конференции Data Fest

3 мин

12K

Блог компании VKМашинное обучение*Алгоритмы*Data Mining*

В начале марта в офисе Mail.Ru Group прошла двухдневная конференция Data Fest², посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим. Кроме того, в рамках конференции прошёл хакатон, участники которого пытались как можно точнее предсказать результаты турнира по Dota 2, а также питч-постер сессия для исследователей, на которой были представлены различные разработки и исследовательские проекты. Предлагаем вашему вниманию видеозаписи всех выступлений на Data Fest².

Читать дальше →

+14

qc-enior 20 мар 2016 в 15:53

Генерация и визуализация многомерных данных с R

4 мин

14K

Блог компании Инфопульс УкраинаВизуализация данных*R*

Перевод

Возможность генерировать данные с заданной корреляцией очень важна для моделирования. В R ожидаемо обширный набор инструментов — пакетов и функций для генерации и визуализации данных из многомерных распределений. Базовая функция для генерации многомерных нормально распределенных данных — mvrnorm() из пакета MASS, части R, хотя пакет mvtnorm также предлагает функции для симуляции и многомерного нормального, и t-распределения.

Читать дальше →

+20

spasibo_kep 18 мар 2016 в 09:55

Шесть подработок для ИТ-специалиста, за которые платят в долларах

5 мин

118K

JavaScript*Node.JS*PHP*Веб-разработка*

Не поймали за хвост удачу в виде главного бага известного сервиса, нет желания “толкаться” на oDesk или не хочется делать то же, что уже и так делаете в рабочее время?

Мы нашли альтернативные и не суперконкурентные варианты: излагать технический опыт по-английский, получать ренту с кода или завести монетизируемое хобби, связанное с математикой, инженерией или общением.

Три пункта не про работу

+5

xopxe 18 мар 2016 в 15:48

MCMC-сэмплинг для тех, кто учился, но ничего не понял

15 мин

34K

Блог компании Wunder FundАлгоритмы*Машинное обучение*Программирование*

Перевод

Рассказывая о вероятностном программировании и Байесовской статистике, я обычно не уделяю особого внимания тому, как, на самом деле, выполняется вероятностный вывод, рассматривая его как некий «чёрный ящик». Вся прелесть вероятностного программирования заключается в том, что, на самом деле, для того, чтобы строить модели, не обязательно понимать, как именно делается вывод. Но это знание, безусловно, весьма полезно.

Как-то раз я рассказывал о новой Байесовской модели человеку, который не особенно разбирался в предмете, но очень хотел всё понять. Он-то и спросил меня о том, чего я обычно не касаюсь. «Томас, — сказал он, — а как, на самом деле, выполняется вероятностный вывод? Как получаются эти таинственные сэмплы из апостериорной вероятности?».

Читать дальше →

+17

kotbajan 18 мар 2016 в 11:28

Полнотекстовый нечеткий поиск с использованием алгоритма Вагнера-Фишера

3 мин

24K

Алгоритмы*Программирование*

Из песочницы

Статья написана об использовании алгоритма вычисления расстояния Левенштейна для нечеткого поиска в тексте, без использования вспомогательного словаря.

Расстояние Левенштейна используется для сравнения двух слов или двух строк, чтобы определить их схожесть. Некоторое время назад передо мной встала схожая задача — в заданной строке искать вхождение слов, словосочетаний и формул, похожих на образец.

Читать дальше →

+19

Roman_Kh 16 мар 2016 в 18:19

Линейные модели: простая регрессия

7 мин

76K

Data Mining*Python*Математика*Машинное обучение*

Туториал

В прошлый раз мы подробно рассмотрели многообразие линейных моделей. Теперь перейдем от теории к практике и построим самую простую, но все же полезную модель, которую вы легко сможете адаптировать к своим задачам. Модель будет проиллюстрирована кодом на R и Python, причем сразу в трех ароматах: scikit-learn, statsmodels и Patsy.

Читать дальше →

+22

SmartEngines 16 мар 2016 в 14:59

Об одном забавном подходе к фильтрации унимодальных сигналов

6 мин

7.3K

Блог компании Smart EnginesАлгоритмы*Математика*Обработка изображений*Программирование*

В этой статье наши инженеры хотели бы поделиться с Хабром достаточно интересным инструментом, который можно эффективно применять для фильтрации зашумленных сигналов, пользуясь априорным знанием об унимодальности сигнала.

Задача оффлайновой фильтрации сигналов в случае, когда ожидаемая форма сигнала известна с точностью до нескольких неизвестных параметров, сводится к задаче аппроксимации. Например, если известно, что сигнал линейно растет на рассматриваемом промежутке, задача сведётся к линейной регрессии, а если можно предположить, что шум — нормален, то правильным методом будет МНК. Но однажды мы столкнулись с задачей оценки формы профиля рентгеновского микрозонда (пучка), про которую априори было достоверно известно только одно: профиль унимодален, а именно имеет ровно один максимум. Оказывается, и в этом случае можно наилучшим (в смысле, например, L2 метрики) образом приблизить экспериментальный сигнал функцией, принадлежащей известному множеству (множеству унимодальных функций). Причём — с приемлемой ассимптотикой вычислительной сложности.

===>

===>

Читать дальше →

+13

ragequit 15 мар 2016 в 14:05

Как мы писали код Netflix

7 мин

18K

Программирование*Веб-разработка*

Перевод

Как именно в Netflix реализован код до этапа работы в облаке? Части этой истории мы рассказывали и прежде, но сейчас настало время добавить в неё больше деталей. В данном посте мы опишем инструменты и методы, позволившие нам пройти путь от исходного кода до развёрнутого сервиса, который позволяет наслаждаться фильмами и сериалами более чем 75 миллионам подписчиков со всего мира.

Схема выше – отсылка к предыдущему посту, представляющему Spinnaker, нашу глобальную непрерывную платформу передачи данных. Но до попадания в Spinnaker строке кода нужно пройти несколько этапов:

Код должен быть написан и локально испытан плагинами Nebula;
Изменения перемещаются в центральное хранилище git;
Jenkins запускает Nebula, которая создаёт, тестирует и подготавливает приложения для облака;
Билды «выпекаются» в Amazon Machine Image;
Spinnaker способствует разблокировке и активизации измененного кода.

В остальной части этого поста мы опишем инструменты и методы, использованные на каждом из этих этапов и поговорим об испытаниях, которые повстречались на нашем пути.

Организационная культура, облако и микросервисы

Прежде чем углубиться в описание процесса создания кода Netflix, необходимо обозначить ключевые факторы, которые влияют на принимаемые решения: наша организационная культура, облако и микросервисы.

Культура Netflix расширяет возможности инженеров в плане использования любого, по их мнению, подходящего инструментария ради решения поставленных задач. По нашему опыту, для того, чтобы какое-либо решение получило всеобщее признание, оно должно быть аргументированным, полезным и уменьшать когнитивную нагрузку на большинство инженеров Netflix. Команды свободны в выборе пути решения задач, но за это расплачиваются дополнительной ответственностью по поддержке этих решений. Предложения центральных команд Netflix начинают считаться частью «проторенной дорожки» (paved road). Сейчас именно она находится в центре нашего внимания и поддерживается нашими специалистами.

Читать дальше →

+10

alexanderkuk 13 мар 2016 в 21:55

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

3 мин

35K

Big Data*Data Mining*Открытые данные*

Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:

Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:

Читать дальше →

+52

ascrus 20 авг 2013 в 18:04

HP Vertica, первый запущенный проект в РФ, опыт полтора года реальной эксплуатации

17 мин

36K

В качестве вступительного слова

На Хабре и других источниках уже было описание HP Vertica, но, в основном, вся информация сводилась к теории. До недавнего времени в реальной промышленной эксплуатации Vertica использовалась (так как мы называем ее Вертика, предлагаю назначить женский род) в Штатах и немного в Европе, на Хабре же о ней писали ребята с LifeStreet Media. Уже прошло полтора года работы с Vertica, наше хранилище данных содержит десятки терабайт данных. В минуту сервер данных обрабатывает тысячи запросов, многие из которых содержат десятки миллиардов записей. Загрузка данных идет не переставая в реалтайме объемами порядка 150 гб в сутки … В общем я подумал, что стоит восполнить пробел и поделиться ощущениями от езды на реально современных новых технологиях под BigData.

Кому это будет полезно

Думаю, это будет полезно для разработчиков, архитекторов и интеграторов, которые сталкиваются с задачами хранения и аналитической обработки больших данных по объему, содержанию и сложности анализа. Тем более, у Vertica сейчас наконец то есть вменяемая бесплатная полноценная версия Community Edition. Она позволяет развернуть кластер из 3 серверов и загрузить в хранилище данных до 1 тб сырых данных. С учетом производительности и легкости развертывания решений на Vertica, считаю это предложение достойным для того, чтобы его рассмотреть при выборе хранилища данных для компаний, у которых объем данных впишется в 1 тб.

В один абзац о том, как мы выбирали

Кратко без повода к холивару:
При выборе сервера хранилищ данных нас интересовали принципы ценообразования, высокая производительность и масштабируемость работы с большими объемами данных, возможность загрузки данных в реалтайм с множества разных источников данных, легкость стартапа проекта своими силами и минимальная стоимость сопровождения: в итоге по всем этим показателям лучше всего для нас выступила Vertica, победив IBM Netezza и EMC GreenPlum. Последние не смогли полностью удовлетворить всем нашим требованиям. Это могло вылиться в дополнительные издержки на разработку и сопровождение нашего проекта, имеющего не сильно большой бюджет.

Как выглядит Verica с точки зрения архитектора

Архитектор — это самый важный для хранилища данных человек в Vertica. Именно в первую очередь от него зависит успешность и производительность функционирования хранилища данных. У архитектора две сложных задачи: грамотно подобрать техническую начинку кластера Vertica и правильно спроектировать физическую модель базы данных.

На что влияет техническая архитектура

Читать дальше →

+4

rocknrollnerd 29 фев 2016 в 09:24

Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1)

16 мин

94K

Алгоритмы*Машинное обучение*Математика*

То, о чем я попытаюсь сейчас рассказать, выглядит как настоящая магия.

Если вы что-то знали о нейронных сетях до этого — забудьте это и не вспоминайте, как страшный сон.
Если вы не знали ничего — вам же легче, полпути уже пройдено.
Если вы на «ты» с байесовской статистикой, читали вот эту и вот эту статьи из Deepmind — не обращайте внимания на предыдущие две строчки ~~и разрешите потом записаться к вам на консультацию по одному богословскому вопросу~~.

Итак, магия:

Слева — обычная и всем знакомая нейронная сеть, у которой каждая связь между парой нейронов задана каким-то числом (весом). Справа — нейронная сеть, веса которой представлены не числами, а демоническими облаками вероятности, колеблющимися всякий раз, когда дьявол играет в кости со вселенной. Именно ее мы в итоге и хотим получить. И если вы, как и я, озадаченно трясете головой и спрашиваете «а нафига все это нужно» — добро пожаловать под кат.

Читать дальше →

+81

IgorMetechko 26 фев 2016 в 15:00

Эксперимент: создание алгоритма для прогнозирования поведения фондовых индексов

7 мин

39K

Блог компании ITI CapitalВеб-разработка*

Ученые факультета вычислительной техники из исламского университета Азад, расположенного в ОАЭ, опубликовали работу, посвященную прогнозированию поведения фондовых индексов на основе технологий нейронных сетей, генетических алгоритмов и data mining с использованием опорных векторов. Мы представляем вашему вниманию главные мысли этого документа.

Читать дальше →

+7

1 2 ...

15