Статьи / Закладки / Профиль jetman / Хабр

Как стать автором

Джетман @jetman

Пользователь

Профиль Публикации 2Комментарии 326Закладки 213

ProotIK 20 авг 2015 в 10:06

Как не нужно строить сети

9 мин

80K

IT-стандарты*

Доброго времени суток.
На самом деле никогда не думал, что буду писать статью про такие банальные вещи, но уже в пятый раз сталкиваюсь с наплевательским отношением к простейшим правилам построения сетей. Если бы речь шла о каких-то мелких конторках, но подобное имеет место быть у крупных провайдеров, банков и госконтор, имена которых я по некоторым причинам раскрывать не буду.

Читать дальше →

+41

ITI_Capital 13 авг 2015 в 11:30

Алгоритмическая и автоматизированная торговля: Введение

8 мин

22K

Веб-разработка*Программирование*Анализ и проектирование систем*Блог компании ITI Capital

В нашем блоге на хабре мы неоднократно поднимали вопросы, связанные с созданием торговых роботов и алгоритмических торговых систем. Сегодня мы представляем вашему вниманию пост, написанный нашим читателем — цель этой публикации заключается в том, чтобы внести ясность в терминологическую путаницу, которая окружает алгоритмическую торговлю.

Цзы Лу спросил: «Вэйский правитель намеревается привлечь Вас к управлению государством. Что Вы сделаете прежде всего»?
Учитель ответил: «Необходимо начать с исправления имен».

Для начала давайте представим главных участников процесса биржевых торгов:

Клиент – инвестор, принимает инвестиционные решения и отдает приказы (ордера) брокеру-посреднику
Брокер – посредник, является членом биржи и принимает приказы от клиента и передает их для исполнения на биржу, получает от биржи результаты и передает их клиенту (пример такого брокера — это как раз ITinvest — прим. ред.)
Биржа – получает приказы от членов-брокеров, осуществляет торги, отправляет брокерам отчеты по торгам

Мы рассматриваем случай, когда брокер является чистым агентом, т.е. средством передачи ордеров клиента на биржу и отчетов – обратно. Брокеры-агенты (agency brokers) зарабатывают исключительно на комиссии, которую платит клиент брокеру за исполнение ордеров.

Читать дальше →

+10

io_io 7 авг 2015 в 16:59

14 новых ролей в Big Data

4 мин

23K

Анализ и проектирование систем*Data Mining*SaaS / S+S*Big Data*Блог компании .io

Количество данных растет с каждым днем огромными рывками. Ежедневно в сеть заливается 2,3 триллиона гигабайт данных. К 2017 году ожидается, что количество данных вырастет на 800%. Чем больше данных, тем выше спрос на специалистов по их обработке.

Наука о данных настолько динамично развивается, что у каждого специалиста есть своя узкая зона ответственности. Мартин Джонс (Martin Jones), CEO и co-founder в Cambriano Energy предлагает выделить 14 основных ролей в работе с большими данными.

Читать дальше →

+6

peremen 4 авг 2015 в 14:09

В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением

4 мин

41K

Анализ и проектирование систем*Data Mining*Big Data*Блог компании .io

Recovery Mode

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Читать дальше →

+11

Valr 5 авг 2015 в 21:58

Введение в машинное обучение с помощью scikit-learn (перевод документации)

6 мин

88K

Python*Машинное обучение*

Из песочницы

Данная статья представляет собой перевод введения в машинное обучение, представленное на официальном сайте scikit-learn.

В этой части мы поговорим о терминах машинного обучения, которые мы используем для работы с scikit-learn, и приведем простой пример обучения.

Машинное обучение: постановка вопроса

В общем, задача машинного обучения сводится к получению набора выборок данных и, в последствии, к попыткам предсказать свойства неизвестных данных. Если каждый набор данных — это не одиночное число, а например, многомерная сущность (multi-dimensional entry или multivariate data), то он должен иметь несколько признаков или фич.

Машинное обчение можно разделить на несколько больших категорий:

обучение с учителем (или управляемое обучение). Здесь данные представлены вместе с дополнительными признаками, которые мы хотим предсказать. (Нажмите сюда, чтобы перейти к странице Scikit-Learn обучение с учителем). Это может быть любая из следующих задач:

классификация: выборки данных принадлежат к двум или более классам и мы хотим научиться на уже размеченных данных предсказывать класс неразмеченной выборки. Примером задачи классификации может стать распознавание рукописных чисел, цель которого — присвоить каждому входному набору данных одну из конечного числа дискретных категорий. Другой способ понимания классификации — это понимание ее в качестве дискретной (как противоположность непрерывной) формы управляемого обучения, где у нас есть ограниченное количество категорий, предоставленных для N выборок; и мы пытаемся их пометить правильной категорией или классом.
регрессионный анализ: если желаемый выходной результат состоит из одного или более непрерывных переменных, тогда мы сталкиваемся с регрессионным анализом. Примером решения такой задачи может служить предсказание длинны лосося как результата функции от его возраста и веса.

обучение без учителя (или самообучение). В данном случае обучающая выборка состоит из набора входных данных Х без каких-либо соответствующих им значений. Целью подобных задач может быть определение групп схожих элементов внутри данных. Это называется кластеризацией или кластерным анализом. Также задачей может быть установление распределения данных внутри пространства входов, называемое густотой ожидания (density estimation). Или это может быть выделение данных из высоко размерного пространства в двумерное или трехмерное с целью визуализации данных. (Нажмите сюда, чтобы перейти к странице Scikit-Learn обучение без учителя).

Читать дальше →

+15

dmitriysolovev 5 авг 2015 в 21:57

Простой план-фактный анализ в Power BI Desktop. Часть вторая – визуализация

4 мин

30K

Визуализация данных*

Туториал

Всем привет!

Перед вами продолжение рассказа про план-фактный анализ в Power BI Desktop. Первую часть можно почитать здесь. Если хотите прочитать в целом про платформу Power BI, то добро пожаловать сюда.
Сегодня расскажу про построение интерактивных отчётов и совсем немного про создание вычисляемых полей в Power BI Desktop. Под катом будет много гифок, так что аккуратнее с трафиком.

Внешний вид Power BI Desktop

Рисунок 1. Внешний вид Power BI Desktop

Читать дальше →

+11

iFreeTeam 5 авг 2015 в 14:39

Введение в machine learning: с чего начать изучение и как применять

1 мин

30K

Data Mining*Математика*Машинное обучение*

Машинное обучение — это математическая дисциплина, изучающая алгоритмы способные выделять знания из данных. Несмотря на то, что эта дисциплина в основном теоретическая, в жизни большинства людей она с каждым годом играет все большую и большую роль. Так, сложно сейчас встретить человека, который бы ничего не слышал о торговых роботах, Яндексе, Google Street View, Siri.

В докладе коллеги Алексадра Сенова из проекта Synqera для очередного нашего технического i-Free meet-up проведен небольшой экскурс в машинное обучение. Из него мы узнаем чуть больше про области применения, рассмотрим основные задачи, возникающие в рамках машинного обучения, а так же алгоритмы их решения. Уделим внимание проблемам, возникающим при их применении, приведем пару примеров и рекоммендаций по дальнейшему изучению.

Подробности

+7

ph_piter 6 авг 2015 в 14:15

Data Science: путь к профессионализму

8 мин

21K

Программирование*Алгоритмы*Big Data*Блог компании Издательский дом «Питер»Hadoop*

Перевод

Здравствуйте все!

На волне непрекращающихся дискуссий о Hadoop и прочих больших данных мы не могли пройти мимо замечательной публикации Джерри Овертона, рассказывающей о профессиональном подходе к анализу больших данных в компаниях любого размера. Понятные картинки, предоставленные автором, а также краткий парад технологий, без которых современному Data scientist'у не обойтись. Поэтому пусть статья и начинается с (ошибочной!) посылки: «Не читайте книги по Data Science», она заслуживает публикации в блоге нашего издательства.

Если среди уважаемых читателей найдутся те, кто захочет обсудить Hadoop и прочие технологии из его экосистемы, а также литературу по специфическим алгоритмам, затронутым автором — давайте побеседуем об этом в комментариях.

Читать дальше →

+9

arreqe 21 июл 2015 в 12:37

Автоматическое определение тональности текста (Sentiment Analysis)

7 мин

56K

Python*Машинное обучение*

Из песочницы

За недолгое время моего процесса обучения я понял одну вещь – знаниями нужно делиться. Осознал я это давно, но лень перебороть и найти время не всегда получается.

Речь в этой статье пойдет про использование различных методов машинного обучения для решения проблем, связанных с обработкой естественного языка (NLP). Одной из таких проблем является автоматическое определение эмоциональной окраски (позитивный, негативный, нейтральный) текстовых данных, то есть анализа тональности (sentiment analysis). Цель этой задачи состоит в определении, является ли данный текст (допустим обзор фильма или комментарии) положительным, отрицательным или нейтральным по своему влиянию на репутацию конкретного объекта. Трудность анализа тональности заключается в присутствии эмоционально обогащенного языка — сленг, многозначность, неопределенность, сарказм, все эти факторы вводят в заблуждение не только людей, но и компьютеров.

На хабре уже не раз появлялись статьи связанные с определением тональности 1, 2, 3. Да и вообще, эта тема является одной из самых обсуждаемых во всем мире в последнее время [1, 2, 3, 4].

Сразу обговорю, что в этой статье особо никаких новшеств вы не найдете, данный материал скорее всего может послужит туториалом для новичков в сфере машинного обучения и NLP, коим я и являюсь. Основной же материал, который я использовал вы можете найти по этой ссылке. Весь исходный код вы можете найти по этой ссылке.

Итак, в чем же состоит проблема и как ее решить?

Читать дальше →

+12

alconost 17 июл 2015 в 09:35

Ненастоящие сеньор-девелоперы, или почему годы опыта ни о чем не говорят

6 мин

141K

Программирование*Совершенный код*Блог компании AlconostIT-стандарты*

Перевод

Опытный программист из Торонто Мэтт Бриггс так любит свою работу, что говорит: «я бы писал код, даже если бы это было нелегальным». А когда он опубликовал в своем блоге пост о джуниорах, мидлах и старших разработчиках, то собрал больше сотни восхищенных комментариев. Мы в Alconost тоже восхитились и перевели эту статью для вас.

Мы работаем в странной индустрии. Потребность в разработчиках здесь значительно выше, чем кадровое предложение. Эта проблема существует многие годы, и со временем она становится острее.

Мы испытываем серьезную нехватку талантов, хотя индустрия довольно молода. Большинство софтверных проектов проваливаются, и практически все превышают бюджет. А лучшая идея, которую могут предложить сильнейшие умы, сводится к «Есть несколько стандартных способов решения подобных проблем, но наши решения часто не срабатывают. Единственное, что можно сделать — это попробовать и посмотреть на результат».

Реальность такова, что под «старшим разработчиком» понимается человек, который ваяет код более 3 лет. Его ставят на руководящую позицию, и обычно все заканчивается ожидаемо плачевно.

На самом деле, попытка оценивать людей временными интервалами – слишком упрощенный способ для таких тонких материй, как знание и профессиональный опыт. Но дела обстоят именно так. И если продолжать классифицировать специалистов подобным образом, то самое время нашей индустрии брать тайм-аут. Есть разница между человеком с 10-летним опытом, и тем, кто за то же время стал опытнее в 10 раз.

Постер из сериалa «Компьютерщики»

Читать дальше →

+97

asfd 8 фев 2009 в 22:21

Video rip. Часть 2-1. Что такое interlace и с чем его едят

3 мин

19K

Работа с видео*

Содержание

Подготовка DVD
1. vStrip
2. DGMPGDec
Обработка видео
1. Что такое interlace и с чем его едят
2. Как определить что у нас: progressive, interlaced или telecined?
3. Избавление от обычной чересстрочности (deinterlace)
4. IVTC
Сжимаем и запаковываем

В этой статье мы узнаем что такое interlace, deinterlace, telecine, pulldown, ivtc и как всё это вместе нам усложняет жизнь.

Все видео-сигналы можно разделить на две категории: interlaced и progressive.

Interlace, по нашему чересстрочная развёртка, как метод, была придумана Львом Сергеевичем Терменом в 1927 году. Суть её заключается в том, что ТВ кадр состоит из нескольких сотен строк. Строки отображаются на экране не одна за другой, а через одну, таким образом разделяя кадр на два полукадра. Таким образом изображение на телевизоре обновляется со скоростью 50 (PAL) или 60 (NTSC) полукадров в секунду. Поле, которое начинается с нечётной строки называется нечётным или верхним, соответственно, другое, чётным или нижним. Благодаря этому методу мы получаем на экране телевизора изображение хорошего качества без увеличения полосы пропускания (а также проблемы при рипе).

Читать дальше →

+31

iliasam 19 дек 2014 в 00:36

Захват аналогового видеосигнала при помощи STM32F4-DISCOVERY

14 мин

170K

Программирование микроконтроллеров*DIY или Сделай сам

В этой статье я расскажу о том, как можно захватывать аналоговый черно-белый видеосигнал с помощью платы STM32F4-DISCOVERY, и об особенностях передачи его на компьютер при помощи USB.

Читать дальше →

+68

vkhorikov 29 янв 2015 в 14:20

Микросервисы (Microservices)

22 мин

681K

Веб-разработка*Программирование*Микросервисы*

Из песочницы

От переводчика: некоторые скорее всего уже читали этот титанический труд от Мартина Фаулера и его коллеги Джеймса Льюиса, но я все же решил сделать перевод этой статьи. Тренд микросервисов набирает обороты в мире enterprise разработки, и эта статья является ценнейшим источником знаний, по сути выжимкой существующего опыта работы с ними.

Термин «Microservice Architecture» получил распространение в последние несколько лет как описание способа дизайна приложений в виде набора независимо развертываемых сервисов. В то время как нет точного описания этого архитектурного стиля, существует некий общий набор характеристик: организация сервисов вокруг бизнес-потребностей, автоматическое развертывание, перенос логики от шины сообщений к приемникам (endpoints) и децентрализованный контроль над языками и данными.

Читать дальше →

+29

stepan_s 23 июн 2015 в 17:39

Мобильные приложения и основные факторы freemium-монетизации. Часть 1

3 мин

16K

Разработка под iOS*Разработка мобильных приложений*Разработка игр*Разработка под Android*Блог компании Appodeal

Разработчики, частные лица и целые корпорации, создают тысячи приложений каждый день. Естественно, создатели программ что-то хотят получить за свою работу, а лучший способ заработать в этом случае — это монетизировать приложение. Сейчас активнее всего для монетизации используется freemium модель или реклама, а не продажа самого приложения.

Так, более 80% мобильных приложений, которые находятся в списке 1000 наиболее популярных программ, монетизируются по схеме freemium (больше об этом можно узнать здесь). При этом есть некоторые способы, позволяющие увеличить доход от такого способа монетизации. В продолжении мы предлагаем использовать некоторые такие способы, которые считаем наиболее удачными. В качестве примера рассмотрим несколько популярных игр, где используется freemium-схема.

Читать дальше →

+17

midmva 19 июн 2015 в 15:47

Шаблон для быстрого старта на Arduino Due в QtCreator

3 мин

24K

Из песочницы

Вот уже 3-й год как я нарадоваться не могу на Qt. В нем нахожу только достоинства. Он позволяет почти все. А что не позволяет, но очень надо — можно добавить и пользоваться. Так получилось и в этот раз.

Предыстория

Почему-то у меня к Arduino было отношение как к игрушке. До тех пор, пока не набрел на Arduino Due. Зацепила строчка в описании к модулю, что он построен на контроллере ATSAM3X8E (ядро Cortex M3). Дело в том, что с данным контроллером (вернее, с его младшей версией) я знаком не понаслышке.

Второе — и это заставило его уже купить — это цена. У меня есть опыт разработки железа на похожем контроллере (разрабатывал автомобильный трекер), и этот опыт настойчиво зашептал, что цена за модуль с доставкой в 15$ при стоимости только контроллера на Диджикее в 12$ — это очень выгодно. Бонусом шел интегрированный источник питания c диапазоном входного напряжения от 18В до 7В, 2 USB (Programming и Native).

Читать дальше →

+19

Ocelot 3 июл 2012 в 11:01

О развязке питания с примерами

8 мин

178K

Схемотехника*

Туториал

Перевод

Когда я участвовал в проведении конкурса 7400, я понял, что многим из представленных логических схем для надежной работы не хватает простейших защитных элементов. Одним из самых часто встречающихся недостатков конструкции было отсутствие блокировочных емкостей. Позже, прочитав статью о законе Мёрфи, я решил немного написать о развязке и блокировочных конденсаторах.

Читать дальше →

+71

divan0 10 июн 2015 в 00:37

gb — менеджмент зависимостей для Go

8 мин

20K

Отсутствие в Go нативного менеджера зависимостей и версий является одним из самых частых пунктов в критике языка. В этой статье мы рассмотрим проблему детальнее и познакомимся с новым проектом, с лаконичным именем gb, который набирает популярность в Go-коммьюнити и обещает вскоре стать де-факто стандартом для управления зависимостями и версиями в Go.

(Credit orig.photo: Nathan Youngman)

Для начала давайте разберемся, из-за чего весь шум и почему в Go изначально не было продвинутого менеджера зависимостей.

Читать дальше →

+37

pavelodintsov 2 июн 2015 в 22:39

Релиз FastNetMon 1.1.2 открытого решения для мониторинга DoS/DDoS атак

3 мин

27K

Информационная безопасность*

За прошедшие почти 10 месяцев с релиза 1.0.0 была очень большая работа по улучшению программы.

Из основных изменений стоит отметить следующие:

Возможность выявлять самые популярные виды атак: syn_flood, icmp_flood, udp_flood, ip_fragmentation_flood
Добавление поддержки протокола Netflow, поддерживаются 5, 9 и 10 (IPFIX) версии
Добавление поддержки протокола sFLOW v5, который поддерживается большинством современных сетевых коммутаторов
Добавлена поддержка использования netmap (поддерживаются Linux и FreeBSD, для Linux предоставляется специальная версия драйвера ixgbe: github.com/pavel-odintsov/ixgbe-linux-netmap) для захвата пакетов. Данный режим обеспечивает наивысшую производительность захвата трафика наряду с PF_RING ZC.
Добавлена поддержка PF_RING ZC (к сожалению, этот режим требует отдельной лицензии на библиотеку PF_RING)

Читать дальше →

+28

rzykov 26 мая 2015 в 11:22

Анализ данных на Scala. Считаем корреляцию 21-го века

8 мин

22K

Data Mining*Scala*Big Data*Блог компании Retail RocketHadoop*

Очень важно выбрать правильный инструмент для анализа данных. На форумах Kaggle.com, где проводятся международные соревнования по Data Science, часто спрашивают, какой инструмент лучше. Первые строчки популярноcти занимают R и Python. В статье мы расскажем про альтернативный стек технологий анализа данных, сделанный на основе языка программирования Scala и платформы распределенных вычислений Spark.

Как мы пришли к этому? В Retail Rocket мы много занимаемся машинным обучением на очень больших массивах данных. Раньше для разработки прототипов мы использовали связку IPython + Pyhs2 (hive драйвер для Python) + Pandas + Sklearn. В конце лета 2014 года приняли принципиальное решение перейти на Spark, так как эксперименты показали, что мы получим 3-4 кратное повышение производительности на том же парке серверов.

Подробности

+19

GearHead 22 мая 2015 в 19:27

Мой опыт внедрения Apache Cassandra

3 мин

56K

NoSQL*Big Data*

Как и большинство NoSQL-решений, C* подвержена одной крайне неприятной эпидемии: она является отличным инструментом для узкого класса задач, но позиционируется евангелистами как очередная серебряная пуля по хранению данных. В этой статье я расскажу о своём опыте внедрения C* в (сравнительно) нагруженный проект веб-аналитики. Она будет полезна всем, кто стоит перед выбором масштабируемого хранилища данных, и развенчает мифы и заблуждения об этом инструменте.

Читать дальше →

+25

3

4 5 ...