Pull to refresh
0
0
Send message

Что такое большие данные, часть 3

Reading time15 min
Views23K


В первой части мы узнали о данных, и о том, как они могут быть использованы для извлечения из них метаданных или каких-то значений.


Вторая часть объяснила сам термин Big Data и показала, как он превратился в индустрию, причиной появления для которой стало влияние экономики. Эта, третья часть, в которой должно быть логическое продолжение предыдущих двух и у всего этого должен появиться смысл — грустная, местами ироничная, а местами пугающая. Вы видите сами, как технологические, бизнес, и даже социальные контракты в перспективе уже переопределялись большими данными таким путём, который мы только сейчас начинаем понимать. И, возможно, они никогда уже не станут контролируемыми.


С помощью чего бы не проводился анализ — суперкомпьютера или составленной вручную в 1665 году таблицы из списков мёртвых, некоторые аспекты больших данных существовали гораздо дольше, чем мы можем представить.


Темная сторона больших данных. Исторически роль больших данных не всегда была кристально чистотой. Идея переработки цифр, приводящей к количественной рационализации для чего-то, что мы и так хотели сделать, существует с тех пор, как у нас появились лишние деньги.

Читать дальше →
Total votes 47: ↑37 and ↓10+27
Comments13

Из физиков в Data Science (Из двигателей науки в офисный планктон). Вторая часть

Reading time22 min
Views46K


Примерно год назад я написал текст о том как у меня происходил процесс перехода из академической среды в популярную ныне профессию Data Scientist. На удивление я получил достаточно много сообщений от людей, которые оказались в похожей ситуации, то есть мой пост нашел свою аудиторию и кому-то оказался полезен. Теперь пришла пора написать продолжение.


(Заранее извиняюсь за обилие английских слов, какие-то из них я не знаю как перевести, а какие-то мне переводить не хочется.)


Total votes 63: ↑61 and ↓2+59
Comments29

Мой путь программиста. От студента-QA до удаленного Java-разработчика

Reading time15 min
Views61K
Привет Хабр! В этой статье я хочу рассказать о своем пути в области IT. На данный момент он занял у меня уже 6 лет, и еще отнюдь не завершен. Я начинал как QA инженер еще будучи студентом, а сейчас я работаю удаленно через Upwork на довольно крупную американскую компанию. Нет смысла указывать конкретные компании, в которых я работал, поэтому все названия будут в стиле “вот эта вот” и “другая”.

Итак, 6 лет. Не так уж и много, и, честно говоря, я уверен, что не знаю практически ничего полезного и не являюсь выдающимся разработчиком. Но этого срока было достаточно, чтобы получить определенный опыт, поэтому я позволю себе делать некоторые выводы и даже давать маленькие советы тем, кто еще в самом-самом начале своего пути.
Читать дальше →
Total votes 42: ↑30 and ↓12+18
Comments119

11 текстов, которые помогут разобраться в больших данных

Reading time3 min
Views25K
image

Сегодня необходимо хотя бы в общих чертах иметь представление о мире big data. Мы отобрали публикации, в которых доступно объясняют, что такое большие данные и как их используют. Статьи рассчитаны, скорее, на новичков, но и люди, разбирающиеся в теме, смогут найти для себя интересные (или просто забавные) кейсы.
Читать дальше →
Total votes 20: ↑17 and ↓3+14
Comments2

Джентельменский набор пакетов R для автоматизации бизнес-задач

Reading time3 min
Views14K

Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.


Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:

Читать дальше →
Total votes 21: ↑21 and ↓0+21
Comments20

Инструменты Data Science как альтернатива классической интеграции ИТ систем

Reading time6 min
Views14K
В настоящий момент уже можно считать, что страсти по Big Data и Data Science немного утихли, а ожидание чуда, как обычно, было сильно скорректировано реальностью физического мира. Самое время заняться конструктивной деятельностью. Поиск тем на Хабре по различным ключевым словам выдал крайне скудный набор статей, поэтому я решил поделиться тем опытом, который был накоплен в части практического применения инструментов и подходов Data Science для решения повседневных задач в компании.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments58

Экосистема R как инструмент для автоматизации бизнес-задач

Reading time7 min
Views12K
Настоящая статья является продолжением предыдущей публикации «Инструменты DataScience как альтернатива классической интеграции ИТ систем». Основная цель — заострить внимание как разработчиков, так и руководителей среднего звена, на широком спектре возможностей, которые предоставляют современные инструменты из сферы Data Science за рамками классических задач статистических вычислений и модной нынче темы машинного обучения. В частности, возможности экосистемы R по состоянию на август 2016 года и применение этих возможностей на примере двух задач: одной из прикладной науки, другой – из среднего бизнеса.
Читать дальше →
Total votes 26: ↑26 and ↓0+26
Comments22

Визуальный мониторинг серверной инфраструктуры на базе Nagios + Grafana

Reading time7 min
Views48K
nagios + grafana

Мы в Атласе любим, когда все находится под контролем. Это касается и всей серверной инфраструктуры, которая, с годами, превратилась в живой организм из многочисленных виртуальных машин, сервисов и служб. Появилась потребность наблюдать за жизненно важными аспектами IT-составляющей нашей деятельности: мониторить боевой сервер, отслеживать изменения системных ресурсов на виртуалках баз данных, следить за ходом бизнес-процессов и тд. Встал вопрос — как же этого добиться и главное какими инструментами? Стали искать какие-то готовые решения. Перепробовали кучу платных/бесплатных сервисов, которые, якобы, предоставляли бы нам "самую ценную" информацию о состоянии нашей системы. Но, в конечном итоге, все сводилось к каким-то непонятных диаграммам, схемам и цифрам, которые, по сути, для нас не имели никакой ценности.


Так мы пришли к пониманию, что надо собирать что-то самостоятельно. За основу решили взять самую гибкую и продвинутую систему, которую можно настроить для мониторинга чего и как угодно — Nagios. Настроили, поставили, работает — круто! Жаль только интерфейс сего чуда застрял где-то в середине 90-х, а нам хотелось, чтобы еще и визуальная составляющая была на уровне.


Недолгий поиск показал, что лидером среди решений по созданию красивых дашбордов является Grafana. Так и решили выводить весь наш мониторинг из Nagios на мониторах в виде красивых графиков в Grafana. Вопрос остался только в том — как их подружить друг с другом?

Я расскажу как!
Total votes 30: ↑30 and ↓0+30
Comments24

Революция флэш-памяти

Reading time12 min
Views25K
Революция флэш-памяти… Она продолжается уже пять лет. Причем все только начинается. Столь радикальных изменений в технологиях хранения, какие происходят сегодня, еще не было. Практически все ведущие вендоры СХД за последние годы представили собственные системы хранения класса AFA (All-Flash Array), целиком построенные на флэш-памяти. Твердотельные накопители широко применяются и в серверах среднего и старшего класса, значительно повышая производительность систем благодаря низким задержкам и высокому быстродействию твердотельных накопителей SSD (Solid State Drive) в IOPS (операциях ввода-вывода в секунду).


Читать дальше →
Total votes 21: ↑20 and ↓1+19
Comments23

Обзор решений для управления печатью

Reading time7 min
Views54K
Привет, Гиктаймс! Решение проблем, связанных с созданием и обеспечением корпоративных инфраструктур печати, начинается с их мониторинга. Отслеживать состояние устройств печати настоятельно рекомендуется даже в том случае, если компания невелика и все ее потребности закрывает одно единственное сетевое МФУ с общим доступом. Даже в этой ситуации можно в один прекрасный день остаться вообще без принтера, занявшись поисками способов ремонта «по факту». Если же в организации имеется полноценная инфраструктура из нескольких (будь то 10 или 100) принтеров и МФУ, то аудит такого парка – задача не из простых. И здесь не обойтись без специальных программных решений и сервисов, о кторых и пойдет речь под катом.


Читать дальше →
Total votes 17: ↑15 and ↓2+13
Comments9

Лучшие пакеты для машинного обучения в R, часть 2

Reading time6 min
Views11K
Один из наиболее частых вопросов, с которыми сталкиваются специалисты по обработке и анализу данных — «Какой язык программирования лучше всего использовать для решения задач, связанных с машинным обучением?» Ответ на этот вопрос всегда приводит к сложному выбору между R, Python и MATLAB. Вообще говоря, никто не может дать объективный ответ, какой же язык программирования лучше. Конечно, язык, который вы выбираете для машинного обучения, зависит от ограничений конкретной задачи и данных, предпочтений самого специалиста и тех методов машинного обучения, которые нужно будет применить. Согласно опросу о любимом инструменте пользователей Kaggle для решения задач анализа данных R предпочитают 543 из 1714.

Сейчас в CRAN доступен 8341 пакет. Кроме CRAN, есть и другие репозитории с большим количеством пакетов. Синтаксис для установки любого из них прост: install.packages(“Name_Of_R_Package”).

Вот несколько пакетов, без которых вы вряд ли обойдетесь, как специалист по анализу данных: dplyr, ggplot2, reshape2. Безусловно, это не полный список. В этой статье мы подробнее остановимся на пакетах, применяемых в машинном обучении.
Читать дальше →
Total votes 12: ↑12 and ↓0+12
Comments5

5 классных вещей в процессах американской компании

Reading time4 min
Views37K
Хочу поделиться интересными и полезными приемами в организации процессов компании в США. Я 9 лет работала в одной продуктовой компании, с момента окончания института, там было много хорошего, но мне с какого-то момента стало интересно «а как у других?». Примерно 8 месяцев назад мне постучался HR и позвал на собеседование в проектную компанию на позицию DBA для работы на компанию из США. В этот момент я работала на позиции заместителя технического директора. Такое предложение было довольно неожиданным, я не отнеслась к нему серьезно – посмотреть как у других хотелось, но не с таким резким снижением в карьере. Но, я согласилась прийти на собеседование – интересен был процесс.


Читать дальше →
Total votes 35: ↑24 and ↓11+13
Comments48

Список полезных ресурсов по Microsoft SQL Server

Reading time5 min
Views47K

Список из 147 бесплатных и платных интернет ресурсов для изучения и работы с Microsoft SQL Server.
Статья в формате markdown на английском языке доступна на Github

Читать дальше →
Total votes 21: ↑19 and ↓2+17
Comments29

Как думать на SQL?

Reading time8 min
Views615K
Надо “SELECT * WHERE a=b FROM c” или “SELECT WHERE a=b FROM c ON *” ?

Если вы похожи на меня, то согласитесь: SQL — это одна из тех штук, которые на первый взгляд кажутся легкими (читается как будто по-английски!), но почему-то приходится гуглить каждый простой запрос, чтобы найти правильный синтаксис.


А потом начинаются джойны, агрегирование, подзапросы, и получается совсем белиберда. Вроде такой:


SELECT members.firstname || ' ' || members.lastname
AS "Full Name"
FROM borrowings
INNER JOIN members
ON members.memberid=borrowings.memberid
INNER JOIN books
ON books.bookid=borrowings.bookid
WHERE borrowings.bookid IN (SELECT bookid
  FROM books
  WHERE stock>(SELECT avg(stock)
    FROM books))
GROUP BY members.firstname, members.lastname;

Буэ! Такое спугнет любого новичка, или даже разработчика среднего уровня, если он видит SQL впервые. Но не все так плохо.


Легко запомнить то, что интуитивно понятно, и с помощью этого руководства я надеюсь снизить порог входа в SQL для новичков, а уже опытным предложить по-новому взглянуть на SQL.

Читать дальше →
Total votes 54: ↑48 and ↓6+42
Comments166

Собеседование на программиста в Amazon

Reading time7 min
Views127K

Представляю вашему вниманию перевод своей статьи Amazon software engineer interview, изначально опубликованной на английском на sobit.me.


Amazon - We Pioneer


Не так давно со мной связался технический рекрутер из Amazon. Компания организовывала трехдневное онсайт собеседование по найму программистов в их берлинский офис.


Весь процесс, начиная с того, как со мной связались, и заканчивая подписью контракта, занял около двух месяцев. Я хотел бы поделиться опытом, как все прошло, и что, на мой взгляд, помогло мне получить работу.


Если я не упомянул чего-то важного в статье, спрашивайте в комментариях. Постараюсь ответить максимально подробно.

Читать дальше →
Total votes 71: ↑62 and ↓9+53
Comments258

Поступление в «бесплатную» магистратуру в США. Часть первая

Reading time4 min
Views29K
Несмотря на достаточно большое количество информации на эту тему на просторах сети, хочу поделиться своим опытом — может кто-нибудь найдет для себя что-то новенькое и полезное.

Итак, мой опыт поступления в магистратуру с полным финансированием состоит из четырех основных этапов:

  • Поиск/анализ/сравнение/выбор программ;
  • Подготовка и сдача необходимых экзаменов;
  • Подготовка и отправка всех необходимых документов (в особенности мотивационное письмо и рекомендательные письма);
  • Получение результатов конкурса и дальнейшие действия по зачислению в вуз.
Читать дальше →
Total votes 20: ↑14 and ↓6+8
Comments15

1С: Управление производственным предприятием. Обзор ERP системы

Reading time18 min
Views118K

В данной статье речь пойдет об ERP-системе «Управление производственным предприятием». При автоматизации производственных компаний этот продукт нередко оказывается оптимальным решением, и я не единожды занимался внедрением 1С УПП для разных организаций.

В процессе работы я обратил внимание на то, что обзоров этого программного продукта практически нет. Есть техническая документация, какие-то советы программистам по решению конкретных проблем в этой системе, учебные курсы. Но для пользователей какого-то понятного описания всей системы нет. И мне очень часто перед внедрением этого программного продукта приходится пояснять особенности, достоинства и недостатки «Управления производственным предприятиям» практически «на пальцах».

Даже на Хабре в разделе ERP информации об этой системе до сих пор не было. Именно этот пробел я решил восполнить. Кроме того, я надеюсь, что моя статья поможет предпринимателям и IT-специалистам на этапе выбора программного обеспечения для автоматизации производственного предприятия и подготовит их к тем особенностям, которые нужно учитывать при внедрении этой системы.

В этом обзоре я хочу рассказать, что представляет собой система УПП ред. 1.3, чтобы тот, кто принимает решение покупать и внедрять ее, был более осведомлен и более сознательно подходил к выбору этого дорогостоящего продукта. Я постараюсь дать объективную оценку системе, исходя из своего опыта работы с ней и опыта моих клиентов. Данный обзор поможет принять кому-то положительное решение относительно приобретения программы, а кому-то — решение об отказе от нее.
Читать дальше →
Total votes 37: ↑22 and ↓15+7
Comments50

Как стать профессиональным веб-разработчиком: практическое руководство

Reading time12 min
Views660K

Дорога длинна и трудна, но интересна и полезна!

Статья задумывалась как практическое руководство для желающих стать профессиональным веб-разработчиком. Я уже более 20 лет пишу код для веба. Я ежедневно работаю с веб-разработчиками и помогаю им. В статье я опишу, что вам нужно выучить, когда вам нужно это выучить и где взять информацию (чаще всего даже бесплатно). Затем я дам совет по получению реального опыта, и что самое важное – по получению денег за написание кода.

По статье разбросано множество ссылок на бесплатные и важные ресурсы. Для простоты я собрал их в PDF и разбил по категориям. Мне не платят за упоминания сайтов, ссылки на которые я привёл – я всего лишь хочу порекомендовать вам лучшие ресурсы, чтобы помочь вам достичь вашей цели.

Что нужно помнить:

1. Статью разрешается пролистывать

Руководство может помочь вам вне зависимости от вашего положения на дороге к профессиональной разработке. Прокрутите его к тому заголовку, который лучше всего описывает ваше сегодняшнее положение, и читайте оттуда. Если вы только начали этот путь, или пока размышляете об этом – последуйте совету Короля из «Алисы в стране чудес»:

Начните с начала, и продолжайте, пока не дойдёте до конца; и там уже остановитесь.
Читать дальше →
Total votes 49: ↑38 and ↓11+27
Comments129

SharePoint + Reporting Services = нюансы

Reading time4 min
Views12K
Я и мои коллеги занимаемся разработкой и внедрением прикладных внутрикорпоративных решений на базе платформы Microsoft SharePoint, а так же Российских СЭД, внедрение которых обосновано накопленным годами опытом и целесообразно в определенных случаях.

На своих проектах обожаю использовать Microsoft Reporting Services (далее — SSRS) для быстрой реализации отчетов и печатных форм, не требующих сложной динамики поведения.

При наличии доступности данных в структуре таблиц СУБД, а, следовательно, и DataSet отчета, с SSRS все легко и просто, если не сказать тривиально (естественно не для всех случаев). А что, если доступа к БД нет или же он запрещен лицензионной политикой или же даже применяются попытки сделать его технически сложно реализуемым? Надо готовить витрину данных средствами ETL. А что, если условия, бюджет и сроки проекта не допускают этого? Надо использовать доступные источники данных (DataSource).

Как можно было догадаться, речь пойдет о создании отчетов SSRS с ипользованием данных из списков SharePoint.
Читать дальше →
Total votes 5: ↑3 and ↓2+1
Comments0

Information

Rating
Does not participate
Registered
Activity