Статьи / Закладки / Профиль semenoffalex / Хабр

Как стать автором

Александр Семёнов @semenoffalex

Пользователь

Профиль Публикации Комментарии 38Закладки 260

donjenya 1 авг 2012 в 12:42

Мифология Data Science

6 мин

23K

The future belongs to the companies and people that turn data into products

Человечество никогда не стояло на месте – суровый закон выживания постоянно заставлял его двигаться вперед. В истории развития человечества революции происходили всегда – одно общество сменялось другим, а устаревшие технологии заменялись более прогрессивными. Последняя информационная революция связана с появлением персональных компьютеров в 80-е годы ХХ века.

Читать дальше →

+14

donjenya 15 авг 2012 в 15:17

Просто и доступно о аналитических БД

17 мин

75K

Интерес к технологиям Big Data постоянно растет, а сам термин приобретает все большую популярность, многие люди хотят поговорить об этом, обсудить перспективы и возможности в этой области. Однако немногие конкретизируют — какие компании представлены на этом рынке, не описывают решения этих компаний, а также не рассказывают про методы, лежащие в основе решений Big Data. Область информационных технологий, относящихся к хранению и обработке данных, претерпела существенные изменения к настоящему моменту и представляет собой стремительно растущий рынок, а значит лакомый кусок для многих всемирно известных и небольших, только начинающих, компаний в этой сфере. У типичной крупной компании имеется несколько десятков оперативных баз данных, хранящих данные об оперативной деятельности компании (о сделках, запасах, остатках и т.п.), которые необходимы аналитикам для бизнес-анализа. Так как сложные, непредвиденные запросы могут привести к непредсказуемой нагрузке на оперативные базы данных, то запросы аналитиков к таким базам данных стараются ограничить. Кроме того, аналитикам необходимы исторические данные, а также данные из нескольких источников. Для того чтобы обеспечить аналитикам доступ к данным, компании создают и поддерживают так называемые хранилища данных, представляющие собой информационные корпоративные базы данных, предназначенные для подготовки отчетов, анализа бизнес-процессов и поддержки системы принятия решений. Хранилища данных служат также источником для оценки эффективности маркетинговых кампаний, прогнозированию, поиску новых возможных рынков и аудиторий для продажи, всевозможному анализу предыдущих периодов деятельности компаний. Как правило, хранилище данных – это предметно-ориентированная БД, строящаяся на временной основе, т.е. все изменения данных отслеживаются и регистрируются по времени, что позволяет проследить динамику событий. Также хранилища данных хранят долговременные данные — это означает, что они никогда не удаляются и не переписываются – вносятся только новые данные, это необходимо для изучения динамики изменения данных во времени. И последнее, хранилища данных, в большинстве случае, консолидированы с несколькими источниками, т.е. данные попадают в хранилище данных из нескольких источников, причем, прежде чем попасть в хранилище данных, эти данные проходят проверку на непротиворечивость и достоверность.

Читать дальше →

+2

theoden 27 ноя 2012 в 10:01

Введение в R-project

5 мин

41K

Туториал

Из песочницы

Во всем Хабре сыскалась лишь пара статей на вышеуказанную тему. А тема благодатная. Да и в минувшую среду как раз окончился курс "Introduction to Computational Finance and Financial Econometrics". По мотивам его пятой недели «Descriptive statistics» и появился этот пост. Причастившимся будет неинтересно, а желающих познакомиться с базовыми приемами анализа данных при помощи R — прошу под хабракат.

Читать дальше →

+31

b0noII 11 ноя 2012 в 00:50

Text Mining Framework (Java)

5 мин

31K

Data Mining*Java*Семантика*

Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.

Читать дальше →

+32

grokru 3 ноя 2012 в 13:01

Необычный способ изучения иностранного языка

1 мин

98K

Учебный процесс в IT

На Хабре уже много раз обсуждались способы изучения английского языка, в этом топике представлен еще один. Некий словацкий веб-разработчик Vojtech Rinik предлагает запоминать новые слова книги (или главы) до ее прочтения. При этом способе не придется прерывать чтение поиском перевода для неизвестных слов, а значит можно в полной мере насладиться книгой в оригинале.

Также Войцех утверждает, что так слова учить намного проще, ведь сначала их нужно запомнить, а потом «распознать» в тексте.

Читать дальше →

+34

vyalow 20 янв 2009 в 20:25

Осваиваем Python. Унция 1. Типы данных.

6 мин

81K

Программирование*

Продолжаю своё начинание. Данная статья является логическим продолжением первой. Было приятно читать ваши комментарии. Я надеялся, что данный цикл статей окажется для кого-то полезным, но совершенно не предполагал, что заинтересовавшихся будет довольно большое количество. Это заставляет относится к делу серьёзнее и ответственнее.
Без лишних слов, сразу к делу.

Читать дальше →

+36

vyalow 18 янв 2009 в 12:48

Осваиваем Python. Унция ноль. Введение.

4 мин

127K

Программирование*

Предыстория

Присоединяюсь к MaxElc, DarwinTenk и Devgru :) Начинаю цикл статей посвященных Python. Сам я имею некоторый опыт обращения с PHP и Java. Но каждый раз, при относительном освоении какого-то инструмента — оставалось определённое неудовлетворение им, связанное с чем-то конкретным, и поиски продолжались. На сегодняшний день наиболее близко к идеалу в моих глазах стоит Python. Идеал недостижим — это понятно, посему и у Python есть недостатки. Прежде всего — это скорость выполнения, однако, эта проблема решаема несколькими путями и об этом мы обязательно поговорим чуть позднее.
Сам я начал осваивать Python буквально недавно. Начиная этот цикл статей — я преследую несколько целей. Во-первых, это дополнительная само мотивация + интерактивность, во-вторых, опыт. В-третьих, блуждая по просторам рунета — вижу, что Python куда менее популярен, чем в мире. Ситуацию надо исправлять :)
В соответствии с идеологией Python, а именно с тем, что одни из главных его козырей — это быстрота в освоении и скорость разработки, мы достаточно быстро, практически тезисно пронесёмся по основам синтаксиса и построения программ и перейдём к основной цели данного цикла — освоение django.
Итак, мы начинаем.

Читать дальше →

+66

talurus 14 июн 2011 в 19:24

Парсинг на Pуthon. Как собрать архив Голубятен

9 мин

43K

Из песочницы

Статья описывает разработку скрипта на языке Python. Скрипт выполняет парсинг HTML-кода, составление списка материалов сайта, скачивания статей и предварительную очистку текста статьи от «посторонних» элементов. Используется библиотеки urllib (получение HTML-страниц), lxml (парсинг HTML-кода, удаление элементов и сохранение «очищенной» статьи), re (работа с регулярными выражениями), configobj (чтение файлов конфигурации).

Для написания скрипта достаточно базовых знаний языка Python, навыков программирования и отладки кода.

В статье даются пояснения по применению библиотек на примере составления списка публикаций С.М. Голубицкого, приведена ссылка на работающий скрипт.

Читать дальше →

+32

tonatoz 28 сен 2011 в 16:03

Визуализация каталогов на Python средствами NetworkX

5 мин

17K

Из песочницы

Листая на Хабре раздел Python наткнулся на интересную статью о библиотеке NetworkX. Впечатлившись красивыми графами, решил повысить свой python-скилл и покопаться в networkx.

Пролог

Первый вопрос — откуда взять данные для визуализации? Генерировать случайные не интересно, они и в комплекте модуля были. Тут вспомнилась Dos утилитка tree, выводящая каталоги файловой системы в виде дерева. Решено было написать красивый аналог на Python и нарисовать все в networkx с помощью matplotlib.

шоу продолжается

+47

vden 24 янв 2011 в 15:10

Реализация графов и деревьев на Python

17 мин

283K

Продолжаем публикацию наиболее интересных глав из книги Magnus Lie Hetland «Python Algorithms». Предыдущая статья расположена по адресу habrahabr.ru/blogs/algorithm/111858. Сегодня же речь пойдет об эффективной работе с графами и деревьями и особенностях их реализации в Python. Базовая терминология теории графов уже обсуждалась (например здесь: habrahabr.ru/blogs/algorithm/65367), так что я не включил часть главы о терминах в эту статью.

Реализация графов и деревьев

Многие задачи, например, задача обхода точек по кратчайшему маршруту, могут быть решены с помощью одного из мощнейших инструментов — с помощью графов. Часто, если вы можете определить, что решаете задачу на графы, вы по-крайней мере на полпути к решению. А если ваши данные можно каким-либо образом представить как деревья, у вас есть все шансы построить действительно эффективное решение.

Читать дальше →

+59

pingu 9 мар 2011 в 09:43

Простая библиотека для парсинга HTML

2 мин

10K

Недавно зарелизил Leaf, это небольшая библиотека для парсинга HTML на Python.
Она уже довольно долгое время покрывает все мои нужды в парсинге, но еще есть идеи для развития.
Эта библиотека по сути обертка над lxml, которая делает работу с ней гораздо приятней.

+49

Igorzp 21 дек 2011 в 20:11

Первые шаги в программировании на Python

3 мин

37K

Из песочницы

Пару месяцев назад взялся я за изучение Python. Прочитав про используемые структуры, работу со строками, генераторы, основы ООП, размышлял какую полезную программу написать, что бы это все применить на реальной задаче.
По счастливому стечению обстоятельств ко мне обратились знакомые с просьбой скачать мультфильм «Чудеса на виражах».

Читать дальше →

+28

XaocCPS 26 сен 2012 в 13:44

Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive

8 мин

10K

Блог компании MicrosoftOpen source*

Туториал

Перевод

В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.

Руководство состоит из следующих разделов.

Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
Получение фидов Twitter с помощью cURL и Twitter Streaming API
Запрос и настройка нового Hadoop на кластере Windows Azure
Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
Настройка Hive ODBC и панели Hive в Excel для получения данных Hive

Читать дальше →

+16

ur001 2 мая 2012 в 17:38

Как правильно сортировать контент на основе оценок пользователей

5 мин

92K

Блог компании ДарударАлгоритмы*

Перевод

В оригинале название звучит как «How Not To Sort By Average Rating». Я подумал, что дословный перевод «Как не сортировать по усреднённому рейтингу» будет малопонятен и хуже отражает содержание статьи.

Постановка проблемы

Вы занимаетесь веб программированием. У вас есть пользователи, которые оценивают контент на вашем сайте. Вы хотите разместить высоко оцененный контент наверху, а низко оцененный — внизу. Для этого на основе пользовательских оценок вам нужно вычислить некий «рейтинг».

Неправильное решение №1

Рейтинг= (Число положительных оценок) - (Число отрицательных оценок)

Читать дальше →

+388

Irokez 15 авг 2012 в 02:23

Обучаем компьютер чувствам (sentiment analysis по-русски)

12 мин

84K

Natural Language Processing*Python*Алгоритмы*

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.

Читать дальше →

+80

glazkova 31 июл 2012 в 11:15

Опубликован закон, разрешающий бизнесменам копировать информацию с изымаемых компьютеров-вещдоков

1 мин

17K

Блог компании Pravo.ru

Президент РФ В.В. Путин подписал закон, разрешающий предпринимателям копировать информацию с изымаемых в ходе расследования уголовного дела компьютеров и флеш-карт, размещен на портале официального опубликования правовых актов.

Федеральный закон от 28 июля 2012 года № 143-ФЗ «О внесении изменений в Уголовно-процессуальный кодекс Российской Федерации» принят Госдумой 3 июля и одобрен Советом Федерации 18 июля 2012 года.

Согласно пояснительной записке данные изменения в УПК призваны «обеспечить дополнительную защиту прав предпринимателей и решить задачу продолжения деятельности хозяйствующих субъектов в случае изъятия электронных носителей в ходе расследования уголовных дел».

Читать дальше →

+58

glazkova 14 июн 2012 в 12:58

Что делать, если надоела смс-реклама?

5 мин

64K

Блог компании Pravo.ru

Наверное, многим знакома ситуация, когда раздается звук оповещения, что на мобильный телефон пришло смс-сообщение. И вот, открывая смс-сообщение, мы видим, что какая-то организация прислала нам рекламу. Хорошо, если вы действительно подписывались на данную рассылку.

Но что же делать, если вы не подписывались, и вам регулярно присылают рекламу посредством смс-сообщений?

Первое, что надлежит знать, это то, что любая рекламная рассылка посредством смс-сообщений без вашего предварительного согласия является нарушением ч. 1. ст. 18 Федерального закона от 13.03.2006 N 38-ФЗ «О рекламе»:

Читать дальше →

+39

alizar 1 авг 2012 в 01:51

Интерактивные уроки Python на Codecademy

1 мин

65K

Python*Программирование*

Школа программирования Codecademy открылась в августе прошлого года: за это время миллионы человек изучили основы JavaScript, HTML, CSS и jQuery. Кураторы проекта решили, что пришло время расширить программу обучения с фронтенда на серверную часть — и запустили уроки по Python.

Часть 1: Синтаксис Python (16 упражнений)

Проект: калькулятор чаевых (5 упражнений)

Уроки проходят в традиционном интерактивном режиме. Пользователь читает инструкции, вводит команды в окно терминала — и сразу видит реакцию системы.

Читать дальше →

+43

alizar 22 июл 2012 в 11:52

Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы

2 мин

2K

Поисковые технологии*

Два года назад директор по коммуникациям Библиотеки Конгресса США объявил о плане сделать архив всего Твиттера, начиная с марта 2006 года. Уже в то время (март 2010-го) это был очень большой объём: тогда в твиттере публиковалось 55 миллионов сообщений в день, а общий размер базы с момента основания сайта измерялся в терабайтах.

Но то были лишь цветочки. К лету 2012-го года трафик в Твиттере вырос до 400 млн сообщений в сутки, а Библиотека Конгресса так и не запустила обещанный архив с полнотекстовым поиском. В связи с этим кое-кто начал сомневаться, что задача по силам библиотекарям. На прошлой неделе появились слухи, что они втихую отказались от амбициозного проекта. На самом деле это не так.

Читать дальше →

+10

Lakret 20 июл 2012 в 16:35

Маленькие секреты больших графов

2 мин

9.1K

Алгоритмы*Программирование*Data Mining*

Если вам интересно, какие знания можно извлечь из большого массива данных, насколько большими бывают графы и какие задачи по анализу социальных графов предлагают Facebook, Twitter и др., то эта статья именно для вас.

Читать дальше →

+46

1 2 ...

9