Articles / Bookmarks / Profile of pallada92 / Habr

How to become an author

Ярослав Сергиенко @pallada92

Визуализация данных и frontend в ИСИЭЗ НИУ ВШЭ

ProfileArticles3PostsNewsComments71

a4tunado Jan 12 2015 at 07:26

5 трендов в области анализа и обработки данных в 2015 году

4 min

30K

Data Mining*Big Data*

Начало года самое время для прогнозов и предсказаний. В этом посте я собрал обзор трендов в области аналитики и систем обработки данных на 2015 год.

Читать дальше →

+10

Elusive_Dream Dec 27 2014 at 15:00

15 лучших JavaScript-библиотек для построения диаграмм и сводных таблиц

6 min

310K

JavaScript*Website development*

Translation

Практически невозможно представить себе информационную панель без диаграмм и графиков. Они быстро и эффективно отображают сложные статистические данные. Более того, хорошая диаграмма также улучшает общий дизайн вашего сайта.

В этой статье я покажу вам некоторые из лучших JavaScript библиотек для построения диаграмм/схем (и сводных таблиц). Эти библиотеки помогут вам в создании красивых и настраиваемых графиков для ваших будущих проектов.

Хотя большинство библиотек являются бесплатными и свободно распространяемыми, для некоторых из них есть платные версии с дополнительным функционалом.

Читать дальше →

+59

lightsource Dec 11 2014 at 20:24

Детекторы углов

18 min

114K

Algorithms*Image processing*

Мне интересна обработка изображений, в особенности работа с особыми точками. Ища информацию по детекторам углов, я не нашел достаточно большого обзора этих алгоритмов на русском языке. Поэтому я решил исправить ситуацию, написав эту статью. План статьи следующий:

Введение
Свойства особых точек
Детекторы углов
- Moravec
- Harris
- Shi-Tomasi
- Förstner
- SUSAN
- Trajkovic
- FAST
- CSS
- Детектор, основанный на глобальных и локальных свойствах кривизны
- CPDA
Выводы

Читать дальше →

+114

Ti_Fix Dec 31 2014 at 06:39

PyOpenGL с шейдерами

8 min

44K

Tutorial

В предыдущей статье были рассмотрены основы работы с OpenGL в Python. Для вывода графики использовались встроенные функции модуля glut и фиксированный конвейер OpenGL без шейдеров. По просьбе пользователей habrahabr.ru, на базе предыдущего урока был создан шаблон PyOpenGL приложения, использующего шейдеры и буферные объекты.
Роскошной графики, как и в предыдущей статье, ожидать не стоит. Цель данной статьи — продемонстрировать возможность работы с шейдерами и буферными объектами с использованием модуля PyOpenGL.

Читать дальше →

+28

smileonl Dec 31 2014 at 12:33

Другая сторона Go: рисуем анализируя данные

5 min

18K

Image processing*Go*Data visualization*

Translation

Go — универсальный язык программирования который отлично подходит для фоновых задач, но иногда вам может понадобится генерировать изображения опираясь на входящие данные. Go отлично работает с созданием визуальных объектов. В этом посте описан один из методов создания изображений (в частности векторной графики) на основе данных с помощью пакета SVGo.

Библиотека SVGo занимется одной единственной задачей: генерирует SVG и отдает его в io.Writer. I\O пакет в Go позволяет вам выводить результаты используя необходимый интерфейс (стандартный вывод, файлы, сетевые соеденения, веб сервер).

Для SVGo первостепенны высокоуровневые объекты такие как круги, прямоугольники, линии, полигоны и кривые. Стили и атрибуты являются второстепенными и применяются по мере необходимости.

Читать дальше →

+15

encyclopedist Dec 18 2014 at 19:10

Насколько медленны iostreams?

7 min

80K

Sport programming*C++*C*

Потоки ввода-вывода в стандартной библиотеке C++ просты в использовании, типобезопасны, устойчивы к утечке ресурсов, и позволяют простую обработку ошибок. Однако, за ними закрепилась репутация «медленных». Этому есть несколько причин, таких как широкое использование динамической аллокации и виртуальных функций. Вообще, потоки — одна из самых древних частей стандартной библиотеки (они начали использоваться примерно в 1988 году), и многие решения в них сейчас воспринимаются как «спорные». Тем не менее, они широко используются, особенно когда надо написать какую-то простую программу, работающую с текстовыми данными.

Вопрос производительности iostreams не праздный. В частности, с проблемой производительности консольного ввода-вывода можно столкнуться в системах спортивного программирования, где даже применив хороший алгоритм, можно не пройти по времени только из-за ввода-вывода. Я также встречался с этой проблемой при обработке научных данных в текстовом формате.

Сегодня в комментариях у посту возникло обсуждение о медленности iostreams. В частности, freopen пишет

Забавно смотреть на ваши оптимизации, расположенные по соседству со считыванием через cin :)

а aesamson даёт такую рекомендацию

Можно заменить на getchar_unlocked() для *nix или getchar() для всех остальных.
getchar_unlocked > getchar > scanf > cin, где ">" означает быстрее.

В этом посте я развею и подтвержу некоторые мифы и дам пару рекомендаций.

Читать дальше →

+86

LinguaLeo Dec 18 2014 at 14:34

Хабр, знакомься — новый LinguaLeo с персональной системой обучения иностранному языку

5 min

81K

Lingualeo corporate blogWebsite development*

Мы видим в персонализации будущее образования, ведь каждый человек учится в собственном темпе и преследует личную цель. Кто-то предпочитает заниматься по одним материалам, а кто-то — по другим; у кого-то время на обучение есть днем, а у кого-то — вечером. Наша команда почти год ударно трудилась над тем, чтобы учесть все это и предоставить своим пользователям возможность учить английский по персональному плану. Итак, мы рады анонсировать Новый LinguaLeo! Новая версия сервиса каждому пользователю представляет индивидуальный план обучения, который отображается на новом Dashboard, а также интервальную тренировку и UGC перевод.

Проведённые тесты новой системы уже показали эффективность нового формата — выросло вовлечение. Теперь Саша, брат вашего друга и будущий выпускник, будет готовиться к ЕГЭ только по тем материалам, которые будут ему и полезны и интересны. Любитель путешествий Валера, наконец-то, сможет произнести сотруднику аэропорта: «What's the charge for excess baggage?», а ваша любимая подружка, красотка-хирург Тамара из Уфы, поймет, о чем говорят коллеги на международном симпозиуме.

Довольно простая с виду система «под капотом» прячет технологии, которых больше нигде нет, как говорит Артем Логинов, наш VP of Product. Если мы сумели вас заинтриговать — идем под хабракат, там вы узнаете подробности о наших ноу-хау.

Читать дальше →

+67

iximiuz Nov 23 2014 at 13:23

Web-разработка на Python глазами PHP-программиста

7 min

177K

Website development*PHP*Python*

Введение

В статье хотелось бы поднять вопросы отличия использования Python для web-разработки по сравнению с оной на PHP. Надеюсь, статья не приведет к холиварам, так как она вовсе не о том, какой язык лучше или хуже, а исключительно о технических особенностях Python.

Читать дальше →

+47

geektimes Nov 21 2014 at 09:59

Как работают профессионалы. Издатель «ТМ» Денис Крючков

2 min

17K

Всем привет! Сегодня мы анонсируем новую рубрику на «Мегамозге».

Раз в неделю, может быть чаще, мы будем опрашивать гиков с целью узнать, как они работают. Мы попробуем выяснить, какое железо, софт и сервисы они используют в работе, что они читают и как себя организовывают для достижения поставленных целей.

Наш сегодняшний гость — издатель ТМ Денис deniskin Крючков.

Читать дальше →

+40

teymurberman Oct 27 2014 at 12:18

Еще раз про учебу и работу ИТ-шника в Германии

5 min

118K

Доброго времени суток Хабр.

Я читал множество статей на Хабре по поводу учебы в Германии, но часто их пишут люди, которые приехали сюда именно получать высшее образование. Я же в Германии вырос, поэтому розовые очки несколько потускнели и я смогу немного разбавить восторженные отзывы об этой стране и о системе обучения в частности.

Читать дальше →

+53

elingur Oct 23 2014 at 07:20

Марковские случайные поля

4 min

47K

Data Mining*Machine learning*

Tutorial

Статья посвящена описанию метода CRF (Conditional Random Fields), являющимся разновидностью метода Марковских случайных полей (Markov random field). Данный метод нашел широкое применение в различных областях ИИ, в частности, его успешно используют в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатики, компьютерной графики и пр.

Читать дальше →

+24

alizar Oct 11 2014 at 08:48

Сколько научных статей в интернете?

2 min

15K

Search engines*

Профессор Ли Джайлс (Lee Giles) из колледжа информационных технологий при университете штата Пенсильвания значительную часть карьеры посвятил разработке поисковых систем по научным статьям, чтобы у академического сообщества был удобный доступ к материалам.

Недавно профессор опубликовал первое в своём роде исследование, в котором оценивает количество доступных научных статей в интернете. Работа "The Number of Scholarly Documents on the Public Web" опубликована в майском номере журнала PLoS ONE и цитируется в Nature.

В работе учтены только англоязычные документы, с учётом перекрытия в двух крупнейших специализированных поисковиках: Google Scholar и Microsoft Academic Search. Под научными документами подразумеваются публикации в журналах и доклады с конференций, диссертации и дипломные работы, книги, технические отчёты и рабочие документы (предварительные версии научных статей).

Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов (24%) лежат в открытом доступе.

Читать дальше →

+12

alizar Oct 11 2014 at 18:15

Дата-майнинг делает научные открытия

2 min

28K

High performance*Data Mining*

Интересная статья опубликована в журнале New Scientist о том, как дата-майнинг применяется для анализа большого объёма научной информации. Цель — поиск ценной информации в разрозненных научных статьях. Эти закономерности люди, вероятно, не способны обнаружить собственными силами, без автоматической обработки. Это неудивительно, ведь объём опубликованных научных документов в интернете только на английском языке уже превысил 100 миллионов документов. Это огромный информационный шум, из которого практически невозможно извлечь полезную информацию. То есть, невозможно извлечь человеческим умом.

Понятно, что без дата-майнинга в современной науке нельзя. Скажем, петабайты информации с Большого адронного коллайдера обрабатывают месяцами/годами, чтобы определить наличие или отсутствие эффектов, предполагаемых той или иной теорией. Но здесь речь идёт о более «тонком» анализе научных результатов от разных авторов для поиска скрытых закономерностей, совпадений.

Читать дальше →

+20

b0noII Nov 10 2012 at 20:50

Text Mining Framework (Java)

5 min

31K

Data Mining*Java*Semantics*

Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.

Читать дальше →

+32

b0noII Sep 27 2014 at 09:07

Новая языково-независимая NLP библиотека

7 min

27K

Natural Language Processing*Java*Data Mining*

Введение

Каждый, кто пришел в этот мир, проходил через путь познания языка. При этом человек обучается языку отнюдь не по правилам или грамматике. Даже, более того, каждый человек, будучи еще ребенком, сначала учит такое странное явление как язык, а уже позднее, с возрастом, начинает учить его правила (в садике и школе). Это объясняет забавный факт, каждый, кто изучает иностранный язык в зрелом возрасте, когда он уже менее склонен к изучению новых языков, знает о предмете своего изучения больше, чем большинство носителей этого языка.

Это простое наблюдение дает возможность предполагать, что для понимания языка вовсе не нужно иметь знания о нем. Достаточно лишь эмпирии (опыта), который можно почерпнуть от окружающих. Но именно об этом забывают практически все современные НЛП библиотеки, пытаясь построить все-обемлящую языковую модель.

Для более четкого понимания представьте себя слепым и глухим. И, даже родись в таком состоянии, вы бы могли взаимодействовать с миром и освоить язык. Само собой, что ваше представление о мире было бы иным, нежели у всех вокруг. Но вы могли бы все таким же образом взаимодействовать с миром. Некому бы было объяснить Вам что происходит и что такое язык ив се же, как то, тактильно анализирую шрифт Брайля Вы бы понемного сдвинулись с мертвой точки.

А это значит, что для понимания сообщения на каком-либо языке нам не нужно ничего, кроме самого сообщения. При условии, что это сообщение достаточно большое. Именно эта идея и положена в основу библиотеки под названием AIF. За деталями прошу пожаловать под кат.

Читать дальше →

+18

kmike Apr 15 2013 at 00:48

pymorphy2

16 min

85K

Natural Language Processing*Python*Algorithms*

В далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)

В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.

Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.

Читать дальше →

+97

slowcountry2 Aug 28 2014 at 04:41

Повышение конверсии с помощью Big Data: 9 платформ прогнозной аналитики

5 min

23K

Increasing Conversion Rate*

Прогнозная аналитика — это технология, опирающаяся на большие массивы данных для прогнозирования будущего поведения людей с целью принятия оптимальных решений. Она задействует множество методов из статистики, интеллектуального анализа данных, учитывает как текущие данные, так и данные за прошлые периоды, на основе которых составляет прогнозы о будущих событиях. В бизнесе модели прогнозирования используют паттерны, составленные на основе данных за определенный период, чтобы оценить потенциальные риски и возможности. Модели выявляют связи среди многих факторов, чтобы сделать возможной оценку рисков или потенциала, связанного с конкретным набором условий. Итогом использования прогнозной аналитики является принятие верных (максимально эффективных для бизнеса) решений.

Как прогнозная аналитика может пригодиться e-commerce?

Читать дальше →

+13

jff Aug 27 2014 at 14:05

oDesk (Upwork). Мой опыт за полтора года

12 min

445K

Вот уже полтора года я зарабатываю фрилансом на бирже oDesk. За это время у меня накопилось много материалов по данной теме. В данном топике я собрал все в одну статью и адаптировал для аудитории хабра.

Читать дальше →

+178

alisichkin Aug 27 2014 at 09:15

Data Mining. Оптимизация заказов товаров в аптеке (аптечном пункте)

6 min

18K

C++*Data Mining*Microsoft SQL Server*

В небольшом аптечном пункте существует потребность гибкой системы заказов лекарственных средств и пара-фармацевтических товаров чувствительной к постоянным колебаниям рынка. В рамках современной действительности одиночные аптечные пункты не обладают достаточными складскими помещениями (материальными комнатами), что накладывает свой отпечаток и заставляет человека, ответственного за заказы, делать их ежедневно из сводного прайс-листа по нескольким поставщикам, не допуская дублирования, по минимальным ценам, исключая товары с неподходящими сроками годности. При этом общая номенклатура составляет несколько десятков тысяч единиц.

Мы живем в современном мире, где рутинные операции за нас выполняет компьютер. Поэтому Вы можете сказать: «Давайте используем компьютер, и он сделает всю черную работу за нас!». «У вас же есть база данных, содержащая статистику продаж различных лекарств?» – продолжите Вы – «Так почему же не использовать эту статистику для прогноза продаж и создания автоматической заявки на требуемые препараты?»

Читать дальше →

+22

NCNecros Aug 27 2014 at 10:55

Мега-Учебник Flask, Часть 11: Поддержка e-mail

8 min

26K

Flask*Python*Website development*

Tutorial

Translation

Это одиннадцатая статья в серии, где я описываю свой опыт написания веб-приложения на Python с использованием микрофреймворка Flask.

Цель данного руководства — разработать довольно функциональное приложение-микроблог, которое я за полным отсутствием оригинальности решил назвать microblog.

Оглавление

Часть 1: Привет, Мир!
Часть 2: Шаблоны
Часть 3: Формы
Часть 4: База данных
Часть 5: Вход пользователей
Часть 6: Страница профиля и аватары
Часть 7: Unit-тестирование
Часть 8: Подписчики, контакты и друзья
Часть 9: Пагинация
Часть 10: Полнотекстовый поиск
Часть 11: Поддержка e-mail(данная статья)
Часть 12: Реконструкция
Часть 13: Дата и время
Часть 14: I18n and L10n
Часть 15: Ajax
Часть 16: Отладка, тестирование и профилирование
Часть 17: Развертывание на Linux (и даже на Raspberry Pi!)
Часть 18: Развертывание на Heroku Cloud

Краткое повторение

В последних уроках мы занимались, в основном, улучшениями связанными с нашей базой данных.

Сегодня мы позволим нашей базе немного отдохнуть, и вместо этого посмотрим на одну очень важную функцию, которая есть у большинства веб-приложений: возможность отправки email пользователю.

Читать дальше →

+24

1 2 ...

34