Статьи / Закладки / Профиль semenoffalex / Хабр

Как стать автором

Александр Семёнов @semenoffalex

Пользователь

Профиль Публикации Комментарии 38Закладки 260

zevvssibirix 5 фев 2013 в 14:10

Грядут серьезные изменения в API Facebook — февраль, март, апрель 2013

4 мин

26K

Facebook API*Программирование*

Вам тоже недавно приходили оповещения от Facebook-приложений? Со смыслом «мы тут кое-что поменяли в API, поэтому, возможно, приложение такое-то скоро начнет работать некорректно».

Дело в том, что не так давно Facebook внедрил новую практику Breaking Change Policy (если по-русски, то что-то вроде «Политика критических изменений»). Социальная сеть уведомляет разработчиков о грядущих «перестройках» в API, что, соответственно, требует изменений в коде уже существующих приложений. И которые надо будет учесть при разработке новых, естественно. Facebook призывает разработчиков подписаться на блог, дабы не пропустить ничего важного.

А пока о самых актуальных изменениях, которые уже начали внедряться или будут внедрены в совсем скоро (завтра, 6-го февраля — начало первого этапа изменений).

Читать дальше →

+36

dzhioev 16 мая 2012 в 17:49

Пишем модуль для авторизации в VK API

5 мин

94K

Python*ВКонтакте API*

Из песочницы

На днях возникла необходимость сохранить все фотографии из своего фотоальбома ВКонтакте на жесткий диск. Естественно, вариант, с сохранением фотографий по одной, меня не устроил. Тут вспомнилось, что у ВКонтакте есть API. Пять минут чтения мануалов, и все нужные функции найдены. Единственная проблема – не существует нормального способа, для получения доступа к API. В документации сказано следующее:

Процесс авторизации приложения состоит из 3-х шагов:

Открытие окна браузера для аутентификации пользователя на сайте ВКонтакте.

Разрешение пользователем доступа к своим данным.

Передача в приложение ключа access_token для доступа к API.

На первый взгляд, набросать простенький портабельный скрипт не получится. Хотя, что мешает нам притвориться браузером?

Читать дальше →

+26

kuznetsovin 14 ноя 2013 в 10:59

Основы анализа данных на python с использованием pandas+sklearn

9 мин

174K

Добрый день уважаемые читатели. В сегодняшней посте я продолжу свой цикл статей посвященный анализу данных на python c помощью модуля Pandas и расскажу один из вариантов использования данного модуля в связке с модулем для машинного обучения scikit-learn. Работа данной связки будет показана на примере задачи про спасенных с "Титаника". Данное задание имеет большую популярность среди людей, только начинающих заниматься анализом данных и машинным обучением.

Читать дальше →

+24

sobach 6 ноя 2013 в 01:03

R: хороплет-карта России с увеличенной европейской частью

4 мин

15K

R*Визуализация данных*

Туториал

Коротко о главном: прочитал недавно пост infotanka. Полез на сайт Татьяны Мисютиной и подсмотрел там хороплет-карту России с увеличенной европейской частью. И ведь, действительно, классная идея. Удобно, наглядно. Захотелось сделать себе шаблон под R для таких же графиков. Ведь хорошие идеи должны размножаться делением?

Читать дальше →

+11

hashspark 26 окт 2013 в 23:47

Популярность тегов Хабра: какие тренды в постах?

6 мин

16K

Ненормальное программирование*Python*

HabrTrend

Доброго времени суток!

Сегодня речь пойдёт о том, как можно попробовать проследить тенденции. Глядя на то, как это делает google появилось желание сделать подобные тренды на основе тегов Хабра. Возможно, не все пользователи добросовестно расставляют теги, но допустив это как истину, можно получить неплохие результаты. Итак, давайте попробуем.

Читать дальше →

+36

CvetKomm 18 июл 2013 в 11:34

Активные пользователи ВКонтакте и Twitter: рейтинг российских регионов

4 мин

14K

Блог компании PalitrumLab

Как и обещали, публикуем данные по региональной активности пользователей Twitter и Вконтакте. В отличие от опросов общественного мнения, данное исследование позволяет проследить не декларативное поведение пользователей социальных сетей, а выделить ядро активных пользователей, формирующих информационный поток в сети. Больше всего пользователей, публикующих записи в социальных сетях ВКонтакте и Twitter, в Санкт-Петербурге и Москве.

Читать дальше →

+4

CvetKomm 18 окт 2013 в 13:15

Обращение за советом к экспертам и коллегам (мобильные решения)

2 мин

3.1K

Блог компании PalitrumLabРазработка под iOS*Разработка мобильных приложений*

Мы рассчитывали, что ровно месяц назад станет доступным для бета-тестинга мобильная версия "Больше чем Reader". К сожалению, наш партнёр, достаточно известная московская компания-разработчик мобильных приложений с обязательствами по срокам не справляется даже для ненативной версии. Деньги подрядчику выплачивались, техника закуплена, стойки подключены, Платформа жужжит — а вот фронт-энда нет, планы-проекты с партнерами (включая спецпроект с Хабром) заморожены, участие в запланированных мероприятиях и конкурсах сорвано.

Читать дальше →

+5

CvetKomm 16 июл 2013 в 10:26

Социальные сети в России, лето-2013: цифры, тренды, прогнозы

4 мин

43K

Блог компании PalitrumLab

Привет, Хабр!

Наш проект растёт не по дням, а по часам и дорос-таки до создания целого корпоративного блога! За год нашего существования мы успели накопить серьезный опыт в области разработки систем класса OBD (Online Big Data) и рады поделиться им с вами. Поскольку наш блог представляет консорциум разно-индустриальных команд, то и темы публикаций будут весьма разнообразны — от разработки до лингвистики, от социологических исследований до системной инженерии, от аналитики до маркетинга.

А начать мы хотели бы со статьи о динамике проникновения социальных медиа в России и о наших прогнозах на ближайшее будущее соцмедиа, которые мы вместе сможем проверить уже через полгода. За первые 6 месяцев 2013 года количество публичных сообщений в русскоязычных соцмедиа, выросло в 1,5 раза и составило порядка 300 млн в месяц, а среднемесячное количество авторов публичных сообщений увеличилось на 4 млн человек.

Читать дальше →

+12

CvetKomm 24 окт 2013 в 10:35

Активные авторы в социальных медиа: исследование по возрастным группам

4 мин

5.3K

Блог компании PalitrumLabBig Data*

Исследования общественного мнения в соцмедиа имеют право на жизнь только в том случае, когда анализируются не только тексты сообщений, но и социально-демографические характеристики их авторов. Неправильно было бы учитывать высказывания петербуржцев при исследовании проблем жителей Чукотки, нельзя учитывать мнения пользователей старше 45 для получения инсайтов о молодежном продукте или мнения пользователей младше 18 лет для прогнозирования результатов выборов. Мы уже публиковали информацию о распределении активных авторов по регионам России, а сегодня поделимся нашими новыми данными: под катом – первые результаты исследования о возрасте активных авторов социальных медиа.

Читать дальше →

+12

shuttie 23 окт 2013 в 15:03

Кто живет в соцсетях?

8 мин

75K

Data Mining*Big Data*

Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.

Читать дальше →

+117

Apatic 28 окт 2013 в 21:37

От чего зависят оценки в техническом вузе?

5 мин

102K

Учебный процесс в IT

Из песочницы

Привет Хабр!

Когда-то давно мне стало интересно: насколько справедлива система оценок в большинстве наших технических вузов? И что вообще влияет на получаемую студентом оценку?
Ведь частенько студент, который ходил весь семестр, писал лекции и выполнял в срок лабораторные, получает «уд.» на экзамене, а везунчик-раздолбай отхватывает пятерку.
Насколько все это случайно? Как ни учись – оценку получишь «рэндомом»? Или все же нет? А если ты красивая девочка в короткой мини-юбке, каковы твои шансы по сравнению с парнями? (Исключительно фигура речи — никакого сексизма)
Под катом вы увидите результаты моего исследования, в котором я попытался ответить на эти и некоторые другие вопросы. Подопытными кроликами стали несколько тысяч студентов родного для меня вуза — МГТУ им. Н.Э. Баумана.

Заранее извиняюсь, если выбрал не тот хаб, а быть может и вовсе не должен был это писать на Хабре. Но поделиться хотелось.

Читать дальше

+57

MKrivosheev 28 июн 2012 в 13:44

ABBYY FlexiCapture Engine 10.0: тренируем гибкость с новым инструментом

9 мин

15K

Блог компании Content AI

В ряду наших продуктов для разработчиков пополнение – выпущена очередная версия ABBYY FlexiCapture Engine. Напомню, что это продукт, позволяющий встраивать технологию ввода данных из изображений (data capture) в пользовательские решения.

Одной из интересных фич новой версии стала возможность быстрой настройки на извлечение данных из документов простых типов. Мои коллеги уже рассказывали читателям хабра про то, как эта функция реализована во FlexiLayout Studio 10. В новую версию продукта добавлено API, дающее полный программный доступ к этой функциональности. Кроме этого мы сделали простой в использовании инструмент (доступный также в виде исходного кода), который позволяет всего за несколько минут (как показано вот в этом видео) настроиться на задачу пользователя и сделать быстрый работающий прототип решения, не вникая глубоко в тонкости технологии.

Эта статья написана разработчиком для разработчиков и расскажет вам о возможностях и ограничениях данной технологии – то, чего вы не найдёте в маркетинговых материалах.

Читать дальше →

+13

vpanferov 30 мая 2013 в 16:19

Классификация документов по их внешнему виду и содержанию

4 мин

11K

Блог компании Content AIData Mining*

Сегодня мы расскажем вам, как и зачем можно применять классификаторы для разделения и сортировки разных документов по их типам.

В компании ABBYY, помимо программистов, лингвистов, аналитиков и других разных полезных людей, есть много классификаторов. Конечно, классификаторы – не люди, а алгоритмы, но они выполняют работу, без которой качественное распознавание текста невозможно. Без них не обойтись на самых разных этапах обработки документов – от нахождения зон, содержащих текст на картинках, до распознавания конкретных символов в строчках с текстом.

Но на этом работа классификаторов не заканчивается.

Читать дальше →

+17

XaocCPS 3 июл 2013 в 09:41

Python Tools для Visual Studio, о новинках из первых рук

6 мин

52K

Блог компании MicrosoftPython*Visual Studio*

Эта статья написана Павлом Минаевым int19h — разработчиком из команды PTVS специально для публикации в нашем корпоративном блоге на Хабрахабре. Делитесь вашими впечатлениями в комментариях. Все отзывы будут переданы команде.

Здравствуйте! Я – разработчик из команды Python Tools for Visual Studio. На днях мы выпустили новую бета-версию нашего продукта, и, воспользовавшись поводом, в этот раз я хотел бы поподробнее рассказать о том, что из себя представляет PTVS, и что он может вам предложить.

рассказ о новинках из первых рук...

+112

Galyna 19 фев 2009 в 20:17

Инфодосье — социальные «пресс-портреты» Инфоротора

1 мин

1.2K

Блог компании Инфоротор

Представляем свои 5 копеек в копилку фактографических сервисов Рунета: Инфодосье. Нам, как и многим другим, неинтересно делать то, что уже кем-то сделано, поэтому наши «пресс-портреты» мало похожи на схожие по названию проекты :-)

Чем именно?
Во-первых, мы достаем данные не только о персонах, но и о компаниях.
Во-вторых, компании сгруппированы по видам деятельности, а персоны по профессиям.
В-третьих, все факты структурированы по типам.
В-четвертых, за любую цитату, действие, отставку, назначение, официальный документ можно проголосовать.
В-пятых, голосовать можно и за самих ньюсмейкеров, определяя их «карму».

На основе голосований составляется «социальный рейтинг» каждого объекта. А по количеству упоминаний строится рейтинг упоминаемости. Оба рейтинга доступны как для персон, так и для компаний.

Сервис пока в стадии «бета», поэтому не обращайте внимания на некоторые баги :-)

+6

vleksin 15 мар 2013 в 15:09

Рекомендательная система: полезные задачи текстмайнинга

4 мин

14K

Блог компании SurfingbirdАлгоритмы*

Я продолжаю цикл статей по применению текстмайнинг-методов для решения различных задач, возникающих в рекомендательной системе веб-страниц. Сегодня я расскажу о двух задачах: автоматическое определение категорий для страниц из RSS-лент и поиск дубликатов и плагиата среди веб-страниц. Итак, по порядку.

Автоматическое определение категорий для веб-страниц из RSS-лент

Обычная схема добавления веб-страниц (вернее, ссылок на них) в Surfingbird такова: при добавлении новой ссылки пользователь должен указать до трёх категорий, к которым принадлежит эта ссылка. Понятно, что в такой ситуации задача автоматического определения категорий не стоит. Однако, кроме ручного добавления, ссылки попадают в базу и из RSS-потоков, которые предоставляют многие популярные сайты. Поскольку ссылок, поступающих через RSS-потоки, очень много, зачастую модераторы (а в этом случае именно они вынуждены проставлять категории) просто не справляются с таким объёмом. Возникает задача создания интеллектуальной системы автоматической классификации по категориям. Для ряда сайтов (например, lenta.ru или sueta.ru) категории можно вытащить непосредственно из rss-xml и вручную привязать к нашим внутренним категориям:

Читать дальше →

+34

vleksin 26 мар 2013 в 20:51

Рекомендательная система: достаем теги пользователей из соцсетей

5 мин

11K

Блог компании SurfingbirdАлгоритмы*

Сегодня я расскажу о том, как можно использовать данные о пользователях из социальных сетей для рекомендаций веб-страниц на холодном старте. Все приведенные в статье результаты носят чисто экспериментальный характер и в настоящий момент не реализованы в продакшене. Здесь, как и в прошлой статье, будут использоваться элементы текстмайнига для анализа текстового контента веб-страниц.

Сначала немного статистики для того, чтобы показать важность настоящего исследования. Около 50% пользователей нашей системы регистрируются с привязкой аккаунтов социальных сетей vkontakte (VK) и facebook (FB). Причем из зарегистрированных через социальные сети 71% приходится на VK и 29% на FB.

API FB и API VK позволяют извлекать некоторые данные об интересах и предпочтениях пользователя. Но не все так просто, как может показаться. Для получения данных пользователя нужно получить особые права, согласие на которые дает сам пользователь при регистрации в системе. Здесь возникает тонкий момент. С одной стороны, мы ходим вытянуть как можно больше информации о пользователе. С другой стороны, просить слишком много прав — наглость, которая может отпугнуть пользователя. Нужно найти компромисс — тонкое равновесие между полезностью получаемых данных для улучшения рекомендаций и «суммой» кредита доверия от пользователя, который соглашается, чтобы мы залезли в его персональные данные.

Читать дальше →

+9

tac 23 мар 2012 в 10:31

Запрограммируем перцептрон Розенблатта?

17 мин

30K

Алгоритмы*Программирование*

После одной провокационной статьи Перцептрон Розенблатта — что забыто и придумано историей? и одной полностью доказывающей отсутствие проблем в перцептроне Розенблатта, и даже наоборот показывающей некоторые интересные стороны и возможности Какова роль первого «случайного» слоя в перцептроне Розенблатта, я так думаю у некоторых хабражителей появилось желание разобраться, что же это за зверь такой — перцептрон Розенблатта. И действительно, достоверную информацию о нем, кроме как в оригинале, найти не возможно. Но и там достаточно сложно описано как этот перцептрон запрограммировать. Полный код я выкладывать не буду. Но попробуем вместе пройти ряд основ.

Начнем… ах да, предупреждаю, я буду рассказывать не классически, а несколько осовременено…

Читать дальше →

+35

Paul_Smith 30 мая 2012 в 14:30

Нейросети для чайников. Часть 2 — Перцептрон

5 мин

256K

Алгоритмы*Программирование*

В предыдущей статье были рассмотрены самые азы для понимания темы нейронных сетей. Полученная система не являлась полноценной нейронной сетью, а несла просто ознакомительный характер. Принимающими решения механизмами в ней были «черные ящики», не описанные подробно.
Вот о них речь и пойдет в рамках данной статьи. Результатом статьи будет полноценная нейронная сеть из одного перцептрона, умеющая распознавать входные данные и позволяющая себя обучать.

Язык программирования, на этот раз — C#.
Заинтересовавшихся прошу под кат.

Читать дальше →

+75

tac 20 мар 2012 в 07:53

Перцептрон Розенблатта — что забыто и придумано историей?

4 мин

27K

Алгоритмы*

На хабре — уже есть несколько статей про искусственные нейронные сети. Но чаще говорят о т.н. многослойном перцептроне и алгоритме обратного распространения ошибки. А знаете те ли Вы что эта вариация ничем не лучше элементарного перцептрона Розенблатта?

Например, вот в этом переводе Что такое искусственные нейронные сети? мы можем увидеть, что о перцептроне Розенблатта пишут такое:

Демонстрация персептона Розенблатта показала, что простые сети из таких нейронов могут обучаться на примерах, известных в определенных областях. Позже, Минский и Паперт доказали, что простые пресептоны могут решать только очень узкий класс линейно сепарабельных задач, после чего активность изучения ИНС уменьшилась. Тем не менее, метод обратного распространения ошибки обучения, который может облегчить задачу обучения сложных нейронных сетей на примерах, показал, что эти проблемы могут быть и не сепарабельными.

Причем это встречается на разный лад в различных статьях, книгах и даже учебниках.

Но это, наверно, самая великая реклама в области ИИ. А в науке это называется фальсификация.

Читать дальше →

+55

1 2 ...

7