Как стать автором
Обновить
5
0
Александр Семёнов @semenoffalex

Пользователь

Отправить сообщение

Грядут серьезные изменения в API Facebook — февраль, март, апрель 2013

Время на прочтение4 мин
Количество просмотров26K


Вам тоже недавно приходили оповещения от Facebook-приложений? Со смыслом «мы тут кое-что поменяли в API, поэтому, возможно, приложение такое-то скоро начнет работать некорректно».

Дело в том, что не так давно Facebook внедрил новую практику Breaking Change Policy (если по-русски, то что-то вроде «Политика критических изменений»). Социальная сеть уведомляет разработчиков о грядущих «перестройках» в API, что, соответственно, требует изменений в коде уже существующих приложений. И которые надо будет учесть при разработке новых, естественно. Facebook призывает разработчиков подписаться на блог, дабы не пропустить ничего важного.

А пока о самых актуальных изменениях, которые уже начали внедряться или будут внедрены в совсем скоро (завтра, 6-го февраля — начало первого этапа изменений).
Читать дальше →
Всего голосов 44: ↑40 и ↓4+36
Комментарии10

Пишем модуль для авторизации в VK API

Время на прочтение5 мин
Количество просмотров94K
На днях возникла необходимость сохранить все фотографии из своего фотоальбома ВКонтакте на жесткий диск. Естественно, вариант, с сохранением фотографий по одной, меня не устроил. Тут вспомнилось, что у ВКонтакте есть API. Пять минут чтения мануалов, и все нужные функции найдены. Единственная проблема – не существует нормального способа, для получения доступа к API. В документации сказано следующее:
Процесс авторизации приложения состоит из 3-х шагов:
  1. Открытие окна браузера для аутентификации пользователя на сайте ВКонтакте.
  2. Разрешение пользователем доступа к своим данным.
  3. Передача в приложение ключа access_token для доступа к API.


На первый взгляд, набросать простенький портабельный скрипт не получится. Хотя, что мешает нам притвориться браузером?
Читать дальше →
Всего голосов 44: ↑35 и ↓9+26
Комментарии24

Основы анализа данных на python с использованием pandas+sklearn

Время на прочтение9 мин
Количество просмотров174K
Добрый день уважаемые читатели. В сегодняшней посте я продолжу свой цикл статей посвященный анализу данных на python c помощью модуля Pandas и расскажу один из вариантов использования данного модуля в связке с модулем для машинного обучения scikit-learn. Работа данной связки будет показана на примере задачи про спасенных с "Титаника". Данное задание имеет большую популярность среди людей, только начинающих заниматься анализом данных и машинным обучением.
Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Комментарии7

R: хороплет-карта России с увеличенной европейской частью

Время на прочтение4 мин
Количество просмотров15K

Коротко о главном: прочитал недавно пост infotanka. Полез на сайт Татьяны Мисютиной и подсмотрел там хороплет-карту России с увеличенной европейской частью. И ведь, действительно, классная идея. Удобно, наглядно. Захотелось сделать себе шаблон под R для таких же графиков. Ведь хорошие идеи должны размножаться делением?
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии13

Популярность тегов Хабра: какие тренды в постах?

Время на прочтение6 мин
Количество просмотров16K
HabrTrend
Доброго времени суток!

Сегодня речь пойдёт о том, как можно попробовать проследить тенденции. Глядя на то, как это делает google появилось желание сделать подобные тренды на основе тегов Хабра. Возможно, не все пользователи добросовестно расставляют теги, но допустив это как истину, можно получить неплохие результаты. Итак, давайте попробуем.
Читать дальше →
Всего голосов 54: ↑45 и ↓9+36
Комментарии14

Активные пользователи ВКонтакте и Twitter: рейтинг российских регионов

Время на прочтение4 мин
Количество просмотров14K
Как и обещали, публикуем данные по региональной активности пользователей Twitter и Вконтакте. В отличие от опросов общественного мнения, данное исследование позволяет проследить не декларативное поведение пользователей социальных сетей, а выделить ядро активных пользователей, формирующих информационный поток в сети. Больше всего пользователей, публикующих записи в социальных сетях ВКонтакте и Twitter, в Санкт-Петербурге и Москве.
Читать дальше →
Всего голосов 16: ↑10 и ↓6+4
Комментарии30

Обращение за советом к экспертам и коллегам (мобильные решения)

Время на прочтение2 мин
Количество просмотров3.1K
Мы рассчитывали, что ровно месяц назад станет доступным для бета-тестинга мобильная версия "Больше чем Reader". К сожалению, наш партнёр, достаточно известная московская компания-разработчик мобильных приложений с обязательствами по срокам не справляется даже для ненативной версии. Деньги подрядчику выплачивались, техника закуплена, стойки подключены, Платформа жужжит — а вот фронт-энда нет, планы-проекты с партнерами (включая спецпроект с Хабром) заморожены, участие в запланированных мероприятиях и конкурсах сорвано.
Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Комментарии6

Социальные сети в России, лето-2013: цифры, тренды, прогнозы

Время на прочтение4 мин
Количество просмотров43K
Привет, Хабр!

Наш проект растёт не по дням, а по часам и дорос-таки до создания целого корпоративного блога! За год нашего существования мы успели накопить серьезный опыт в области разработки систем класса OBD (Online Big Data) и рады поделиться им с вами. Поскольку наш блог представляет консорциум разно-индустриальных команд, то и темы публикаций будут весьма разнообразны — от разработки до лингвистики, от социологических исследований до системной инженерии, от аналитики до маркетинга.

А начать мы хотели бы со статьи о динамике проникновения социальных медиа в России и о наших прогнозах на ближайшее будущее соцмедиа, которые мы вместе сможем проверить уже через полгода. За первые 6 месяцев 2013 года количество публичных сообщений в русскоязычных соцмедиа, выросло в 1,5 раза и составило порядка 300 млн в месяц, а среднемесячное количество авторов публичных сообщений увеличилось на 4 млн человек.
Читать дальше →
Всего голосов 30: ↑21 и ↓9+12
Комментарии18

Активные авторы в социальных медиа: исследование по возрастным группам

Время на прочтение4 мин
Количество просмотров5.3K
Исследования общественного мнения в соцмедиа имеют право на жизнь только в том случае, когда анализируются не только тексты сообщений, но и социально-демографические характеристики их авторов. Неправильно было бы учитывать высказывания петербуржцев при исследовании проблем жителей Чукотки, нельзя учитывать мнения пользователей старше 45 для получения инсайтов о молодежном продукте или мнения пользователей младше 18 лет для прогнозирования результатов выборов. Мы уже публиковали информацию о распределении активных авторов по регионам России, а сегодня поделимся нашими новыми данными: под катом – первые результаты исследования о возрасте активных авторов социальных медиа.
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии0

Кто живет в соцсетях?

Время на прочтение8 мин
Количество просмотров75K

Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.
Читать дальше →
Всего голосов 131: ↑124 и ↓7+117
Комментарии115

От чего зависят оценки в техническом вузе?

Время на прочтение5 мин
Количество просмотров102K
Привет Хабр!

Когда-то давно мне стало интересно: насколько справедлива система оценок в большинстве наших технических вузов? И что вообще влияет на получаемую студентом оценку?
Ведь частенько студент, который ходил весь семестр, писал лекции и выполнял в срок лабораторные, получает «уд.» на экзамене, а везунчик-раздолбай отхватывает пятерку.
Насколько все это случайно? Как ни учись – оценку получишь «рэндомом»? Или все же нет? А если ты красивая девочка в короткой мини-юбке, каковы твои шансы по сравнению с парнями? (Исключительно фигура речи — никакого сексизма)
Под катом вы увидите результаты моего исследования, в котором я попытался ответить на эти и некоторые другие вопросы. Подопытными кроликами стали несколько тысяч студентов родного для меня вуза — МГТУ им. Н.Э. Баумана.

Заранее извиняюсь, если выбрал не тот хаб, а быть может и вовсе не должен был это писать на Хабре. Но поделиться хотелось.
Читать дальше
Всего голосов 103: ↑80 и ↓23+57
Комментарии126

ABBYY FlexiCapture Engine 10.0: тренируем гибкость с новым инструментом

Время на прочтение9 мин
Количество просмотров15K
В ряду наших продуктов для разработчиков пополнение – выпущена очередная версия ABBYY FlexiCapture Engine. Напомню, что это продукт, позволяющий встраивать технологию ввода данных из изображений (data capture) в пользовательские решения.

Одной из интересных фич новой версии стала возможность быстрой настройки на извлечение данных из документов простых типов. Мои коллеги уже рассказывали читателям хабра про то, как эта функция реализована во FlexiLayout Studio 10. В новую версию продукта добавлено API, дающее полный программный доступ к этой функциональности. Кроме этого мы сделали простой в использовании инструмент (доступный также в виде исходного кода), который позволяет всего за несколько минут (как показано вот в этом видео) настроиться на задачу пользователя и сделать быстрый работающий прототип решения, не вникая глубоко в тонкости технологии.

Эта статья написана разработчиком для разработчиков и расскажет вам о возможностях и ограничениях данной технологии – то, чего вы не найдёте в маркетинговых материалах.
Читать дальше →
Всего голосов 23: ↑18 и ↓5+13
Комментарии9

Классификация документов по их внешнему виду и содержанию

Время на прочтение4 мин
Количество просмотров11K
imageСегодня мы расскажем вам, как и зачем можно применять классификаторы для разделения и сортировки разных документов по их типам.

В компании ABBYY, помимо программистов, лингвистов, аналитиков и других разных полезных людей, есть много классификаторов. Конечно, классификаторы – не люди, а алгоритмы, но они выполняют работу, без которой качественное распознавание текста невозможно. Без них не обойтись на самых разных этапах обработки документов – от нахождения зон, содержащих текст на картинках, до распознавания конкретных символов в строчках с текстом.

Но на этом работа классификаторов не заканчивается.
Читать дальше →
Всего голосов 33: ↑25 и ↓8+17
Комментарии8

Python Tools для Visual Studio, о новинках из первых рук

Время на прочтение6 мин
Количество просмотров52K
Эта статья написана Павлом Минаевым int19h — разработчиком из команды PTVS специально для публикации в нашем корпоративном блоге на Хабрахабре. Делитесь вашими впечатлениями в комментариях. Все отзывы будут переданы команде.

Здравствуйте! Я – разработчик из команды Python Tools for Visual Studio. На днях мы выпустили новую бета-версию нашего продукта, и, воспользовавшись поводом, в этот раз я хотел бы поподробнее рассказать о том, что из себя представляет PTVS, и что он может вам предложить.

image
рассказ о новинках из первых рук...
Всего голосов 126: ↑119 и ↓7+112
Комментарии49

Инфодосье — социальные «пресс-портреты» Инфоротора

Время на прочтение1 мин
Количество просмотров1.2K
Представляем свои 5 копеек в копилку фактографических сервисов Рунета: Инфодосье. Нам, как и многим другим, неинтересно делать то, что уже кем-то сделано, поэтому наши «пресс-портреты» мало похожи на схожие по названию проекты :-)

Чем именно?
Во-первых, мы достаем данные не только о персонах, но и о компаниях.
Во-вторых, компании сгруппированы по видам деятельности, а персоны по профессиям.
В-третьих, все факты структурированы по типам.
В-четвертых, за любую цитату, действие, отставку, назначение, официальный документ можно проголосовать.
В-пятых, голосовать можно и за самих ньюсмейкеров, определяя их «карму».

На основе голосований составляется «социальный рейтинг» каждого объекта. А по количеству упоминаний строится рейтинг упоминаемости. Оба рейтинга доступны как для персон, так и для компаний.

Сервис пока в стадии «бета», поэтому не обращайте внимания на некоторые баги :-)
Всего голосов 20: ↑13 и ↓7+6
Комментарии2

Рекомендательная система: полезные задачи текстмайнинга

Время на прочтение4 мин
Количество просмотров14K
Я продолжаю цикл статей по применению текстмайнинг-методов для решения различных задач, возникающих в рекомендательной системе веб-страниц. Сегодня я расскажу о двух задачах: автоматическое определение категорий для страниц из RSS-лент и поиск дубликатов и плагиата среди веб-страниц. Итак, по порядку.

Автоматическое определение категорий для веб-страниц из RSS-лент


Обычная схема добавления веб-страниц (вернее, ссылок на них) в Surfingbird такова: при добавлении новой ссылки пользователь должен указать до трёх категорий, к которым принадлежит эта ссылка. Понятно, что в такой ситуации задача автоматического определения категорий не стоит. Однако, кроме ручного добавления, ссылки попадают в базу и из RSS-потоков, которые предоставляют многие популярные сайты. Поскольку ссылок, поступающих через RSS-потоки, очень много, зачастую модераторы (а в этом случае именно они вынуждены проставлять категории) просто не справляются с таким объёмом. Возникает задача создания интеллектуальной системы автоматической классификации по категориям. Для ряда сайтов (например, lenta.ru или sueta.ru) категории можно вытащить непосредственно из rss-xml и вручную привязать к нашим внутренним категориям:

image
image
Читать дальше →
Всего голосов 40: ↑37 и ↓3+34
Комментарии10

Рекомендательная система: достаем теги пользователей из соцсетей

Время на прочтение5 мин
Количество просмотров11K
Сегодня я расскажу о том, как можно использовать данные о пользователях из социальных сетей для рекомендаций веб-страниц на холодном старте. Все приведенные в статье результаты носят чисто экспериментальный характер и в настоящий момент не реализованы в продакшене. Здесь, как и в прошлой статье, будут использоваться элементы текстмайнига для анализа текстового контента веб-страниц.

Сначала немного статистики для того, чтобы показать важность настоящего исследования. Около 50% пользователей нашей системы регистрируются с привязкой аккаунтов социальных сетей vkontakte (VK) и facebook (FB). Причем из зарегистрированных через социальные сети 71% приходится на VK и 29% на FB.

API FB и API VK позволяют извлекать некоторые данные об интересах и предпочтениях пользователя. Но не все так просто, как может показаться. Для получения данных пользователя нужно получить особые права, согласие на которые дает сам пользователь при регистрации в системе. Здесь возникает тонкий момент. С одной стороны, мы ходим вытянуть как можно больше информации о пользователе. С другой стороны, просить слишком много прав — наглость, которая может отпугнуть пользователя. Нужно найти компромисс — тонкое равновесие между полезностью получаемых данных для улучшения рекомендаций и «суммой» кредита доверия от пользователя, который соглашается, чтобы мы залезли в его персональные данные.
Читать дальше →
Всего голосов 17: ↑13 и ↓4+9
Комментарии5

Запрограммируем перцептрон Розенблатта?

Время на прочтение17 мин
Количество просмотров30K
После одной провокационной статьи Перцептрон Розенблатта — что забыто и придумано историей? и одной полностью доказывающей отсутствие проблем в перцептроне Розенблатта, и даже наоборот показывающей некоторые интересные стороны и возможности Какова роль первого «случайного» слоя в перцептроне Розенблатта, я так думаю у некоторых хабражителей появилось желание разобраться, что же это за зверь такой — перцептрон Розенблатта. И действительно, достоверную информацию о нем, кроме как в оригинале, найти не возможно. Но и там достаточно сложно описано как этот перцептрон запрограммировать. Полный код я выкладывать не буду. Но попробуем вместе пройти ряд основ.

Начнем… ах да, предупреждаю, я буду рассказывать не классически, а несколько осовременено…

Читать дальше →
Всего голосов 51: ↑43 и ↓8+35
Комментарии211

Нейросети для чайников. Часть 2 — Перцептрон

Время на прочтение5 мин
Количество просмотров256K
image

В предыдущей статье были рассмотрены самые азы для понимания темы нейронных сетей. Полученная система не являлась полноценной нейронной сетью, а несла просто ознакомительный характер. Принимающими решения механизмами в ней были «черные ящики», не описанные подробно.
Вот о них речь и пойдет в рамках данной статьи. Результатом статьи будет полноценная нейронная сеть из одного перцептрона, умеющая распознавать входные данные и позволяющая себя обучать.

Язык программирования, на этот раз — C#.
Заинтересовавшихся прошу под кат.
Читать дальше →
Всего голосов 97: ↑86 и ↓11+75
Комментарии41

Перцептрон Розенблатта — что забыто и придумано историей?

Время на прочтение4 мин
Количество просмотров27K
На хабре — уже есть несколько статей про искусственные нейронные сети. Но чаще говорят о т.н. многослойном перцептроне и алгоритме обратного распространения ошибки. А знаете те ли Вы что эта вариация ничем не лучше элементарного перцептрона Розенблатта?

Например, вот в этом переводе Что такое искусственные нейронные сети? мы можем увидеть, что о перцептроне Розенблатта пишут такое:

Демонстрация персептона Розенблатта показала, что простые сети из таких нейронов могут обучаться на примерах, известных в определенных областях. Позже, Минский и Паперт доказали, что простые пресептоны могут решать только очень узкий класс линейно сепарабельных задач, после чего активность изучения ИНС уменьшилась. Тем не менее, метод обратного распространения ошибки обучения, который может облегчить задачу обучения сложных нейронных сетей на примерах, показал, что эти проблемы могут быть и не сепарабельными.


Причем это встречается на разный лад в различных статьях, книгах и даже учебниках.

Но это, наверно, самая великая реклама в области ИИ. А в науке это называется фальсификация.

Читать дальше →
Всего голосов 73: ↑64 и ↓9+55
Комментарии106

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность