Articles / Bookmarks / Profile of nevmenandr / Habr

Борис Орехов @nevmenandr

Компьютерный лингвист

ProfileArticles6PostsNewsComments397

Anatoliy_Karpov Jun 23 2015 at 13:32

Визуализация результатов в R: первые шаги

5 min

31K

Stepik.org corporate blogData Mining * R * Data visualization *

В одном из предыдущих постов мы уже писали о центральном понятии в статистике — p-уровне значимости. И пока в научной среде не утихают споры об интерпретации p-value, значительная часть исследований проводится именно с использованием p-value для определения значимости полученных в исследовании различий. Сегодня же мы поговорим о самом творческом этапе обработки данных — как же значимые различия визуализировать.

Читать дальше →

+16

1cloud Nov 6 2015 at 16:36

Как устроена профессия «Data Scientist»

4 min

24K

1cloud.ru corporate blogBig Data * Data Mining * Algorithms * Programming *

Помимо рассказов о собственном опыте работы над оптимизацией различных сервисов нашего IaaS-провайдера мы анализируем западный опыт. От управления проектами до технологических кейсов, о которых рассказывают другие ИТ-компании.

Сегодня мы решили взглянуть на профессию, которая связана с непосредственной работой с данными, и обратили внимание на заметку Филиппа Гуо (Philipp Guo), который работает в университете Рочестера «ученым по данным».

Читать дальше →

+12

nurumaik Nov 7 2015 at 06:11

Как я победил в конкурсе BigData от Beeline

7 min

88K

Machine learning *

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.

Читать дальше →

+83

qc-enior Oct 1 2015 at 05:51

Визуализация статических и динамических сетей на R, часть 5

3 min

6.5K

Инфопульс Украина corporate blogData Mining * R * Data visualization *

Tutorial

Translation

В первой части:

визуализация сетей: зачем? каким образом?
параметры визуализации
best practices — эстетика и производительность
форматы данных и подготовка
описание наборов данных, которые используются в примерах
начало работы с igraph

Во второй части: цвета и шрифты в графиках R.

В третьей части: параметры графов, вершин и ребер.

В четвертой части: размещения сети.

В этой части: акцентирование свойств сети, вершин, ребер, путей.

Читать дальше →

+8

Durham Apr 29 2015 at 12:54

Chatbot на нейронных сетях

5 min

61K

MeanoTek corporate blogMachine learning * Semantics * Website development *

Недавно набрел на такую статью. Как оказалось некая компания с говорящим названием «наносемантика» объявила конкурс русских чатботов помпезно назвав это «Тестом Тьюринга»». Лично я отношусь к подобным начинаниям отрицательно — чатбот — программа для имитации разговора — создание, как правило, не умное, основанное на заготовленных шаблонах, и соревнования их науку не двигают, зато шоу и внимание публики обеспечено. Создается почва для разных спекуляций про разумные компьютеры и великие прорывы в искусственном интеллекте, что крайне далеко от истины. Особенно в данном случае, когда принимаются только боты написанные на движке сопоставления шаблонов, причем самой компании «Наносемантика».

Впрочем, ругать других всегда легко, а вот сделать что-то работающее бывает не так просто. Мне стало любопытно, можно ли сделать чатбот не ручным заполнением шаблонов ответа, а с помощью обучения нейронной сети на образцах диалогов. Быстрый поиск в Интернете полезной информации не дал, поэтому я решил быстро сделать пару экспериментов и посмотреть что получится.

Читать дальше →

+19

Durham Jun 2 2015 at 11:21

Автоматическая генерация осмысленных уникальных текстов

6 min

96K

MeanoTek corporate blogSemantics * Search engines * Machine learning * Website development *

Каждый веб-оптимизатор знает, что для того чтобы сайт любили поисковики, он должен содержать уникальные тексты. Причем не абы какие наборы слов, а осмысленные предложения, желательно по теме сайта. Особо это проблема для агрегаторов, которые берут информацию с других сайтов, и интернет-магазинов, где параметры и данные о товарах в целом одинаковые. Поэтому стандартная практика в этой ситуации — заказывать уникальные тексты копирайтерам. Стоимость такого удовольствия от 50 до 300 руб. за 1000 знаков. Если на вашем сайте 10000 страниц, то уникальные тексты быстро становятся значительной статьей расхода.

В этой статье поговорим методах алгоритмической генерации текстов и расскажем о нашем опыте работы с ними.

Читать дальше →

+20

Dreadatour Sep 24 2015 at 07:58

19 советов по повседневной работе с Git

14 min

289K

VK corporate blogProgramming * Website development * Git *

Tutorial

Translation

Если вы регулярно используете Git, то вам могут быть полезны практические советы из этой статьи. Если вы в этом пока новичок, то для начала вам лучше ознакомиться с Git Cheat Sheet. Скажем так, данная статья предназначена для тех, у кого есть опыт использования Git от трёх месяцев. Осторожно: траффик, большие картинки!

Содержание:

Параметры для удобного просмотра лога
Вывод актуальных изменений в файл
Просмотр изменений в определённых строках файла
Просмотр ещё не влитых в родительскую ветку изменений
Извлечение файла из другой ветки
Пара слов о ребейзе
Сохранение структуры ветки после локального мержа
Исправление последнего коммита вместо создания нового
Три состояния в Git и переключение между ними
Мягкая отмена коммитов
Просмотр диффов для всего проекта (а не по одному файлу за раз) с помощью сторонних инструментов
Игнорирование пробелов
Добавление определённых изменений из файла
Поиск и удаление старых веток
Откладывание изменений определённых файлов
Хорошие примечания к коммиту
Автодополнения команд Git
Создание алиасов для часто используемых команд
Быстрый поиск плохого коммита

Читать дальше →

+145

SLY_G Sep 12 2015 at 17:31

Как не потратить незаметно для себя несколько гигабайт трафика, если вы не хотите обновляться до Windows 10

2 min

44K

На этой неделе стало известно, что Microsoft Windows версий 7 и 8 закачивают на компьютеры пользователей обновление до Windows 10, даже если они этого не просили. Компания подтвердила, что это поведение системы было преднамеренным. Подробнее об этих событиях и о том, как найти и удалить нежелательные обновления, мы расскажем вам без регистрации и смс.

Как выяснили пытливые пользователи системы, подобный казус может случиться с теми пользователями, кто включил автоматическое обновление системы. В компании Microsoft посчитали, что такого повода достаточно для того, чтобы автоматически скачать обновление целой операционки объёмом до 6 Гб и обновить систему пользователя.

Во всём повинно обновление KB3035583, выводящее в трей значок, приглашающий обновить систему до 10-й версии. В то время как жаждущие новых приключений пользователи, у которых этот значок почему-то не появлялся, пытались вызвать его разными способами, более консервативные пользователи, совсем не желавшие обновляться, столкнулись с принуждением в этом вопросе.

По отзывам пользователей, Microsoft не просто придумала новый способ обновления систем, но решила сделать его ещё и крайне настойчивым. Кто-то жаловался на то, что Internet Explorer прописал себе домашней страницей MSN, и каждый раз при загрузке этой страницы выводил закрывающий её баннер с предложением (требованием?) немедля получить обновление до Windows 10.

А один из пользователей пожаловался в издание The Inquirer, что начал копаться в системе после того, как его медленный DSL-интернет неделю ползал со скоростью хромой черепахи на пенсии. Он нашёл в каталоге «Windows» скрытый каталог "$Windows.~BT", который имел размер в несколько гигабайт.

Читать дальше →

+34

GMorozov Sep 9 2015 at 10:50

Как за месяц сильно прокачаться в Data Science

12 min

44K

MLClass corporate blogBig Data * Data Mining * Mathematics * Programming *

Привет, хабр!

Меня зовут Глеб, я долгое время работаю в ритейловой аналитике и сейчас занимаюсь применением машинного обучения в данной области. Не так давно я познакомился с ребятами из MLClass.ru, которые за очень короткий срок довольно сильно прокачали меня в области Data Science. Благодаря им, буквально за месяц я стал активно сабмитить на kaggle. Поэтому данная серия публикаций будет описывать мой опыт изучения Data Science: все ошибки, которые были допущены, а также ценные советы, которые мне передали ребята. Сегодня я расскажу об опыте участия в соревновании The Analytics Edge (Spring 2015). Это моя первая статья — не судите строго.

Читать дальше →

+22

ssh1 Sep 11 2015 at 07:48

Зaчем мне AshleyMadison, если я не курю?

5 min

31K

Machine learning * Programming * Data Mining * Big Data * Mathematics *

Как вы все уже наверное знаете, недавно были выложены дампы баз AshleyMadison. Я решил не упускать возможность и проанализировать реальные данные дейтинг платформы. Попробуем предсказать платежеспособность клиента по его характиристикам таким как возраст, рост, вес, привычки и т.д.

Попробуем?

Читать дальше →

+19

DreamWalker Nov 2 2012 at 11:12

Шаблон диссертации в LaTeX

1 min

60K

Недавно я начал нелёгкое дело по вёрстке диссертационной работы в LaTeX-е. Естественным первым желанием было найти какой-нибудь готовый шаблон. Увы, я не нашёл ничего, что подходило бы под мои нужны. Поэтому я решил сделать свой шаблон (с преамбулой и макрокомандами)! Сразу скажу по поводу соответствия шаблона ВАК-овским требованиям: строгих требований нет (можете сами посмотреть список нормативных документов). Однако определённые требования могут быть у конкретного совета (но они, как правило, весьма похожи и соответствуют здравому смыслу). В своём шаблоне я постарался учесть общие тенденции в оформлении такого рода работ. Не буду приводить кучу технических особенностей вёрстки в LaTeX (на эту тему и так хватает статей), а просто поделюсь готовым результатом: GitHub.

Почитать о содержимом шаблона

+63

jzha Aug 29 2015 at 07:54

Ко-кластеризация: cегментирование данных вдоль и поперёк

6 min

11K

Open data * Data visualization * R * Data Mining *

Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.

Читать дальше →

+9

kotomanov Feb 17 2009 at 12:05

Использование цвета в LaTeX

5 min

85K

Сегодня я хочу вам представить ещё одну статью, посвящённую графическим возможностям издательской системы LaTeX. На сей раз речь пойдёт о цвете. Чаще всего эти возможности LaTeX игнорируются, так как доля цветных публикация довольна мала. К тому же чрезмерное использование цвета может только навредить — пёстрый многоцветный документ трудно читать и смотрится он малопривлекательно. Но умелое использование цвета может очень способствовать восприятию контента: выделение заголовков, подзаголовков, цитат, важных частей текста и даже ячеек таблиц помогает быстро уловить суть, не вчитываясь в подробности.
Так что кому стало интересно, жмём по ссылке:

Читать дальше →

+15

DmitrySolomennikov Feb 23 2010 at 11:00

LaTeX + диплом

10 min

24K

Продолжаем тему LaTeX + диплом.

Понадобилось мне написать диплом. Времени в обрез, требования жесткие. Материал есть, текст почти готов, надо оформлять. Сел, подумал, и решил, что ручной версткой уж точно заниматься не хочется. Из опыта участия во всевозможных олимпиадах вспомнилось, что лучше час потерять, но сделать решение, которое потом пройдет тесты, чем сразу сделать что-то и потому судорожно переделывать. Плюс к тому хотелось таки заняться плотным изучением Latex и компании.

Читать дальше →

+17

Skiminok May 28 2012 at 07:53

Диплом бакалавра в LaTeX, или ДСТУ 3008-95 в 150 строк

21 min

145K

Всем привет. Недавно меня тоже настигла переломная веха студенческой жизни — бакалаврская дипломная работа. Среди многих формальных деталей этого замечательного явления особо заметным стоит нормоконтроль. Нет, я понимаю и всячески поддерживаю, что стандарты необходимы, в том числе стандарты на оформление академического текста. Просто наши стандарты, в отличие от западных, достаточно идиотичны. Они не экономят ни чернила, ни бумагу, они не упрощают поиск литературы по номенклатуре, а усложняют чтение названия. Не говоря уже о том, что текст стандарта спроектирован и описан людьми, работающими в редакторе Microsoft Word. Опять-таки, я не имею ничего против Word, это мощнейшая система. Но технический текст в нем набирать неудобно, и по гибкости он во много раз проигрывает бессмертному творению Дональда Кнута — LaTeX.

Итак, мое написание диплома началось с того, что я потратил 4 часа на настройку преамбулы под нормы украинского стандарта оформления ДСТУ 3008-95. Насколько мне известно, он почти полностью соответствует русскому ГОСТу. Я знал, что существуют готовые решения (например, disser), но после пары проб предпочел настроить каждую деталь самостоятельно. Для тренировки. Тренировка удалась — я узнал бездну новых вещей о LaTeX, этого монстра невозможно выучить полностью :-)

Под катом я полностью опишу процесс настройки каждой конкретной детали и использование их при написании, а также разные мелочи, упрощающие написание диплома еще больше. Сразу предупреждаю: где-то мои решения могут показаться костылями. Где-то они не слишком универсальны. Я это знаю, понимаю, принимаю и приветствую критику и предложения в комментариях ;-)

Читать дальше →

+97

Anya_Startseva Sep 9 2015 at 03:08

50+ полезных ресурсов для самообучения

6 min

126K

learning

На сегодняшний день, когда информация стала доступна как никогда и получить новые знания проще простого, у нас появилась другая проблема: как фокусироваться и структурировать новые знания, если отсутствуют внешние ограничения вроде экзамена или необходимости подготовки к уроку?
И снова нас спасают разработчики и интернет, где появляется все больше открытых университетов, онлай-курсов, лекций и сервисов организации своего обучения.
Я решила собрать в одном месте ссылки на ресурсы дистанционного обучения и другие полезные сервисы на английском и русском языках, большинство из которых бесплатны. Не было цели охватить все, но если вы считаете, что в список нужно что-то добавить –, пожалуйста, напишите в комментариях.

Читать дальше →

+22

atikhonov Sep 7 2015 at 09:01

Визуализация рынка соискателей с помощью R

3 min

15K

Data visualization * R * Data Mining *

Рынок труда представляет собой классическое формирование спроса и предложения на рабочую силу. И если со стороны спроса на труд, многие кадровые агентства и порталы по поиску работы представляют собой некоторую аналитику по имеющимся предложениям (правда, не всегда в необходимом виде). То со стороны предложения (соискателей) аналитики гораздо меньше, да и та, что есть, не является универсальной для каждого, и чаще всего представляет собой просто срез по желаемому доходу в каких-то общих сферах, или просто по названию резюме.

Мне же был интересен инструмент, который по произвольной выборке резюме (по названию, ключевым словам и прочее) показывал бы основные характеристики такой выборки, распределение зарплат, возрастов, и многое другое, как в графическом виде, так и виде произвольных перцентилей. Итог моего желания, ниже под катом.

Читать дальше →

+9

okazymyrov Jan 19 2012 at 22:33

Gephi как средство визуализации данных

4 min

51K

Так уж случилось, что я оказался ассистентом у профессора в университете. Никогда не думал, что прийдётся сталкиваться с оценкой рисков и визуализацией данных, будучи, по призванию, криптографом. Курс называется «Информационные сети» и включает в себя: анализ случайных процессов, моделирование малых миров; компьютерные алгоритмы для оценки свойств сети; экспериментальные исследования крупных сетей, а также анализ рисков, которые трудно предсказать.

В виду того, что курс читается в основном для ИТ-шников, лектор сделал ставку на то, чтобы дать достаточно теории с минимумом математики и большим количеством практики. Для большинства вышеупомянутых задач подходит программа NetLogo. Она включает собственный язык программирования высокого уровня, который позволяет с лёгкостью моделировать различные случайные процессы. Для визуализации разнообразных данных была выбрана программа Gephi.

На основе опыта использования последней и была написана статья, в которой рассматривается получение входных данных для ПО с последующей их визуализацией.

Собственно постановка задачи была таковой: визуализация каких-либо реальных данных средствами Gephi.

Читать дальше →

+29

Elsedar Jan 10 2012 at 10:48

Моделирование большого количества взаимодействующих друг с другом частиц

6 min

31K

Tutorial

Рассмотрим ситуацию, когда необходимо обрабатывать столкновения между объектами. Как вы в этом случае поступите? Вероятно, самым простым решением будет проверить каждый объект с каждым другим объектом. И это правильное решение, и все будет замечательно до тех пор пока объектов не много. Как только их станет порядка нескольких тысяч, вы заметите, что все стало как-то медленно работать. А если частиц несколько десятков тысяч или сотен? Тогда все замрет. Вот здесь уже интересно, на какие хитрости и оптимизации вы пойдете, чтобы решить такую проблему.

Для простоты, будем рассматривать 2D случай, частицы круглые, радиус частиц у всех одинаковый.

Содержание

1. Обзор алгоритмов
1.1. Полный перебор
1.2. Sweep & Prune
1.3. Регулярная сеть
2. Некоторые оптимизации
2.1. Sweep & Prune
2.2. Регулярная сеть
3. Сравнение скорости выполнения
4. Приложение (программа и исходный код)
5. Заключение

Читать дальше →

+143

Paul_Smith May 1 2012 at 13:52

Нейросети для чайников. Начало

5 min

811K

Algorithms * Programming *

Так получилось, что в университете тема нейросетей успешно прошла мимо моей специальности, несмотря на огромный интерес с моей стороны. Попытки самообразования несколько раз разбивались невежественным челом о несокрушимые стены цитадели науки в облике непонятных «с наскока» терминов и путанных объяснений сухим языком вузовских учебников.

В данной статье (цикле статей?) я попытаюсь осветить тему нейросетей с точки зрения человека непосвященного, простым языком, на простых примерах, раскладывая все по полочкам, а не «массив нейронов образует перцептрон, работающий по известной, зарекомендовавшей себя схеме».

Заинтересовавшихся прошу под кат.

Читать дальше →

+193

4