How to become an author

Пантелеимон @pantlmn

книгоиздание

Profile Publications 3Comments 87Bookmarks 90

kirdin Aug 9 2018 at 09:00

Изучаем синтаксические парсеры для русского языка

19 min

38K

Сбер corporate blogProgramming*Machine learning*Artificial Intelligence

Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксический парсер для работы с русским языком. Для этого мы углубились в дебри морфологии и токенизации, протестировали разные варианты и оценили их применение. Делимся опытом в этом посте.

Читать дальше →

+31

drafterleo Jan 26 2016 at 13:13

Пирожки в дистрибутивной семантике

6 min

23K

Python*Semantics*

Уже несколько месяцев с любопытством гляжу в сторону дистрибутивной семантики — познакомился с теорией, узнал про word2vec, нашёл соответствующую библиотеку для Питона (gensim) и даже раздобыл модель лексических векторов, сформированную по национальному корпусу русского языка. Однако для творческого погружения в материал не хватало душезабирающих данных, которые было бы интересно через дистрибутивную семантику покрутить. Одновременно с этим увлечённо почитывал стишки-пирожки (эдакий синтез задиристых частушек и глубокомысленных хокку) — некоторые даже заучивал наизусть и по случаю угощал знакомых. И вот, наконец, увлечённость и любопытство нашли друг друга, породив воодушевляющую идею в ассоциативных глубинах сознания — отчего бы не совместить приятное с полезным и не собрать из подручных средств какой-нибудь «поэтичный» поисковик по базе пирожков.

из ложных умозаключений
мы можем истину сложить
примерно как перемножают
два отрицательных числа

Читать дальше →

+25

nanton Jul 19 2018 at 11:53

Семь простых правил, чтобы сделать Интернет доступным для всех

10 min

5.5K

InlyIT corporate blogAccessibility*Usability*Web design*Interfaces*

Translation

Под доступностью в цифровой среде понимают практики для создания цифрового контента и приложений, которые были бы пригодны для использования широким кругом людей, включая и тех, кто страдает нарушениями зрения, двигательных функций, слуха, речи или же когнитивных способностей.

Существует ложное убеждение, что сделать сайт доступным можно только вложив много сил и средств, но это вовсе не обязательно. Если проектировать проект с самого начала с учетом соответствующих требований, добавлять какие-то особые функции и контент не понадобится, а значит, не будет и дополнительных затрат.

Если же речь идет о том, чтобы исправить погрешности на уже имеющемся сайте, то здесь придется приложить некоторые усилия. Когда я работал в компании Carbon Health, мы как-то раз проверили сайт на доступность при помощи особого расширения в Chrome. Уже на главной странице обнаружилось 28 нарушений, которые необходимо было устранить. На первый взгляд показалось, что это будет очень трудоемкий процесс, но вскоре выяснилось, что внести правки будет не так уж и сложно — нужно только вложить время и разобраться в основах. Нам удалось свести количество нарушений к нулю всего за пару дней.

Я хочу поделиться некоторыми простыми шагами, которые мы предприняли и которые возможно, помогут и вам. Эти принципы рассчитаны, в первую очередь, на мобильные и веб-приложения. Но прежде чем начать, давайте выясним, зачем это нужно.

Читать дальше →

+15

m1rko May 13 2018 at 20:10

Два пробела лучше, чем один? Отзыв на новое исследование

12 min

16K

Translation

Несколько человек попросили меня прокомментировать новое научное исследование под названием «Два пробела лучше, чем один? Воздействие интервалов после точек и запятых в процессе чтения», проведённое Ребеккой Джонсон, Бекки Буй и Линдсей Шмитт.

С очевидным противоречием правилу Беттериджа исследование утверждает, что два пробела после точки упрощают чтение. Оно также противоречит моему давнему совету использовать только один пробел между предложениями.

Поскольку исследование стоит $39,95 за PDF, я уверен, что скептики из социальных сетей поспешили объявить победу двух пробелов, не купив и не прочитав саму работу. Но я сделал и то, и другое.

(По секрету для исследователей двух пробелов: предлагаю подумать о бесплатной публикации документа, поскольку это может быть последний раз, когда тема вашей научной работы следует массовой интернет-одержимости).

Действительно, авторы обнаружили, что два пробела после точки дают «небольшое», но «статистически… значимое» улучшение скорости чтения — примерно на 3% — но любопытно, что только у тех читателей, которые уже сами используют два пробела после точки при печати. Для обычных «однопробельников» никакого улучшения не замечено.

Читать дальше →

+10

m1rko Mar 12 2018 at 13:44

Выбираем веб-шрифты: руководство для начинающих

11 min

64K

Web design*Website development*Typography*

Translation

Устраните элемент таинственности в выборе шрифтов с нашим пошаговым руководством

Если всё сделать правильно, то типографика становится невероятно мощным инструментом. Обратимся к сочинениям Роберта Брингхёрста, чья книга «Основы стиля в типографике» (The Elements of Typographic Style) десятилетиями служила остроумным справочником для профессионалов. Там вы найдёте возвышенную формулировку ремесла. По Брингхёрсту, типографика «существует для уважения контента», а правильная типографика «показывает каждый элемент, каждое отношение между элементами и каждый логический нюанс текста».

Может, эти слова кажутся вдохновляющими или пугающими. Но очевидный факт в том, что правильный выбор типографики всегда отражает конкретные потребности самого проекта. Это не только эстетические потребности, но также технические и функциональные — и очень разные сообщения вы можете создать из фрагментов текста, прокручивая выпадающий список от Alegreya до Zapf Dingbats. Некоторые шрифты лучше работают в заголовках, а другие хорошо читаются в абзацах. Некоторые семейства достаточно велики, чтобы вместить международные алфавиты и специальные символы. И если шрифт идёт в разных стилях (например, курсив или малые прописные) и начертаниях (от тончайшего Hairline до ультра-чёрного), то по мере сборки проекта он предоставит больше возможностей для тонкой настройки дизайна.

Конечно, есть о чём подумать, но некоторые из наиболее важных соображений — это практические и функциональные особенности проекта. Начав с уже известных вещей и пройдя по следующим пунктам, вы найдёте шрифт, который соответствует вашим нуждам.

Читать дальше →

+8

ylian_demakova Feb 15 2018 at 09:08

Как мы перевернули календарь и сделали из него арт-объект

4 min

9.2K

Контур corporate blogWeb design*Graphic design*

В Контуре работает 54 дизайнера, которые проектируют интерфейсы продуктов для каждой четвёртой компании в России. А ещё наши дизайнеры пишут Гайды, где делятся своим опытом. И вот уже больше года ребята создают календари, которые наделали шума в компании.

Что такое проект «Календарь» и как к нему отнеслись контуровцы, расскажет Юлия Красильникова, куратор проекта и проектировщик Контур.Маркета.

В 2016 году Сергей Соловьев, руководитель всех продуктовых дизайнеров, придумал календарный проект, чтобы наши дизайнеры смогли отвлечься от повседневных дел и проявить фантазию, свободную от рамок. Мы хотели сделать не просто ориентир во времени и пространстве для внутреннего пользования, а настроение, своеобразный дух месяца. Сейчас в проекте 15 календарей, каждый из которых — это личная ассоциация автора с выбранным месяцем, творческое послание или необыкновенная идея.

Заглянуть в мастерскую художника...

+20

maisvendoo Feb 9 2015 at 19:57

Оформление научных результатов: интеграция LaTeX и Gnuplot

6 min

45K

Open source*LaTeX*Data visualization*

«Если ваш единственный инструмент — молоток, то каждая проблема становится похожей на гвоздь»

Абрахам Маслоу

Введение

Научное творчество само по себе процесс не тривиальный, требующий некоторого отрешения от внешнего мира. И нелинейный в плане распределения интенсивности во времени — порой проболтаешься впустую полгода, чтобы потом, в течение месяца-полутора решить большую часть беспокоящих тебя вопросов.

И вот, ты на 100% использовал возможности посетившей тебя «эврики», закончил основную работу и пришла пора опубликовать свои результаты в журнале, доложить их на конференции, да и просто порадовать своего научного руководителя/консультанта красивым отчетом. И ты приступаешь к мучительной фазе оформления статьи/доклада/отчета. И насколько мучительной будет эта фаза, зависит от того, какие инструменты ты решил использовать для этой работы.

Вспоминаю времена, когда молодым и глупым аспирантом, я писал первый вариант кандидатского «кирпича», предназначенный для тщательного «вычитывания» мной и моим научным руководителем. Тогда я не знал о формате EPS, а поэтому экспортировал графики, построенные в Maple в *.bmp-растр и вручную… обводил их в MS Visio для последующей вставки в Word. Были и другие, не менее топорные глупости. Не удивительно, что тогда я проклял всё, и дал себе слово следующую диссертацию писать совершенно по другому.

Путем последовательных итераций, на сегодняшний день я пришел к такому вот решению:

И настало время отдать накопленный опыт людям. Интересующимся, добро пожаловать под кат.

Читать дальше →

+43

blognetology Feb 6 2018 at 12:57

Веб-типографика: создаем таблицы для чтения, а не для красоты

12 min

22K

Нетология corporate blogWeb design*Typography*

Translation

Наталия Шергина, фрилансер-редактор и студентка Нетологии, специально для блога перевела лонгрид Richard Rutter о типографике веб-таблиц.

Хорошие дизайнеры не жалеют времени на типографику. Они тщательно подбирают шрифты, перебирают множество типографических шкал и скрупулезно применяют пробелы (white space) ради удобства пользователя. Затем появляется соблазн покреативить — и вот все мысли уже не о пользователе. Однако таблицы нужны в первую очередь, чтобы их читали и использовали, а не просто любовались.

Читать дальше →

+32

StarHunter Feb 12 2018 at 23:56

Верстка сборника тезисов конференции в LaTeX

3 min

9.1K

В конце прошлого года в Ракетно-Космической Корпорации "Энергия" прошла конференция молодых ученых и специалистов. Автор этой статьи входил в состав секретариата, в частности выполнял функцию верстки сборника тезисов. Описание возникших проблем и путей их решения под катом.

Читать дальше →

+20

survivorm Feb 5 2018 at 15:03

Парсеры, обработка текста. Просто о сложном. CFG, BNF, LL(k), LR(k), PEG и другие страшные слова

19 min

47K

Python*Algorithms*

Наверное, каждому программисту приходилось сталкиваться с задачами вида «прочитать что-то в формате А и произвести с ним некие манипуляции». Будь то json, логи nginx, cfg, sql, yaml, csv или что-то еще. Хорошо, когда можно воспользоваться библиотекой, однако, по разным причинам, это удается не всегда. Тогда и встает вопрос создания собственного парсера для заданного формата. И это, как говорят англичане, часто оказывается PITA (болью в ...). В этой статье я постараюсь облегчить эту боль. Кому интересно, добро пожаловать.

Читать дальше →

+41

NIX_Solutions Jan 30 2018 at 11:03

Анатомия тысячи шрифтов

10 min

31K

NIX corporate blogWeb design*Interfaces*Typography*

Translation

Перевод статьи The anatomy of a thousand typefaces.

Даже годы спустя после выхода фильма Avatar остаётся кое-что, с чем не может справиться даже Райан Гослинг — использование шрифта Papyrus в логотипе фильма. В пародии, снятой Saturday Night Live, дизайнер шрифтов открывает меню, перебирает шрифты и случайным образом выбирает Papyrus.

Главная проблема выбора шрифтов — одновременно слишком много и слишком мало вариантов.

С одной стороны, выбор только из системных шрифтов может привести к плохому решению, потому что среди стандартных шрифтов ничего интересного просто не представлено.

С другой стороны, библиотеки веб-шрифтов с сотнями и тысячами наименований поражают изобилием, что иногда приводит к парадоксальным выборам шрифтов.

+31

Olga_ol Dec 7 2017 at 16:27

Мастер-класс «Почему Стив Джобс любил шрифты» (Алексей Каптерев)

19 min

217K

VK corporate blogGraphic design*Typography*Studying in IT

Tutorial

Привет, Хабр! Давно у нас в блоге не было расшифровок мастер-классов. Исправляемся. В этом посте вас ждет грандиозное путешествие в мир шрифтов от древнейших времен до наших дней. Если вы хотите понять, каким образом шрифты влияют на наши эмоции и наконец научиться отличать гуманистический гротеск от ленточной антиквы — добро пожаловать под кат. И да, там очень много картинок. Передаем слово автору.

Шутка, написанная гарнитурой Times, на 10 % смешнее той, что написана гарнитурой Arial. Почему? Чёрт знает. Лучшее объяснение, которое я видел: юмор ассоциируется с агрессией, с остротой, с остроумием — а Times выглядит более острым, чем Arial.

Ещё один любопытный эксперимент, в котором участвовало 45 тыс. человек. Заходишь на сайт, тебе показывают статью Дэвида Дойча, британского физика. В статье автор пишет, что сегодня очень трудно внезапно умереть. Например, от инфекционного заболевания или в уличной драке. Лет сто назад это случалось намного чаще. Главный вывод статьи — сейчас мир безопасен как никогда. В среднем, конечно, ведь где-то постоянно идут локальные военные конфликты.

+192

SlavikMIPT Nov 30 2017 at 17:48

Биороботы нашего времени — избавляемся от рутины вместе с Telegram. Реальный кейс без фантазий

5 min

28K

VDS.SH / DEDIC.SH corporate blogPHP*Python*Interfaces*Image processing*

В интернетах не прекращается хайп вокруг чат-ботов (в частности, Telegram) благодаря шуму в СМИ, неоспоримых достоинствах платформы, политике продвижения, средствам разработки и т.д.

Смотришь новости: ну жизни нет без чат-ботов!
Да если их не будет, поезда с рельс сойдут, упадут самолеты, погибнут люди от тоски, когда не смогут найти картинки с котиками.

Но давайте положим руку на сердце: когда последний раз вы что-то заказывали в интернет-магазине через чат-бот?

Кто все эти люди, которые заказывают разработку ботов для своих магазинов?

Типичный чат-бот магазина Vasya Limited:
>> автоматизирует ~~поток~~ водопад заявок из 5 человек в день,
>> сливает 4 из 5 заявок, кровью добытых через Яндекс-Директ,
>> если повезет, человек найдет номер телефона и позвонит,
>> но, вероятней всего, «Эээ, куда жать?», а потом закроет и уйдет гуглить дальше.

Чем занят владелец, когда продажи «автоматизированы»:
>> вносит заказы в excel-таблицу
>> заполняет почтовые бланки на посылках
>> стоит в очереди на почте с кучей посылок (каждый день!)
>> вносит трек номера в excel-таблицу, затем рассылает клиентам

Может, хватит на ровном месте встраивать «технологии» туда, где действительно нужен человек, в то время как люди загружены рутиной для роботов?

Читать дальше →

+66

grigoryvp Jun 9 2009 at 12:23

Regexp и Python: извлечение токенов из текста

9 min

84K

Tutorial

Разбор логов и конфигурационных файлов — задача часто возникающая и многократно описанная. В этой статье я расскажу как на языке python реализовать ее классическое решение: с помощью регулярных выражений и именованных групп. По возможности постараюсь рассказать причины, по которым применяется то или иное решение, а также обрисовать подводные камни и методы их обхода.

Читать о том, как препарируют текст

+29

av0000 Apr 12 2011 at 16:15

Как я боролся с кодировками в консоли

6 min

172K

В очередной раз запустив в Windows свой скрипт-информер для СамИздат-а и увидев в консоли «загадочные символы» я сказал себе: «Да уже сделай, наконец, себе нормальный кросс-платформенный логгинг!»

Об этом, и о том, как раскрасить вывод лога наподобие Django-вского в Win32 я попробую рассказать под хабра-катом _{(Всё ниженаписанное применимо к Python 2.x ветке)}

Читать дальше →

+49

makasin4ik Oct 13 2017 at 14:44

10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России

8 min

371K

Инструменты web scraping (парсинг) разработаны для извлечения, сбора любой открытой информации с веб-сайтов. Эти ресурсы нужны тогда, когда необходимо быстро получить и сохранить в структурированном виде любые данные из интернета. Парсинг сайтов – это новый метод ввода данных, который не требует повторного ввода или копипастинга.

Такого рода программное обеспечение ищет информацию под контролем пользователя или автоматически, выбирая новые или обновленные данные и сохраняя их в таком виде, чтобы у пользователя был к ним быстрый доступ. Например, используя парсинг можно собрать информацию о продуктах и их стоимости на сайте Amazon. Ниже рассмотрим варианты использования веб-инструментов извлечения данных и десятку лучших сервисов, которые помогут собрать информацию, без необходимости написания специальных программных кодов. Инструменты парсинга могут применяться с разными целями и в различных сценариях, рассмотрим наиболее распространенные случаи использования, которые могут вам пригодиться. И дадим правовую оценку парсинга в России.

Читать дальше →

+15

alizar Dec 29 2014 at 15:59

Сравнение Word и LaTeX по удобству и эффективности

2 min

19K

На кафедре психологии, экспериментальной психологии и когнитивных наук университета Гиссена (Германия) провели сравнительное исследование текстовых редакторов LaTeX и Microsoft Word по удобству и эффективности при подготовке документов (научных статей).

В рамках исследования 40 учёных из разных научных дисциплин готовили статьи в Microsoft Word или LaTeX. Тестовая статья включала в себя блоки непрерывного текста, текст с таблицами и подзаголовками, а также сложный текст с математическими выражениями.

Исследование выявило, что пользователи LaTeX работают медленнее, чем пользователи Microsoft Word, набирают меньше текста за то же время, допускают больше опечаток, орфографических и грамматических ошибок, а также ошибок форматирования. По большинству параметров даже эксперты по LaTeX показывают худшую производительность, чем новички в Word.

С другой стороны, пользователи LaTeX чаще сообщали об удовольствии от использования программного обеспечения, чем пользователи Word. Кроме того, LaTeX показал лучший результат в наборе текста с формулами.

Читать дальше →

+1

lovermann Jan 23 2007 at 03:27

Библиотеки, свободный доступ к информации и открытое ПО

4 min

3.9K

Фактически мой перевод статьи Тины Бурген (Tina N. Burgen) Libraries facilitate open access to information with open source software, опубликованной на Linux.com (22.01.2007).

Открытое ПО и библиотеки на самом деле имеют много общего. На не последнем месте стоит и вера в свободный и открытый доступ к информации и идеям. До недавнего времени библиотеки не пользовались всеми выгодами, предоставляемыми open source-программами. Причиной тому является слишком специализированное программное обеспечение и стандарты, которое используют библиотеки: это и межбиблиотечные абонементы, и работа с мета-данными, и объединённый поиск. До недавнего времени, нехватка платной поддержки существенно препятствовала установке и настройке открытого ПО, особенно, когда у библиотеки нет своего IT-отделения. Поэтому open source-альтернатива была часто вне зоны внимания. Сейчас финансирование улучшилось и спонсирование разработки положительно сказалось на совместной работе библиотек.

Читать дальше →

+3

kmike Jan 18 2009 at 07:21

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

8 min

54K

Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.

Читать дальше →

+103

worldmind Oct 5 2017 at 18:20

Семантическая разметка: LaTeX, DocBook или ???

4 min

19K

Semantics*XSLT*XML*Open source*LaTeX*

Писал комментарий к статье и понял, что надо выносить в отдельный пост.
Как многие отмечают там в комментариях статья отстой, человек не разбирается и смешал всё в кучу, попробую поделиться своими выводами от использования разных разметок.

Читать дальше →

+11

3