Pull to refresh
14
0
Пантелеимон @pantlmn

книгоиздание

Send message

Изучаем синтаксические парсеры для русского языка

Reading time19 min
Views38K
Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксический парсер для работы с русским языком. Для этого мы углубились в дебри морфологии и токенизации, протестировали разные варианты и оценили их применение. Делимся опытом в этом посте.


Читать дальше →
Total votes 33: ↑32 and ↓1+31
Comments39

Пирожки в дистрибутивной семантике

Reading time6 min
Views23K
Уже несколько месяцев с любопытством гляжу в сторону дистрибутивной семантики — познакомился с теорией, узнал про word2vec, нашёл соответствующую библиотеку для Питона (gensim) и даже раздобыл модель лексических векторов, сформированную по национальному корпусу русского языка. Однако для творческого погружения в материал не хватало душезабирающих данных, которые было бы интересно через дистрибутивную семантику покрутить. Одновременно с этим увлечённо почитывал стишки-пирожки (эдакий синтез задиристых частушек и глубокомысленных хокку) — некоторые даже заучивал наизусть и по случаю угощал знакомых. И вот, наконец, увлечённость и любопытство нашли друг друга, породив воодушевляющую идею в ассоциативных глубинах сознания — отчего бы не совместить приятное с полезным и не собрать из подручных средств какой-нибудь «поэтичный» поисковик по базе пирожков.
из ложных умозаключений
мы можем истину сложить
примерно как перемножают
два отрицательных числа
Читать дальше →
Total votes 27: ↑26 and ↓1+25
Comments44

Семь простых правил, чтобы сделать Интернет доступным для всех

Reading time10 min
Views5.5K
Под доступностью в цифровой среде понимают практики для создания цифрового контента и приложений, которые были бы пригодны для использования широким кругом людей, включая и тех, кто страдает нарушениями зрения, двигательных функций, слуха, речи или же когнитивных способностей.



Существует ложное убеждение, что сделать сайт доступным можно только вложив много сил и средств, но это вовсе не обязательно. Если проектировать проект с самого начала с учетом соответствующих требований, добавлять какие-то особые функции и контент не понадобится, а значит, не будет и дополнительных затрат.

Если же речь идет о том, чтобы исправить погрешности на уже имеющемся сайте, то здесь придется приложить некоторые усилия. Когда я работал в компании Carbon Health, мы как-то раз проверили сайт на доступность при помощи особого расширения в Chrome. Уже на главной странице обнаружилось 28 нарушений, которые необходимо было устранить. На первый взгляд показалось, что это будет очень трудоемкий процесс, но вскоре выяснилось, что внести правки будет не так уж и сложно — нужно только вложить время и разобраться в основах. Нам удалось свести количество нарушений к нулю всего за пару дней.

Я хочу поделиться некоторыми простыми шагами, которые мы предприняли и которые возможно, помогут и вам. Эти принципы рассчитаны, в первую очередь, на мобильные и веб-приложения. Но прежде чем начать, давайте выясним, зачем это нужно.
Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments2

Два пробела лучше, чем один? Отзыв на новое исследование

Reading time12 min
Views16K
Несколько человек попросили меня прокомментировать новое научное исследование под названием «Два пробела лучше, чем один? Воздействие интервалов после точек и запятых в процессе чтения», проведённое Ребеккой Джонсон, Бекки Буй и Линдсей Шмитт.

С очевидным противоречием правилу Беттериджа исследование утверждает, что два пробела после точки упрощают чтение. Оно также противоречит моему давнему совету использовать только один пробел между предложениями.

Поскольку исследование стоит $39,95 за PDF, я уверен, что скептики из социальных сетей поспешили объявить победу двух пробелов, не купив и не прочитав саму работу. Но я сделал и то, и другое.

(По секрету для исследователей двух пробелов: предлагаю подумать о бесплатной публикации документа, поскольку это может быть последний раз, когда тема вашей научной работы следует массовой интернет-одержимости).

Действительно, авторы обнаружили, что два пробела после точки дают «небольшое», но «статистически… значимое» улучшение скорости чтения — примерно на 3% — но любопытно, что только у тех читателей, которые уже сами используют два пробела после точки при печати. Для обычных «однопробельников» никакого улучшения не замечено.
Читать дальше →
Total votes 22: ↑16 and ↓6+10
Comments27

Выбираем веб-шрифты: руководство для начинающих

Reading time11 min
Views64K
Устраните элемент таинственности в выборе шрифтов с нашим пошаговым руководством

Если всё сделать правильно, то типографика становится невероятно мощным инструментом. Обратимся к сочинениям Роберта Брингхёрста, чья книга «Основы стиля в типографике» (The Elements of Typographic Style) десятилетиями служила остроумным справочником для профессионалов. Там вы найдёте возвышенную формулировку ремесла. По Брингхёрсту, типографика «существует для уважения контента», а правильная типографика «показывает каждый элемент, каждое отношение между элементами и каждый логический нюанс текста».

Может, эти слова кажутся вдохновляющими или пугающими. Но очевидный факт в том, что правильный выбор типографики всегда отражает конкретные потребности самого проекта. Это не только эстетические потребности, но также технические и функциональные — и очень разные сообщения вы можете создать из фрагментов текста, прокручивая выпадающий список от Alegreya до Zapf Dingbats. Некоторые шрифты лучше работают в заголовках, а другие хорошо читаются в абзацах. Некоторые семейства достаточно велики, чтобы вместить международные алфавиты и специальные символы. И если шрифт идёт в разных стилях (например, курсив или малые прописные) и начертаниях (от тончайшего Hairline до ультра-чёрного), то по мере сборки проекта он предоставит больше возможностей для тонкой настройки дизайна.

Конечно, есть о чём подумать, но некоторые из наиболее важных соображений — это практические и функциональные особенности проекта. Начав с уже известных вещей и пройдя по следующим пунктам, вы найдёте шрифт, который соответствует вашим нуждам.
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments1

Как мы перевернули календарь и сделали из него арт-объект

Reading time4 min
Views9.2K

В Контуре работает 54 дизайнера, которые проектируют интерфейсы продуктов для каждой четвёртой компании в России. А ещё наши дизайнеры пишут Гайды, где делятся своим опытом. И вот уже больше года ребята создают календари, которые наделали шума в компании.


Что такое проект «Календарь» и как к нему отнеслись контуровцы, расскажет Юлия Красильникова, куратор проекта и проектировщик Контур.Маркета.


В 2016 году Сергей Соловьев, руководитель всех продуктовых дизайнеров, придумал календарный проект, чтобы наши дизайнеры смогли отвлечься от повседневных дел и проявить фантазию, свободную от рамок. Мы хотели сделать не просто ориентир во времени и пространстве для внутреннего пользования, а настроение, своеобразный дух месяца. Сейчас в проекте 15 календарей, каждый из которых — это личная ассоциация автора с выбранным месяцем, творческое послание или необыкновенная идея.


Заглянуть в мастерскую художника...
Total votes 22: ↑21 and ↓1+20
Comments9

Оформление научных результатов: интеграция LaTeX и Gnuplot

Reading time6 min
Views45K
«Если ваш единственный инструмент — молоток, то каждая проблема становится похожей на гвоздь»

Абрахам Маслоу


Введение


Научное творчество само по себе процесс не тривиальный, требующий некоторого отрешения от внешнего мира. И нелинейный в плане распределения интенсивности во времени — порой проболтаешься впустую полгода, чтобы потом, в течение месяца-полутора решить большую часть беспокоящих тебя вопросов.

И вот, ты на 100% использовал возможности посетившей тебя «эврики», закончил основную работу и пришла пора опубликовать свои результаты в журнале, доложить их на конференции, да и просто порадовать своего научного руководителя/консультанта красивым отчетом. И ты приступаешь к мучительной фазе оформления статьи/доклада/отчета. И насколько мучительной будет эта фаза, зависит от того, какие инструменты ты решил использовать для этой работы.

Вспоминаю времена, когда молодым и глупым аспирантом, я писал первый вариант кандидатского «кирпича», предназначенный для тщательного «вычитывания» мной и моим научным руководителем. Тогда я не знал о формате EPS, а поэтому экспортировал графики, построенные в Maple в *.bmp-растр и вручную… обводил их в MS Visio для последующей вставки в Word. Были и другие, не менее топорные глупости. Не удивительно, что тогда я проклял всё, и дал себе слово следующую диссертацию писать совершенно по другому.

Путем последовательных итераций, на сегодняшний день я пришел к такому вот решению:



И настало время отдать накопленный опыт людям. Интересующимся, добро пожаловать под кат.
Читать дальше →
Total votes 45: ↑44 and ↓1+43
Comments25

Веб-типографика: создаем таблицы для чтения, а не для красоты

Reading time12 min
Views22K
Наталия Шергина, фрилансер-редактор и студентка Нетологии, специально для блога перевела лонгрид Richard Rutter о типографике веб-таблиц.



Хорошие дизайнеры не жалеют времени на типографику. Они тщательно подбирают шрифты, перебирают множество типографических шкал и скрупулезно применяют пробелы (white space) ради удобства пользователя. Затем появляется соблазн покреативить — и вот все мысли уже не о пользователе. Однако таблицы нужны в первую очередь, чтобы их читали и использовали, а не просто любовались.
Читать дальше →
Total votes 34: ↑33 and ↓1+32
Comments9

Верстка сборника тезисов конференции в LaTeX

Reading time3 min
Views9.1K

В конце прошлого года в Ракетно-Космической Корпорации "Энергия" прошла конференция молодых ученых и специалистов. Автор этой статьи входил в состав секретариата, в частности выполнял функцию верстки сборника тезисов. Описание возникших проблем и путей их решения под катом.

Читать дальше →
Total votes 24: ↑22 and ↓2+20
Comments51

Парсеры, обработка текста. Просто о сложном. CFG, BNF, LL(k), LR(k), PEG и другие страшные слова

Reading time19 min
Views47K
Наверное, каждому программисту приходилось сталкиваться с задачами вида «прочитать что-то в формате А и произвести с ним некие манипуляции». Будь то json, логи nginx, cfg, sql, yaml, csv или что-то еще. Хорошо, когда можно воспользоваться библиотекой, однако, по разным причинам, это удается не всегда. Тогда и встает вопрос создания собственного парсера для заданного формата. И это, как говорят англичане, часто оказывается PITA (болью в ...). В этой статье я постараюсь облегчить эту боль. Кому интересно, добро пожаловать.
Читать дальше →
Total votes 43: ↑42 and ↓1+41
Comments24

Анатомия тысячи шрифтов

Reading time10 min
Views31K


Перевод статьи The anatomy of a thousand typefaces.

Даже годы спустя после выхода фильма Avatar остаётся кое-что, с чем не может справиться даже Райан Гослинг — использование шрифта Papyrus в логотипе фильма. В пародии, снятой Saturday Night Live, дизайнер шрифтов открывает меню, перебирает шрифты и случайным образом выбирает Papyrus.


Главная проблема выбора шрифтов — одновременно слишком много и слишком мало вариантов.

С одной стороны, выбор только из системных шрифтов может привести к плохому решению, потому что среди стандартных шрифтов ничего интересного просто не представлено.

С другой стороны, библиотеки веб-шрифтов с сотнями и тысячами наименований поражают изобилием, что иногда приводит к парадоксальным выборам шрифтов.
Total votes 31: ↑31 and ↓0+31
Comments7

Мастер-класс «Почему Стив Джобс любил шрифты» (Алексей Каптерев)

Reading time19 min
Views217K


Привет, Хабр! Давно у нас в блоге не было расшифровок мастер-классов. Исправляемся. В этом посте вас ждет грандиозное путешествие в мир шрифтов от древнейших времен до наших дней. Если вы хотите понять, каким образом шрифты влияют на наши эмоции и наконец научиться отличать гуманистический гротеск от ленточной антиквы — добро пожаловать под кат. И да, там очень много картинок. Передаем слово автору.




Шутка, написанная гарнитурой Times, на 10 % смешнее той, что написана гарнитурой Arial. Почему? Чёрт знает. Лучшее объяснение, которое я видел: юмор ассоциируется с агрессией, с остротой, с остроумием — а Times выглядит более острым, чем Arial.


Ещё один любопытный эксперимент, в котором участвовало 45 тыс. человек. Заходишь на сайт, тебе показывают статью Дэвида Дойча, британского физика. В статье автор пишет, что сегодня очень трудно внезапно умереть. Например, от инфекционного заболевания или в уличной драке. Лет сто назад это случалось намного чаще. Главный вывод статьи — сейчас мир безопасен как никогда. В среднем, конечно, ведь где-то постоянно идут локальные военные конфликты.

Total votes 196: ↑194 and ↓2+192
Comments100

Биороботы нашего времени — избавляемся от рутины вместе с Telegram. Реальный кейс без фантазий

Reading time5 min
Views28K
В интернетах не прекращается хайп вокруг чат-ботов (в частности, Telegram) благодаря шуму в СМИ, неоспоримых достоинствах платформы, политике продвижения, средствам разработки и т.д.

Смотришь новости: ну жизни нет без чат-ботов!
Да если их не будет, поезда с рельс сойдут, упадут самолеты, погибнут люди от тоски, когда не смогут найти картинки с котиками.

Но давайте положим руку на сердце: когда последний раз вы что-то заказывали в интернет-магазине через чат-бот?

Кто все эти люди, которые заказывают разработку ботов для своих магазинов?


Типичный чат-бот магазина Vasya Limited:
>> автоматизирует поток водопад заявок из 5 человек в день,
>> сливает 4 из 5 заявок, кровью добытых через Яндекс-Директ,
>> если повезет, человек найдет номер телефона и позвонит,
>> но, вероятней всего, «Эээ, куда жать?», а потом закроет и уйдет гуглить дальше.

Чем занят владелец, когда продажи «автоматизированы»:
>> вносит заказы в excel-таблицу
>> заполняет почтовые бланки на посылках
>> стоит в очереди на почте с кучей посылок (каждый день!)
>> вносит трек номера в excel-таблицу, затем рассылает клиентам

Может, хватит на ровном месте встраивать «технологии» туда, где действительно нужен человек, в то время как люди загружены рутиной для роботов?
Читать дальше →
Total votes 80: ↑73 and ↓7+66
Comments29

Regexp и Python: извлечение токенов из текста

Reading time9 min
Views84K
imageРазбор логов и конфигурационных файлов — задача часто возникающая и многократно описанная. В этой статье я расскажу как на языке python реализовать ее классическое решение: с помощью регулярных выражений и именованных групп. По возможности постараюсь рассказать причины, по которым применяется то или иное решение, а также обрисовать подводные камни и методы их обхода.

Читать о том, как препарируют текст
Total votes 35: ↑32 and ↓3+29
Comments43

Как я боролся с кодировками в консоли

Reading time6 min
Views172K
В очередной раз запустив в Windows свой скрипт-информер для СамИздат-а и увидев в консоли «загадочные символы» я сказал себе: «Да уже сделай, наконец, себе нормальный кросс-платформенный логгинг!»

Об этом, и о том, как раскрасить вывод лога наподобие Django-вского в Win32 я попробую рассказать под хабра-катом (Всё ниженаписанное применимо к Python 2.x ветке)
Читать дальше →
Total votes 63: ↑56 and ↓7+49
Comments35

10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России

Reading time8 min
Views371K
image

Инструменты web scraping (парсинг) разработаны для извлечения, сбора любой открытой информации с веб-сайтов. Эти ресурсы нужны тогда, когда необходимо быстро получить и сохранить в структурированном виде любые данные из интернета. Парсинг сайтов – это новый метод ввода данных, который не требует повторного ввода или копипастинга.

Такого рода программное обеспечение ищет информацию под контролем пользователя или автоматически, выбирая новые или обновленные данные и сохраняя их в таком виде, чтобы у пользователя был к ним быстрый доступ. Например, используя парсинг можно собрать информацию о продуктах и их стоимости на сайте Amazon. Ниже рассмотрим варианты использования веб-инструментов извлечения данных и десятку лучших сервисов, которые помогут собрать информацию, без необходимости написания специальных программных кодов. Инструменты парсинга могут применяться с разными целями и в различных сценариях, рассмотрим наиболее распространенные случаи использования, которые могут вам пригодиться. И дадим правовую оценку парсинга в России.
Читать дальше →
Total votes 21: ↑18 and ↓3+15
Comments45

Сравнение Word и LaTeX по удобству и эффективности

Reading time2 min
Views19K
На кафедре психологии, экспериментальной психологии и когнитивных наук университета Гиссена (Германия) провели сравнительное исследование текстовых редакторов LaTeX и Microsoft Word по удобству и эффективности при подготовке документов (научных статей).

В рамках исследования 40 учёных из разных научных дисциплин готовили статьи в Microsoft Word или LaTeX. Тестовая статья включала в себя блоки непрерывного текста, текст с таблицами и подзаголовками, а также сложный текст с математическими выражениями.

Исследование выявило, что пользователи LaTeX работают медленнее, чем пользователи Microsoft Word, набирают меньше текста за то же время, допускают больше опечаток, орфографических и грамматических ошибок, а также ошибок форматирования. По большинству параметров даже эксперты по LaTeX показывают худшую производительность, чем новички в Word.

С другой стороны, пользователи LaTeX чаще сообщали об удовольствии от использования программного обеспечения, чем пользователи Word. Кроме того, LaTeX показал лучший результат в наборе текста с формулами.
Читать дальше →
Total votes 11: ↑6 and ↓5+1
Comments21

Библиотеки, свободный доступ к информации и открытое ПО

Reading time4 min
Views3.9K
Фактически мой перевод статьи Тины Бурген (Tina N. Burgen) Libraries facilitate open access to information with open source software, опубликованной на Linux.com (22.01.2007).

Открытое ПО и библиотеки на самом деле имеют много общего. На не последнем месте стоит и вера в свободный и открытый доступ к информации и идеям. До недавнего времени библиотеки не пользовались всеми выгодами, предоставляемыми open source-программами. Причиной тому является слишком специализированное программное обеспечение и стандарты, которое используют библиотеки: это и межбиблиотечные абонементы, и работа с мета-данными, и объединённый поиск. До недавнего времени, нехватка платной поддержки существенно препятствовала установке и настройке открытого ПО, особенно, когда у библиотеки нет своего IT-отделения. Поэтому open source-альтернатива была часто вне зоны внимания. Сейчас финансирование улучшилось и спонсирование разработки положительно сказалось на совместной работе библиотек.
Читать дальше →
Total votes 7: ↑5 and ↓2+3
Comments0

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Reading time8 min
Views54K
Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.
Читать дальше →
Total votes 115: ↑109 and ↓6+103
Comments44

Семантическая разметка: LaTeX, DocBook или ???

Reading time4 min
Views19K
Писал комментарий к статье и понял, что надо выносить в отдельный пост.
Как многие отмечают там в комментариях статья отстой, человек не разбирается и смешал всё в кучу, попробую поделиться своими выводами от использования разных разметок.
Читать дальше →
Total votes 15: ↑13 and ↓2+11
Comments55

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Registered
Activity