OLS Nov 29 2013 at 02:25

Лексикон Хабра

3 min

18K

Mathematics*

+66

Comments 63

VokaMut Nov 29 2013 at 03:28

Веб приложение позволяет разработчику сделать проект, который будет работать например на windows сервере. Его можно будет выложить в сеть интернет на сайтах компании google, а именно на http goggle.ru и http google.com. После релиза конечно необходимо поддерживать версию, обновлять данные, дополнять информацию, создать видео с инструкцией пользования дабы ваши работы не превратились в обычные файлы. Если пользователю понравится ваше детище то он не упустит возможность делиться ссылкой с другими.

+59

VokaMut Nov 29 2013 at 05:24

Я забыл слово «Код», добавляю:
КОД

+13

Newarray Nov 29 2013 at 06:41

Я бы еще добавил Ализар…

AVGUR Nov 29 2013 at 08:50

или Ализарщина

-3

Oxyd Nov 30 2013 at 02:36

Тогда уж «Ализаризация Хабра».

AVGUR Nov 30 2013 at 11:57

Ага. Хотя надо признать, читаю его статьи с удовольствием =)

-1

darthslider Nov 29 2013 at 09:57

Мне кажется можно еще ко многим словам добавить приставку «хабра-».

-3

spmbt Nov 29 2013 at 07:06

Версия 2.
Веб позволяет сделать компании разработчиков проект сайта с кодами приложения и данными, файлами видео и возможностью работы пользователей windows по ссылке в сети Интернет, например, с помощью сервера http://google.com, или можно RU. Что это работает — информация 100%.

Vokabre Nov 29 2013 at 15:41

Хабрахабр скачать бесплатно без регистрации.

StopDesign Nov 29 2013 at 04:11

Это всё — общеупотребительные слова. Как-то раз я записал отклонения от среднего среднеобщеупотребительного, которые меня особенно бесили.

Вот они

не есть good
допиливать напильником
ковырять эту тему
теряются плюшки
изобретать велосипед (изобретать транспортное средство)
элегантный код
изящный (тоже код)
XSLT дает много вкусного
разводить холивары
ИМХО
прикручивать
сделать это ручками
вкусности
костыль (костыльный)
монструозный
юзверей
натравить
пощупать
использовать вкусные плюшки
пых
мускул
легко и непринужденно
хабраюзер
сабжевый

bigdogsru Nov 29 2013 at 06:22

Сленг же, чем он может бесить? В любой профессиональной группе есть свой сленг. Вот что по-настоящему раздражает — это часто встречающаяся безграмотность. ПопробЫвать, в моделЕ и тому подобное. А еще чудовищное прочтение английских слов, вроде упдейта и сетупа.

eydemidov Nov 29 2013 at 10:20

Почему нет? Это не сленг бесит, а отдельные слова.
Меня тоже раздражает эта хаброманера некотрых хабраюзеров (хабражителей) из хабрасообщества добавлять хабраприставку ко всем хабрасуществительным.

НАДЕЮСЬ, САЙТЫ ИЗ ТОПИКА НЕ СЛОВЯТ ХАБРАЭФФЕКТ)))))))

nikita2206 Nov 29 2013 at 18:06

Черт, только узнал, что «в моделе» писать неправильно.

-1

Keyten Nov 29 2013 at 19:49

А ещё поЙграть. В йгру наверное.

Allesad Nov 29 2013 at 20:45

На андройде

Muxto Nov 29 2013 at 23:59

Мы так дойдем до Впоймал и До бабушки.

theart Nov 29 2013 at 08:55

Продолжаем тренд, мне понравилось:
Ковырять эту тему и допиливать напильником, не есть good, ИМХО.
Прикручивать монструозный костыль — это как изобретать велосипед, никогда не получится изящный и элегантный код, зато потеряются плюшки. Конечно лучше просто сделать это ручками, а не разводить холивары. Всем понятно, что XSLT дает много вкусного, даже если натравить юзверей пощупать плюшки.
А новый мускул легко и непринужденно обеспечит сабж всем хабраюзерам.

+17

StreetStrider Nov 30 2013 at 21:48

Вы хотели сказать, «связка нового мускула и пыха»?

OLS Nov 29 2013 at 10:03

Ну тогда дополню статистику еще в одном разрезе.
Топ-20 кириллических слов Хабра, отсутствующих вообще в НКРЯ (статистику G, соответственно, подсчитать нельзя, и они упорядочены просто по убыванию частоты):

хабр, блог, фича, стартап, плагин, вконтакте, фреймворк, виджет, юзабилити, твиттер, репозиторий, дистрибутив, подкаст, конфиг, логи, подкаст, удалённо, скриншот, скачивание, аккаунт

Сколько из них НЕ являются кальками с английского либо именами собственными? Два! «Удалённо» и «скачивание». Интересно, эти фактически 2 новых слова по правилам образования новых слов языка получены или нет? Войдут они когда-нибудь в словари?

bigdogsru Nov 29 2013 at 10:05

у вас подкаст два раза

OLS Nov 29 2013 at 10:11

Да, действительно. My fault, хотя природа ошибки пока мне не ясна.
Прошу считать 20-ым слово «торрент».

VolCh Nov 29 2013 at 17:56

логи

ru.wiktionary.org/wiki/%D0%BB%D0%BE%D0%B3 странно

OLS Nov 29 2013 at 18:30

То есть Вы считаете, что компьютерный термин «лог» произошел от значения «овраг»?
Мне более привычна версия происхождения от «log-book» — «судовой журнал для периодической записи скорости судна», который в свою очередь произошел от «log» — лаг.

VolCh Nov 29 2013 at 19:34

Нет, не считаю. Мне странно, что в корпусе русского языка нет этого слова по написанию, независимо от его семантического значения.

OLS Nov 29 2013 at 19:54

«лог» — есть, «логи» — нет

Sava Nov 29 2013 at 22:29

Вообще то logging — регистрация. Не могу понять спора. Вы уж тогда поищите англоязычные исследования, я сам не настолько хорошо владею разговорным языком, чтобы быстро проделать такую работу.

sophist Dec 6 2013 at 14:04

статистику G, соответственно, подсчитать нельзя, и они упорядочены просто по убыванию частоты

А, собственно, почему нельзя? Если в НКРЯ слово отсутствует, это просто значит, что в формуле b_i=0. Е_i, в таком случае, равен своему максимально возможному значению. Если бы в окончательной формуле a_i не учитывалось еще раз, то все подобные слова попали бы в вершину списка. Но с учетом a_i они будут каким-то образом распределены среди него, и было бы интересно посмотреть, как именно.

samodum Nov 29 2013 at 10:27

А вы ожидали, что здесь будут Пушкины стихами выражаться?

Vokabre Nov 29 2013 at 20:16

«DOS, чёрной пеленой экран заполнил чистый DOS,
Мышь потеряла форму, стала вдруг квадратной мышь,
Я разбил окно, 95-ое мастдайное окно,
И поставил DOS, и тогда я понял: это счастье — вот оно...»

UFO just landed and posted this here

kreep Nov 29 2013 at 09:37

Интернет, например Windows, позволяет возможность http-работы видео сделать.

Mnemonik Nov 29 2013 at 09:46

А нет статистики употребления идиотских «ибо» и «сие» которые обожают интернет-аналитики разных мастей думая что они им придают веса и каноничности?

OLS Nov 29 2013 at 10:08

«Ибо» кстати — 355-ое по частоте слово НКРЯ. Это очень высоко.

OLS Nov 29 2013 at 10:13

P.S. А на Хабре «ибо» — только лишь 1778-ое.

Trept Nov 29 2013 at 15:46

В Хабре 1178-е по частоте или по G-мере?

OLS Nov 29 2013 at 15:52

По частоте. G-статистика для Хабра у него вообще отрицательная, т.к. частота на Хабре ниже среднестатистической.

MrShoor Nov 29 2013 at 15:48

Ибо нефиг

vanfukov Nov 29 2013 at 16:58

А слово «среднеобщеупотребительного» на каком месте?

OLS Nov 29 2013 at 17:13

Искренне извиняюсь. Хотел успеть к пятнице, поскольку для буднего дня считаю такой пост слишком легкомысленным. Ну и соответственно в 2 часа ночи засыпающий мозг уже начинает выдавать подобные неологизмы.

imater Nov 29 2013 at 09:49

Боюсь, на других сайтах, в лидеры бы вышел мат. Люблю хабр за то, что его можно без опаски давать читать детям.

darthslider Nov 29 2013 at 09:58

Этот не ловкий момент, когда ребенок задает не удобные для родителей вопросы… «Папа, а что такое рекурсия?».

imater Nov 29 2013 at 10:12

Зато, на вопрос откуда берутся дети, можно отвечать:

var you = new Child({papa:papa_id, mama: mama_id});
//new - оператор аист

darthslider Nov 29 2013 at 10:14

Такой ответ обеспечит вашему ребенку шикарную бороду и свитер годам к 15 :D
А так же существенно снизит ваши шансы дождаться внуков.

+20

Funcraft Nov 29 2013 at 10:34

Извиняюсь за свою безграмотность, но разве «работы» и «работает» — это не две словоформы одного и того же слова? Или смена существительного на глагол меняет ситуацию?

excoder Nov 29 2013 at 13:57

А откуда формулы, если не секрет?

OLS Nov 29 2013 at 14:02

Отсюда:
Rayson, P. and Garside, R. (2000). Comparing corpora using frequency profiling. In proceedings of the workshop on Comparing Corpora, held in conjunction with the 38th annual meeting of the Association for Computational Linguistics (ACL 2000)
и отсюда:
en.wikipedia.org/wiki/G-test

excoder Nov 29 2013 at 18:02

Спасибо, хорошая наводка!

Pastafarianist Nov 30 2013 at 02:20

Кстати, не понял, что в формуле для E_i делает коэффициент c слева от дроби.

OLS Nov 30 2013 at 07:50

Умножает оценку вероятности (дробь) на объем первого корпуса (с), чтобы получить ожидаемую частоту появления слова в данном корпусе.
Аналогия:
Из 1000 (с) подбрасываний монеты с известной оценкой выпадения решки 0.5 (дробь) ожидается 500 (E_i) наблюдаемых исходов «выпала решка».

sophist Nov 30 2013 at 13:22

А почему ожидаемая частота рассчитывается исходя из объединения корпусов, а не только из одного эталонного корпуса (НКРЯ, в данном случае)?

Ведь если НКРЯ — это корпус «среднеобщеупотребительных» слов (и, возможно, тексты с Хабра там тоже учитываются, но пропорционально вкладу в это среднее общеупотребление), то мы, по сути, рассматриваем модифицированный корпус, в котором доля Хабра искусственно завышена. Не искажается ли в итоге рассчитываемая величина?

OLS Dec 1 2013 at 11:21

Перед началом расчетов я задавал себе этот же самый вопрос — не должна ли формула ожидаемой частоты выглядеть как E_i=c*(b_i/d)? Правда с другой аргументацией — я считал, что после объединения корпусов объединенный корпус становится слишком Хабра-ориентированным, т.к. доля Хабра в общем русском языке гораздо меньше, чем 33/(33+192), а следовательно мы сравниваем с уже достаточно про-ИТ-шным корпусом.

Но после размышлений, я решил оставить формулы авторов без изменений. Их мотивация тоже в принципе понятна — в статистике задача проверки принадлежности конкретной наблюдаемой выборки конкретному генеральному распределению хорошо изучена, а она подразумевает объединение корпусов.

В конце концов, масштабы корпусов адекватны — первый как минимум в 7 раз меньше объединенного. Поэтому я решил не изменять методику.

sophist Dec 1 2013 at 15:18

Понятно. Аргументация у вас, в принципе, та же, что у меня.

А вы не пробовали посчитать еще и по этой формуле и сравнить результаты?

vertus Nov 29 2013 at 15:36

Интернет, например.

-1

eternal_why Nov 29 2013 at 15:07

[ворчун_mode] А ещё посчитайте, пожалуйста, соотношение верного и неверного употребления мягкого знака в возвратных глаголах (те, которые tsya.ru) Может, хоть кому-то стыдно станет за самую продвинутую площадку… А то порой мочи нет глаза ломать… [/ворчун_mode]

OLS Nov 29 2013 at 15:25

К сожалению, в некоторых ситуациях эта задача будет контекстно-зависимой («боятся/бояться»). Ну а для контекстно-независимых случаев — вполне реально, попробую.

Trept Nov 29 2013 at 15:48

Сходу контекстно-независимых не вспомнил. Примеры можете привести?

OLS Nov 29 2013 at 15:58

делаеться, принимаеться,
и наоборот
сфотографироватся

aterentiev Nov 30 2013 at 23:29

И еще варианты, подобные «делаюццо» и «делаютсо», пожалуйста :)

Trept Nov 29 2013 at 16:24

Дальше можно и углубиться в это исследование.
Построить аналогичные словари для различных срезов Хабра.
Например, для популярных тегов, или плодовитых авторов, блогов компаний.
Здесь будет интересный вопрос, по чему взвешивать: по НКРЯ или всему Хабру. Во втором случае мы получим отличие словаря автора от словаря Хабра. Минус в этом случае — меньшая устойчивость результатов из-за меньшего объема текстов Хабра по сравнению с НКРЯ.

OLS Nov 29 2013 at 16:39

Считаю корпус, созданный Muxto, вполне репрезентативным — 33 000 000 единиц, около 430 000 уникальных словоформ, частота 50 000-ой по частоте словоформы — 53 появления. Так что Ваша идея по корпусу Хабра вполне реализуема. Сложнее понять, какие именно срезы были бы интересны.

Trept Nov 29 2013 at 17:11

Думаю, Ализар многим интересен.

Muxto Dec 13 2013 at 17:37

Давно скинул OLS -у срез слов Ализара. Сам тоже жду.

Muxto Nov 30 2013 at 00:09

Отличное продолжение!
Хотелось бы только увидеть больше слов топа, хотя бы первую тысячу. Это можно?

Show the best of all time