Pull to refresh

Comments 63

Веб приложение позволяет разработчику сделать проект, который будет работать например на windows сервере. Его можно будет выложить в сеть интернет на сайтах компании google, а именно на http goggle.ru и http google.com. После релиза конечно необходимо поддерживать версию, обновлять данные, дополнять информацию, создать видео с инструкцией пользования дабы ваши работы не превратились в обычные файлы. Если пользователю понравится ваше детище то он не упустит возможность делиться ссылкой с другими.
Тогда уж «Ализаризация Хабра».
Ага. Хотя надо признать, читаю его статьи с удовольствием =)
Мне кажется можно еще ко многим словам добавить приставку «хабра-».
Версия 2.
Веб позволяет сделать компании разработчиков проект сайта с кодами приложения и данными, файлами видео и возможностью работы пользователей windows по ссылке в сети Интернет, например, с помощью сервера http://google.com, или можно RU. Что это работает — информация 100%.
Хабрахабр скачать бесплатно без регистрации.
Это всё — общеупотребительные слова. Как-то раз я записал отклонения от среднего среднеобщеупотребительного, которые меня особенно бесили.

Вот они
не есть good
допиливать напильником
ковырять эту тему
теряются плюшки
изобретать велосипед (изобретать транспортное средство)
элегантный код
изящный (тоже код)
XSLT дает много вкусного
разводить холивары
ИМХО
прикручивать
сделать это ручками
вкусности
костыль (костыльный)
монструозный
юзверей
натравить
пощупать
использовать вкусные плюшки
пых
мускул
легко и непринужденно
хабраюзер
сабжевый
Сленг же, чем он может бесить? В любой профессиональной группе есть свой сленг. Вот что по-настоящему раздражает — это часто встречающаяся безграмотность. ПопробЫвать, в моделЕ и тому подобное. А еще чудовищное прочтение английских слов, вроде упдейта и сетупа.
Почему нет? Это не сленг бесит, а отдельные слова.
Меня тоже раздражает эта хаброманера некотрых хабраюзеров (хабражителей) из хабрасообщества добавлять хабраприставку ко всем хабрасуществительным.

НАДЕЮСЬ, САЙТЫ ИЗ ТОПИКА НЕ СЛОВЯТ ХАБРАЭФФЕКТ)))))))
Черт, только узнал, что «в моделе» писать неправильно.
А ещё поЙграть. В йгру наверное.
Мы так дойдем до Впоймал и До бабушки.
Продолжаем тренд, мне понравилось:
Ковырять эту тему и допиливать напильником, не есть good, ИМХО.
Прикручивать монструозный костыль — это как изобретать велосипед, никогда не получится изящный и элегантный код, зато потеряются плюшки. Конечно лучше просто сделать это ручками, а не разводить холивары. Всем понятно, что XSLT дает много вкусного, даже если натравить юзверей пощупать плюшки.
А новый мускул легко и непринужденно обеспечит сабж всем хабраюзерам.

Ну тогда дополню статистику еще в одном разрезе.
Топ-20 кириллических слов Хабра, отсутствующих вообще в НКРЯ (статистику G, соответственно, подсчитать нельзя, и они упорядочены просто по убыванию частоты):

хабр, блог, фича, стартап, плагин, вконтакте, фреймворк, виджет, юзабилити, твиттер, репозиторий, дистрибутив, подкаст, конфиг, логи, подкаст, удалённо, скриншот, скачивание, аккаунт

Сколько из них НЕ являются кальками с английского либо именами собственными? Два! «Удалённо» и «скачивание». Интересно, эти фактически 2 новых слова по правилам образования новых слов языка получены или нет? Войдут они когда-нибудь в словари?
Да, действительно. My fault, хотя природа ошибки пока мне не ясна.
Прошу считать 20-ым слово «торрент».
То есть Вы считаете, что компьютерный термин «лог» произошел от значения «овраг»?
Мне более привычна версия происхождения от «log-book» — «судовой журнал для периодической записи скорости судна», который в свою очередь произошел от «log» — лаг.
Нет, не считаю. Мне странно, что в корпусе русского языка нет этого слова по написанию, независимо от его семантического значения.
«лог» — есть, «логи» — нет
Вообще то logging — регистрация. Не могу понять спора. Вы уж тогда поищите англоязычные исследования, я сам не настолько хорошо владею разговорным языком, чтобы быстро проделать такую работу.
статистику G, соответственно, подсчитать нельзя, и они упорядочены просто по убыванию частоты

А, собственно, почему нельзя? Если в НКРЯ слово отсутствует, это просто значит, что в формуле bi=0. Еi, в таком случае, равен своему максимально возможному значению. Если бы в окончательной формуле ai не учитывалось еще раз, то все подобные слова попали бы в вершину списка. Но с учетом ai они будут каким-то образом распределены среди него, и было бы интересно посмотреть, как именно.
А вы ожидали, что здесь будут Пушкины стихами выражаться?
«DOS, чёрной пеленой экран заполнил чистый DOS,
Мышь потеряла форму, стала вдруг квадратной мышь,
Я разбил окно, 95-ое мастдайное окно,
И поставил DOS, и тогда я понял: это счастье — вот оно...»
UFO just landed and posted this here
Интернет, например Windows, позволяет возможность http-работы видео сделать.
А нет статистики употребления идиотских «ибо» и «сие» которые обожают интернет-аналитики разных мастей думая что они им придают веса и каноничности?
«Ибо» кстати — 355-ое по частоте слово НКРЯ. Это очень высоко.
P.S. А на Хабре «ибо» — только лишь 1778-ое.
В Хабре 1178-е по частоте или по G-мере?
По частоте. G-статистика для Хабра у него вообще отрицательная, т.к. частота на Хабре ниже среднестатистической.
А слово «среднеобщеупотребительного» на каком месте?
Искренне извиняюсь. Хотел успеть к пятнице, поскольку для буднего дня считаю такой пост слишком легкомысленным. Ну и соответственно в 2 часа ночи засыпающий мозг уже начинает выдавать подобные неологизмы.
Боюсь, на других сайтах, в лидеры бы вышел мат. Люблю хабр за то, что его можно без опаски давать читать детям.
Этот не ловкий момент, когда ребенок задает не удобные для родителей вопросы… «Папа, а что такое рекурсия?».
Зато, на вопрос откуда берутся дети, можно отвечать:
var you = new Child({papa:papa_id, mama: mama_id});
//new - оператор аист
Такой ответ обеспечит вашему ребенку шикарную бороду и свитер годам к 15 :D
А так же существенно снизит ваши шансы дождаться внуков.
Извиняюсь за свою безграмотность, но разве «работы» и «работает» — это не две словоформы одного и того же слова? Или смена существительного на глагол меняет ситуацию?
Спасибо, хорошая наводка!
Умножает оценку вероятности (дробь) на объем первого корпуса (с), чтобы получить ожидаемую частоту появления слова в данном корпусе.
Аналогия:
Из 1000 (с) подбрасываний монеты с известной оценкой выпадения решки 0.5 (дробь) ожидается 500 (Ei) наблюдаемых исходов «выпала решка».
А почему ожидаемая частота рассчитывается исходя из объединения корпусов, а не только из одного эталонного корпуса (НКРЯ, в данном случае)?

Ведь если НКРЯ — это корпус «среднеобщеупотребительных» слов (и, возможно, тексты с Хабра там тоже учитываются, но пропорционально вкладу в это среднее общеупотребление), то мы, по сути, рассматриваем модифицированный корпус, в котором доля Хабра искусственно завышена. Не искажается ли в итоге рассчитываемая величина?
Перед началом расчетов я задавал себе этот же самый вопрос — не должна ли формула ожидаемой частоты выглядеть как Ei=c*(bi/d)? Правда с другой аргументацией — я считал, что после объединения корпусов объединенный корпус становится слишком Хабра-ориентированным, т.к. доля Хабра в общем русском языке гораздо меньше, чем 33/(33+192), а следовательно мы сравниваем с уже достаточно про-ИТ-шным корпусом.

Но после размышлений, я решил оставить формулы авторов без изменений. Их мотивация тоже в принципе понятна — в статистике задача проверки принадлежности конкретной наблюдаемой выборки конкретному генеральному распределению хорошо изучена, а она подразумевает объединение корпусов.

В конце концов, масштабы корпусов адекватны — первый как минимум в 7 раз меньше объединенного. Поэтому я решил не изменять методику.
Понятно. Аргументация у вас, в принципе, та же, что у меня.

А вы не пробовали посчитать еще и по этой формуле и сравнить результаты?
[ворчун_mode] А ещё посчитайте, пожалуйста, соотношение верного и неверного употребления мягкого знака в возвратных глаголах (те, которые tsya.ru) Может, хоть кому-то стыдно станет за самую продвинутую площадку… А то порой мочи нет глаза ломать… [/ворчун_mode]
К сожалению, в некоторых ситуациях эта задача будет контекстно-зависимой («боятся/бояться»). Ну а для контекстно-независимых случаев — вполне реально, попробую.
Сходу контекстно-независимых не вспомнил. Примеры можете привести?
делаеться, принимаеться,
и наоборот
сфотографироватся
И еще варианты, подобные «делаюццо» и «делаютсо», пожалуйста :)
Дальше можно и углубиться в это исследование.
Построить аналогичные словари для различных срезов Хабра.
Например, для популярных тегов, или плодовитых авторов, блогов компаний.
Здесь будет интересный вопрос, по чему взвешивать: по НКРЯ или всему Хабру. Во втором случае мы получим отличие словаря автора от словаря Хабра. Минус в этом случае — меньшая устойчивость результатов из-за меньшего объема текстов Хабра по сравнению с НКРЯ.
Считаю корпус, созданный Muxto, вполне репрезентативным — 33 000 000 единиц, около 430 000 уникальных словоформ, частота 50 000-ой по частоте словоформы — 53 появления. Так что Ваша идея по корпусу Хабра вполне реализуема. Сложнее понять, какие именно срезы были бы интересны.
Думаю, Ализар многим интересен.
Давно скинул OLS -у срез слов Ализара. Сам тоже жду.
Отличное продолжение!
Хотелось бы только увидеть больше слов топа, хотя бы первую тысячу. Это можно?
Sign up to leave a comment.

Articles