Как стать автором
Поиск
Написать публикацию
Обновить
64
0
Денис Кулагин @kdenisk

Компьютерная лингвистика

Отправить сообщение

Как выучить иностранный язык

Время на прочтение10 мин
Количество просмотров115K

Я расскажу о том, как изучать иностранный язык и буду это делать на примере личного опыта изучения английского языка. Английский я начал учить в 36 лет, а уже сейчас у меня свободный английский язык (как письменный, так и устный), подтверждённый официальными сертификатами. Чтобы не быть голословным: у меня есть сертификат IELTS 7.5 баллов (это С1 level) и сертификат переводчика NAATI. Короче, я знаю о чем говорю.


Оглавление:


  1. Отступление про умных людей и прочих полиглотов
  2. Первый шаг
  3. Какой преподаватель нужен (уровень преподавателя)
  4. Где искать преподавателя
  5. Развитие навыков: слушание
  6. Развитие навыков: чтение
  7. Развитие навыков: письмо
  8. Развитие навыков: разговор: произношение
  9. Развитие навыков: разговор: языковой барьер
  10. Словарный запас
  11. Самое главное


Итак, вопрос: “Как выучить английский язык?”.

Читать дальше →

Systemd за пять минут

Время на прочтение4 мин
Количество просмотров685K
Наша компания занимается администрированием веб-серверов на базе CentOS. Довольно часто наши клиенты используют веб-приложения на базе python, ruby или java. Для автозапуска подобных приложений есть готовые шаблоны для написания стартап-скриптов. Но прогресс не стоит на месте, вышел уже второй релиз CentOS 7 и, следуя старой традиции «не ставить dot-zero релизы на продакшен», мы начинаем предлагать клиентам сервера на базе CentOS 7.1 (1503).

В CentOS7, так же как и в его родителе RHEL7, используется systemd — менеджер системы и служб для Linux, совместимый со скриптами инициализации SysV и LSB. systemd обеспечивает возможности агрессивной параллелизации и много всего прочего.

image

Огромный монстр с множеством возможностей, гибкими настройками и мегабайтами документации…

Но что делать, если стоит задача быстро-быстро, вот прямо вчера, сделать автозапуск некоего сервиса?
Давайте выжмем из документации минимально необходимый набор информации для создания простых старт-стоп скриптов.
Знакомство с systemd

Пять лучших киберпанк-аниме

Время на прочтение7 мин
Количество просмотров95K

Очень скоро киберпанк как жанр отметит своё сорокалетие. Почему он появился именно в США начала 80-х, и почему при этом с первых дней стал настолько «японским» – мы уже говорили . Как он породил целую группу жанров, и сам понемногу из актуальных размышлений о будущем стал формой ретрофутуризма – тоже.

И всё же в обоих этих статьях огромный массив японского киберпанка лишь упоминался. А ведь он во многих отношениях даже больше и значимее, чем на родине жанра, в США. Киберпанк не просто так получил массу японских черт ещё у американских авторов. Сами японцы уже в 80-е буквально влюбились в новый жанр, и принялись в нём активно работать. Однако если киберпанк в США – это преимущественно фильмы и книги, то в стране Восходящего Солнца его основными воплощениями стали манга и аниме, комиксы и мультипликация с японской спецификой.


За сорок прошедших с начала 80-х лет японцы сделали десятки, если не сотни, аниме-произведений в жанре киберпанка. И некоторые из них прочно вошли в золотой фонд жанра. Списков топ-10 и так далее в сети хватает – но многие из них крайне поверхностны, кратки и написаны «для галочки» без особого вникания в предмет.
Так что почему бы не попробовать сделать свой вариант, копнув чуть глубже?

Арракис, который мы заслужили

Время на прочтение4 мин
Количество просмотров51K

Во вселенной писателя-фантаста Фрэнка Герберта, Дюна, она же Арракис — это пустынная и маловодная планета с двумя лунами. По сюжету, она находится за пределами Солнечной системы, но если мы захотим поискать ближайшую схожую параллель, то больше всего подходит планета Марс. Предлагаю воспользоваться возможностями, которые даёт современная космонавтика, и совершить воображаемую прогулку на нашу Дюну.
Читать дальше →

Выгорание, поставленное на поток. Как в Китае работает система «Третий глаз», и почему программисты из-за нее умирают

Время на прочтение7 мин
Количество просмотров178K


В крупнейших китайских IT-компаниях действует система наблюдения под названием Ди Сан Цзи Янь, «Третий глаз». Она получает данные из камер в офисах и из ноутбуков каждого человека, чтобы определить, кто стоит повышения, а кого нужно уволить. «Третий глаз» позволяет отслеживать экраны программистов в режиме реального времени, записывать их чаты, их активность в браузере и каждое редактирование документа. Часть компаний устанавливают систему даже в туалетах.


Программа автоматически отмечает «подозрительное поведение», такое как посещение сайтов поиска работы или платформ с потоковым видео. Отчеты генерируются еженедельно, суммируя время, потраченное на «непрофильные» веб-сайты и приложения. Даже если вы посещали их в свое обеденное время или сидя в уборной.


Дальше это может убрать у вас перспективы карьерного роста и повышения зарплаты. Выводы системы также используются в качестве доказательства, когда компания хочет уволить определенных людей. Главное, за чем следит система — чтобы вы не проводили ни минуты рабочего времени за «лишними активностями». Некоторые программисты из-за неё уже совершили суицид, другие — умерли от измождения.

Читать дальше →

BERT для классификации русскоязычных текстов

Время на прочтение6 мин
Количество просмотров32K

Файнтюнинг русскоязычного BERT для задачи классификации. Туториал для быстрого старта без лишних подробностей.

Читать далее

Проблемы научных публикаций

Время на прочтение16 мин
Количество просмотров46K
Для людей, не знакомых близко с научным процессом, может быть не очень понятна важность научных статей. Публикация — это не только распространение информации, но и верификация результатов исследований, а еще самая главная мера эффективности научной работы.

Важность публикаций для ученых описывается выражением «Publish or perish» — «Публикуйся или сдохни». Именно всевозможные библиометрические показатели являются основой для получения грантов, подъема по карьерной лестнице и, в конечном итоге, научного успеха. И поэтому проблемы научных публикаций негативно влияют на всю науку в целом.


Читать дальше →

Хороший договор — короткий договор

Время на прочтение8 мин
Количество просмотров29K

Статья про одностраничный устав получила хороший отклик. Поэтому решил рассказать ещё и о коротком договоре. В одну страницу договор не уместился, к сожалению, но 3 страницы тоже хороший результат и может кто-то сможет ещё уменьшить. Данной статьёй хотелось бы призвать всех уважать клиента и писать короткие и понятные договора.

Большинство договоров пишут юристы, а руководители, продажники и клиенты, похоже их не читают. Да их и невозможно прочесть. Много ли людей читают договор с банком или лицензионное соглашение?! Или договор с оператором сотовой связи или провайдером?! Скучное и бесполезное занятие. Всё равно на текст договора чаще всего никак не повлиять в крупных компаниях.  

Юристы зачем-то пишут скучнейшим и малопонятным языком, копируют в договор тексты законов. Вероятно их цель, чтобы читатель заснул и не переварил написанного. Или им платят за 1000 знаков, а не за смысл. В тоже время многие российские законы написаны вполне человеческим и понятным языком и имеют хорошие нормы права по умолчанию.

Предлагать клиентам подписать договор, который бы не хотел подписывать сам — хамство.

У нас был договор написанный простым и понятным языком. Но жизнь не стоит на месте и коллеги сказали, что нужен новый договор. И что нужно обязательно обратиться к юристу, чтобы всё профессионально было. Обратились. Получили скучнейшую простыню как у всех. Читать невозможно. 

Читать далее

Базовые принципы полисеров и шейперов

Время на прочтение11 мин
Количество просмотров29K
Одними из инструментов обеспечения качества обслуживания в сетях передачи данных являются механизмы полисинга и шейпинга и, может быть, это самые часто используемые инструменты. Ваш Интернет провайдер, наверняка, ограничил вам скорость именно этим.

Тема качества обслуживания не самая простая для понимания, а если вы когда-нибудь интересовались именно полисерами и шейперами, то скорее всего встречали однотипные графики, отображающие зависимость скорости от времени, слышали термины «корзина», «токены» и «burst», может быть даже видели формулы для расчёта каких-то параметров. Хороший и типичный пример есть в СДСМ — глава про QoS и ограничение скорости.

В этой статье попробуем зайти чуть с другой стороны, опираясь на учебник Cisco, RFC 2697 и RFC 2698 — самые базовые понятия.
Читать дальше →

С Земли на Луну. История и математика. Часть 1

Время на прочтение8 мин
Количество просмотров21K


Если уходить в историю изучения траекторий полета с Земли на Луну, то необходимо вернуться на полтора века назад, в 1865 год, когда был опубликован новый роман Жюля Верна «С Земли на Луну прямым путём за 97 часов 20 минут». Конечно, это была далеко не первая книга, в которой описывался подобный перелет, но это был первый роман, в котором автор решил подойти к описанию путешествия с научных позиций.

Читать дальше →

Проклятье Циолковского и благодать Оберта

Время на прочтение15 мин
Количество просмотров35K

Здравствуйте, уважаемые читатели Хабра.

Продолжаем изучать орбитальную механику на пальце и двух энергиях. В этой статье вы узнаете о формуле Циолковского, эффекте Оберта, чем энергия отличается от импульса, как работают ракеты и всё это на максимально простых примерах с крепкой 90 градусной геометрией.

Эффект Оберта


Начнем пожалуй с Эффекта Оберта, хотя это крайне сложный эффект, но зато разобравшись с ним — мы поймем всю орбитальную физику. Для начала давайте зададимся вопросом — В чем сила, брат? — В лошадиных силах!

Сколько лошадиных сил у ракетного двигателя?

Ответ странный — по разному, один и тот же килограмм топлива в одном и том же двигателе дает разное количество энергии. Причина в разной скорости на которой используется это топливо, чем больше скорость самой ракеты — тем больше энергии дает двигатель, причем этот же двигатель ускоряющий вбок (относительно текущей скорости) — будет давать меньше энергии, чем при ускорении вперед.

Давайте сразу рассмотрим 2 хороших и наглядных примера. Один из Ютуба от гаражного учёного Игоря Белецкого продемонстрировавшего эффект Оберта с помощью шприца, резинки и кое чего еще, а второй пример из Википедии.
Читать дальше →

Обучение модели естественного языка с BERT и Tensorflow

Время на прочтение9 мин
Количество просмотров36K

Рис. 1. Фразы и предложения в векторном представлении модели естественного языка

Обработка естественного языка (Natural Language Processing, NLP) – это область вычислительной лингвистики, ориентированная на разработку машин, способных понимать человеческие языки. Разработка таких машин – одна из задач, которые решают исследователи и инженеры в команде SberDevices.

В современной компьютерной лингвистике понимание смысла написанного или сказанного достигается с помощью векторных моделей естественного языка. Например, в семействе виртуальных ассистентов Салют такая модель применяется для распознавания намерений пользователя, ведения диалога, выделения именованных сущностей и многих других задач.

В этой статье мы рассмотрим метод обучения модели естественного языка (NLU) на размеченных данных и реализацию этого метода на python3 и tensorflow 1.15. Ниже вы найдете пошаговое руководство и примеры кода. Код всего эксперимента доступен для воспроизведения на Colab.

Помимо этого, мы выкладываем в публичный доступ русскую модель NLU класса BERT-large [427 млн. параметров]: tensorflow, pytorch.

Прочитав этот пост, вы узнаете:

  • что такое модели NLU и как они применяются в компьютерной лингвистике;
  • что такое векторы предложений и как их получить;
  • как обучить векторизатор предложений [NLU] на базе архитектуры BERT;
  • как можно использовать обученные модели NLU

За что получает деньги наемный работник? Не понимаете? Сейчас поймете

Время на прочтение4 мин
Количество просмотров152K
«За что я плачу тебе деньги?» — обычный вопрос работодателя работнику, причем саркастический, как правило.

«За что я тут корячусь на тебя?» — столь же обычный вопрос работника к работодателю.
Разобраться, за что же действительно работодатель платит деньги наемному работнику, поможет моя собственная теория, закодированная в десять букв – «ПЗП – ПЗС – ПЗПИ»

Читать дальше →

Информационная архитектура в Интернете часть 1

Время на прочтение9 мин
Количество просмотров18K


Очень часто вижу вопросы от начинающих проектировщиков, похожих один на другой: «Посоветуйте что прочитать…».

Часто в ответ кидают А. Купера «Об интерфейсе. Основы проектирования взаимодействия», Д. Раскина «Интерфейс: новые направления в проектировании компьютерных систем», С. Круга «Не заставляйте меня думать», Д. Нормана «Дизайн привычных вещей». Это основа, все понятно.

Реже видела упоминания о такой замечательной книге, как «Информационная архитектура в Интернете» (авторы П.Морвиль и Л.Розенфельд).

Так как начинать всегда тяжело, а информации много, решила выложить конспект книги.
Книга большая, в одну статью все не поместилось. В итоге получился цикл из 4 статей, в которых постаралась оставить все самое интересное и нужное.

Конечно, опытным проектировщикам все это известно, а вот начинающим, думаю, пригодится.
Первая часть посвящена определению информационной архитектуре и тому, как люди ищут информацию. Поехали!

P.S.: Чтобы пополнять Хабр интересной информацией, в конце статьи прикрутила опрос: будет ли интересно читать весь цикл статей или на первой можно и остановиться.
Читать дальше →

Кнопочное мышление против целостного IT-продукта

Время на прочтение10 мин
Количество просмотров54K

Эта статья — выражение моей личной боли. Кнопочные решения портят мне жизнь, я трачу время на споры и обоснования.



Когда мы общаемся с коллегами, заказчиками или пользователями, я использую фразу «кнопочное мышление». Что я имею ввиду под этим термином? Текущая статья — развернутый ответ на этот вопрос.



Синонимами кнопочного мышления я считаю «экранное мышление» или преждевременную концептуализацию. Я раскрою мышление кнопками на десятке примеров из практики. А здесь для начала история, которая наверняка случалась с каждым. Представьте к вам приходят и рассказывают о падении конверсии на сайте. А вы ему сразу: «Давайте кнопку покупки сделаем побольше и поярче!». Что произошло? В бизнесе возникла проблема. Вместо погружения в детали, вместо исследования причин, вы играете с размерами кнопки. Вот в таких случаях я говорю о кнопочном мышлении.



Для тех, кто любит смотреть, а не читать, есть видео и слайды.


Читать дальше →

Как growth hacking помогает взлетать стартапам за несколько месяцев?

Время на прочтение10 мин
Количество просмотров18K

Мы регулярно слышим истории о том, как, например, какой-то компании удалось получить 100 тысяч новых пользователей за месяц. Возникают мысли, что ребятам повезло или они придумали инновационный продукт. Но в большинстве случае причиной стремительного роста становится применение стратегии growth hacking, о которой подробно поговорим в этой статье.

Читать далее

Германия, или Туда и Обратно — 1

Время на прочтение14 мин
Количество просмотров68K
Почти два года назад, под Новый год, у меня зазвонил телефон.

После пары дежурных фраз «как сам, как дети» меня позвали работать в Германию.



Я крепко призадумался.

С одной стороны, никогда не рассматривал работу за рубежом как что-то реальное. С другой — приглашение было от старых боевых товарищей. Слова «фирма компенсирует расходы», «приезжай, будем разработку налаживать, немцев нанимать» долго вертелись в голове и не давали покоя.

Итак, под бой курантов мы с супругой приняли решение: «Ехать!»

Кто хочет прочитать про мой увлекательный, но весьма субъективный опыт переезда в Германию — добро пожаловать под кат.
Читать дальше →

Разгоняем Google PageSpeed до 100 и больше

Время на прочтение6 мин
Количество просмотров61K
Google PageSpeed

Простые и полезные советы, которые позволят вам максимально разогнать сайт без необходимости закапываться в метриках Google PageSpeed и Lighthouse.
Читать дальше →

Пять привычек, которые помогут сохранить эффективность работы мозга

Время на прочтение5 мин
Количество просмотров54K


Тренируйте мозг, изменяйте нейронные связи


Наш мозг на удивление динамичен и постоянно меняется. Он умеет приспосабливаться, лечиться, обновляться и изменять нейронные связи.

Наши ежедневные действия (и бездействие) буквально меняют мозг в лучшую (или худшую) сторону. Но еще не поздно омолодить, переделать и изменить мозг так, чтобы оставаться в лучшей форме.

Эксперименты по нейропластичности (это способность мозга изменяться в ответ на получаемый опыт) показали, что мозг умеет меняться — изменяя свою структуру, биохимию, увеличиваясь и уменьшаясь в размерах.

Можно ли физически изменить мозг — в любом возрасте? Да, но в определенных пределах. И начать можно с того, о чем я сейчас расскажу.

Переведено в Alconost
Читать дальше →

Исправляем опечатки с учётом контекста

Время на прочтение10 мин
Количество просмотров28K

Недавно мне понадобилась библиотека для исправления опечаток. Большинство открытых спелл-чекеров (к примеру hunspell) не учитывают контекст, а без него сложно получить хорошую точность. Я взял за основу спеллчекер Питера Норвига, прикрутил к нему языковую модель (на базе N-грамм), ускорил его (используя подход SymSpell), поборол сильное потребление памяти (через bloom filter и perfect hash) а затем оформил всё это в виде библиотеки на C++ со swig биндингами для других языков.

Читать дальше →
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Железнодорожный (Московск.), Москва и Московская обл., Россия
Зарегистрирован
Активность