• Определение части речи слов в русском тексте (POS-tagging) на Python 3

      Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

      [('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

      Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
      Узнать, как это реализовать на Python 3
    • 23 июля 2006 в 14:08

      Тестовый подкаст 01:00 0.9 Мб

      прослушан 143 раза
    • 10 отговорок заказчика, которые должен знать каждый фрилансер

      • Перевод
      Для тех, кто хочет попробовать свои силы в качестве фрилансера (неважно, в какой стезе — копирайтер, художник, дизайнер...) Этот чудесный список я нашёл на reddit.com. Фразы, перечисленные в нём, всем хорошо известны, но вообще — стоит распечатать этот список и повесить на стенку.

      Top 10 лживых фраз, которые говорят наивным фрилансерам

      1. «Сделай это дёшево (или бесплатно) — и в следующий раз мы заплатим больше».

      2. «У нас правило — платить только когда мы видим готовый продукт».

      3. «Сделай это для нас — и ты получишь всё! Заказы просто посыплются на твою голову!»

      4. Глядя на проект/концепцию: «Ну, мы пока не уверены, что ты нам подходишь, так что пока оставь свой материал у меня, чтобы я мог переговорить об этом с партнёром / инвестором / женой / духовным наставником».

      5. «Ну, мы ничего не отменяем, просто откладываем. Будь на связи, мы продолжим через месяц-два».

      6. «Контракт? Зачем нам эти гнусные бумажки! Разве мы не друзья?»

      7. «Пришли мне счёт, когда работа будет опубликована / размещена».

      8. «Предыдущий парень сделал это за ХХХ баксов».

      9. «У нас бюджет — ХХХ баксов, стопудофф».

      10. «У нас — финансовые проблемы. Давай мы немного подзаработаем — и заплатим, окей?»

      Просто будьте готовы вежливо ответить на эти возможные «аргументы» — и Ваш фриланс-опыт будет гораздо более удачным!
    • PowerSet подвинет Google?

      • Перевод
      Сам я ещё не видел презентацию поискового движка Powerset, но уже многие рассказывали о том, что после увиденного они больше никогда не будут пользоваться Гуглом.

      Цель Powerset — дать людям возможность использовать привычные словосочетания при поиске, в том числе и те слова, которые поисковики сейчас игнорируют. Как и многие другие, мне пришлось научиться менять свой традиционный язык при общении с поисковыми сайтами. Я использовал только ключевые слова, отбрасывая всё остальное. Отчасти эта привычка стала для меня нормой даже в общении с людьми, до такой степени, что переговоры в мессенджере или по электронной почте иногда казались забитыми какими-то лишними, бессмысленными словами!

      Несмотря на то, что я не считаю нынешние поисковые сервисы совершенными, я всё же не задумывался над проблемой того, что они не понимают нормальный человеческий язык. Откровенно говоря, я бы предпочёл развивать это умение — общаться так, чтобы нас понимали компьютеры, так как это поможет прогрессу в других высокотехнологичных сферах.

      Но Pell приводит убедительный аргумент: поиск с использованием нормального языка важен с точки зрения понимания смысла. Он демонстрирует пример в доказательство своей точки зрения — «книги для детей» (“book for children”), «книги, написанные детьми» (“book by children”) и «книги о детях» (“book about children”); эти три фразы для нынешних поисковиков будут равнозначны. То есть его главный аргумент таков: мы просто не сможем корректно выразить своё желание найти книги, написанные детьми, без использования нормального языка.

      Для запуска Powerset требуются солидные финансовые средства. Венчурные инвесторы — всегда отличный источник слухов (особенно когда они отказались от сделки или упустили её). При всём уважении к Powerset, ходят слухи, что компания хочет найти 10 миллионов долларов на проект, для запуска которого, по оценкам экспертов, требуется 20. Это действительно серьёзная сумма, но если вдруг Powerset подвинет Гугл — кто вспомнит о ней!..
    • Windows 7 Vienna — первые cкриншоты и информация


        В Интернете начали появляться первые «обзоры» и «скриншоты» новой версии Windows. Честно говоря, очень многие из них оказались откровенными фейками с ошибками в орфографии и неправильными версиями компонентов. Зато другие были похожи на правду. Мне интересно, это действительно первые ласточки или просто народ развлекается. Отмечу, что Майкрософт официально не комментирует данную информацию.
        Читать дальше →
      • Yahoo собирает «посылку» для инопланетян

          Проект Yahoo Time Capsule предполагает создание «антропологии человеческой жизни в 2006 г.». В течение тридцати дней, с 10 октября по 8 ноября 2006 г., все желающие могут прислать любые документы: фотографии, видеофильмы, аудиозаписи, тексты и даже рисунки. Все это будет тщательно отсортировано, упаковано и отправлено в будущее.
          Читать дальше →
        • Роман Иванов: «Поиск по блогам устроен довольно непросто»

            Роман Иванов, руководитель отдела коммуникационных сервисов «Яндекса», в интервью «Хабрахабру» рассказывает об особенностях поиска по блогам и сообщает, какие тренды видны в блогосфере рунета.

            Читать дальше →
          • Новостная интернет-журналистика

              Новостная интернет-журналистика
              Краткое руководство по написанию новостей и статей в интернет-издании. Структура новостей, составление заголовков, использование источников, стиль, работа с пиарщиками и многое другое.
              PDF-версия — удобно распечатать и читать.
              P.S Ну очень полезное издание. Обсудим?
            • Почему Баллмер так и не показал код

                Многие наверное помнят, как в конце февраля сообщество Open Source, и за ней большинство мировых технических СМИ, всколыхнул громкий ультиматум Стиву Баллмеру, требующий, чтобы тот показал те куски исходного кода в открытом ПО, которые по его словам нарушают патенты, принадлежащие Microsoft. Напомню, что по условиям ультиматума с нехитрым названием Show Us The Code, Баллмер должен был оформить свои претензии до 1 мая или, говоря прямо, идти к черту. И если со вторым, как наделся автор манифеста, второй человек в Редмонде справился бы сам, в первом ему должны были помочь тысячи добровольцев со всего мира, общими усилиями отыскав нужные фрагменты. Что же пошло не так?
                Читать дальше →