Pull to refresh
0
0
Борис @Theorist

User

Send message

Как починить машину в интернете: история создания поисковика автозапчастей

Reading time4 min
Views35K
image

За последние несколько лет в интернете появилось множество самых разнообразных сервисов-агрегаторов и поисковиков, «заточенных» под любые нужды пользователей от поиска смартфонов до бронирования авиабилетов и отелей. Мы создали поисковик, который помогает автолюбителям выгодно покупать запчасти для авто. В сегодняшнем топике — история развития и рассказ об инфраструктуре проекта.
Читать дальше →
Total votes 40: ↑37 and ↓3+34
Comments91

Конвейер обработки текста в Sphinx

Reading time10 min
Views15K
Обработка текста в поисковом движке выглядит достаточно простой снаружи, однако на самом деле это сложный процесс. При индексации текст документов должен быть обработан стриппером HTML, токенайзером, фильтром стоп-слов, фильтром словоформ и морфологическим процессором. А ещё при этом нужно помнить про исключения (exceptions), слитные (blended) символы, N-граммы и границы предложений. При поиске всё становится ещё сложнее, поскольку помимо всего вышеупомянутого нужно вдобавок обрабатывать синтаксис запроса, который добавляет всевозможные спец. символы (операторы и маски). Сейчас мы расскажем, как всё это работает в Sphinx.

Картина в целом


Упрощённо конвейер обработки текста (в движке версий 2.х) выглядит примерно так:



Выглядит достаточно просто, однако дьявол кроется в деталях. Есть несколько очень разных фильтров (которые применяются в особом порядке); токенайзер занимается ещё чем-то помимо разбиения текста на слова; и наконец под «и т.д.» в блоке морфологии на самом деле находится ещё по меньшей мере три разных варианта.

Поэтому более точной будет следующая картина:



А теперь перейдём к деталям
Total votes 16: ↑16 and ↓0+16
Comments8

Знаки доверия, контрольные закупки и отзывы от реальных покупателей как инструменты интернет-продавца

Reading time5 min
Views7.4K
В условиях Интернета и социальных сетей трудно «формировать» образ интернет-продавца — информация идет потоком. Однако можно влиять на ситуацию — дать возможность толпе опереться не только на свои оценки. А на чьи еще оценки можно опереться? На экспертные, в первую очередь. Можно еще сделать ставку на оценки из липовых отзывов — но метод так себе! На какие еще? Ответьте сами.

А я рассмотрю ситуацию, когда в качестве эксперта может выступить сервис сертификации, а в качестве отзывов покупателей — отзывы только от тех, кто реально купил, причем такие, с которыми немного поработали к выгоде обеих сторон.

Читать дальше →
Total votes 21: ↑17 and ↓4+13
Comments16

Парламент США принял закон против патентных троллей

Reading time3 min
Views57K


Законопроект “The Innovation Act of 2013” прошёл через Палату представителей — нижнюю палату американского парламента. За него проголосовали обе партии, с общим результатом 325-91. Такое единодушие объяснимо: в последнее время истории о патентных троллях, которые пытаются выбить плату из владельцев малого бизнеса, гостиниц и ресторанов, вызвали большой общественный резонанс.

Что важно, парламент успешно заблокировал поправки к законопроекту, которые пытались исключить из него критически важные пункты.
Читать дальше →
Total votes 170: ↑167 and ↓3+164
Comments141

Почему я не стану вас нанимать

Reading time5 min
Views42K
image

Один мой товарищ недавно активно искал работу, и спрашивал меня, как себя подавать перед работодателем. Погуглив, мы пролистали с десяток статей о том, как надо и как не надо делать во время поиска, и одну из них я решил перевести для хабрасообщества, возможно кому-то это поможет избежать ошибок, которые в ней описаны. Манера статьи довольно провокационная, язык местами нецензурен, поэтому я постарался сгладить углы. Итак, поехали..
Читать дальше →
Total votes 230: ↑159 and ↓71+88
Comments262

Google научился понимать знаки пунктуации и символы

Reading time1 min
Views3.9K
Когда неделю назад Google внедрил результаты Google+ в основную поисковую выдачу, у них разгорелся спор с Twitter. Компания Twitter обиделась, что Google якобы специально игнорирует их 200 млн ежедневных твитов. Например, при запросе [@nba], когда пользователь очевидно ищет твиттер Национальной баскетбольной ассоциации, поисковая система не учитывает знак [@] и выдаёт результаты, аналогичные поисковому запросу [nba]. То же самое и по другим запросам со значком [@]. В ответ представитель Google спокойно объяснил, что их поисковая система никогда не индексировала знаки пунктуации, в том числе @.

Сейчас Google всё-таки начал искать знаки пунктуации. Правда, совсем не так, как этого бы хотелось Twitter. Поисковая система по-прежнему не индексирует их, а только распознаёт в поисковой строке [@] и другие символы: [.], [,], [:], [;], [#], [%], [^], [)], [~], [|], ["], [<], [$]. Они автоматически переводятся в соответствующие словарные запросы. Например, поисковый запрос [@] распознаётся как запрос [at sign], а [%] распознаётся как [percent sign].


Двоеточие распознаётся как "colon" (кишка)

При этом в поисковом запросе [@nba] значок [@] по-прежнему игнорируется, и официальный твиттер организации находится далеко от начала поисковой выдачи.
Total votes 51: ↑42 and ↓9+33
Comments25

Склад интернет-магазина Amazon

Reading time1 min
Views19K
В период бума дот-комов, когда еще никто из электронных розничных продавцов всерьез не задумывался о логистике, казалось важнее привлечь клиентов, а не обслужить их, Amazon серьезно занимался проблемой логистического обеспечения заказа.
Теперь Amazon универсальная ритейл платформа, им уже все равно, чем торговать, и в большей степени за счет гибкой, масштабируемой, и высокоавтоматизированной логистики интегрированной с функциями складирования, транспортировки, и управления спросом.


Еще фото
Total votes 193: ↑174 and ↓19+155
Comments130

Опыт заказа в китайских интернет-магазинах

Reading time5 min
Views578K
В данной статье хотелось бы поделиться с читателями своим личным опытом о китайских интернет-магазинах, в которых мне (или моим друзьям) приходилось делать покупки. Речь пойдет именно про электронный сегмент товаров. Сразу перейду к сути, и приведу обзоры этих самых магазинов с заключительной оценкой:
Читать дальше →
Total votes 169: ↑155 and ↓14+141
Comments106

Президент «Ростелекома» обсуждает отказ от принципа сетевой нейтральности

Reading time3 min
Views14K
Появление на Nag.Ru статьи «Зелёненькое и синенькое будущее Ростелекома» 12 мая и последующее появление на NoNaMe статьи «ОАО "Ростелеком" Безлимита больше не будет!» 20 мая, несомненно, отражает мощное (пожалуй, даже с нотками истерики) беспокойство множества сетевиков и сетян по поводу целого ряда заявлений Александра Юрьевича Провоторова, президента ОАО «Ростелеком».
Читать дальше →
Total votes 211: ↑190 and ↓21+169
Comments410

Тренировка креативного мышления дизайнера

Reading time1 min
Views6.4K

А как Вы тренируете креативное мышление?



Дизайнер Robert Butkovic взялся нарисовать 100 логотипов за 100 дней, на разработку логотипа он отвел себе не более 100 минут. Большинство логотипов смахивает на иллюстрации, некоторым явно не хватает профессионализма, но учитывая, что на разработку логотипа отводилось мало времени, дизайнер позволил себе некоторую свободу, на первое место вышла идея, а не ее реализация. Такой способ найти себя внушает уважение.

BRAINSTORMING
День 004
Время работы: 80 мин
image
SPAVANJE
День 021
Время работы: 3 мин
image
Читать дальше →
Total votes 105: ↑94 and ↓11+83
Comments60

Чит с like или грязная раскрутка

Reading time2 min
Views14K

Do you like?




Я, как и многие мои друзья, используем like, чтобы отметить что понравилось и поделиться с друзьями. За долгое время пользования фейсбука, я привык к глюкам API и некоторым проблемам c виджетами, но я первый раз столкнулся с такой красивой реализацией чита.
Читать дальше →
Total votes 236: ↑209 and ↓27+182
Comments68

Форензика. Компьютерная криминалистика. Н.Н. Федотов

Reading time2 min
Views33K
image

Уважаемые хабраюзеры!

Позвольте порекомендовать вам единственную и по-настоящему стоящую книгу по тематике компьютерной криминалистики на русском языке.

Аннотация говорит сама за себя:
Читать дальше →
Total votes 87: ↑76 and ↓11+65
Comments71

Хранение паролей в Android

Reading time8 min
Views117K
Предисловие: Этот обзор был написан после прочтения топика “Свободный Android — золотая жила для Google” и комментариев к нему. Автору перевода данного топика я хочу сказать свое спасибо.
Кроме того, хочу поблагодарить форум androidfan.ru за их ветку с описанием приложений, где собственно и были найдены рассматреваемые экземпляры.

История вопроса



Два года назад, 21 октября 2008 года мобильная платформа Android перестала быть лишь виртуальной основой для разработчиков и вышла в реальный мир в образе коммуникатора T-Mobile G1 (HTC Dream). С момента первого выхода система претерпела множество изменений, как по качеству кода, так и по количеству возможностей, предоставляемых ей. Однако, как справедливо было замечено некоторыми хабровчанами, качество и популярность платформы зависят не только от интенсивности ее разработки и качества собственного кода, но и от приложений, которыми она позволяет пользоваться.

Кроме того, если вы любите обращать внимания на маленькие детали, то могли заметить, что Android, как операционная система, быстро приобрел большую популярность не только у простых пользователей, но также и у производителей мобильных устройств – ведь они достаточно быстро стали выпускать коммуникаторы бизнес-класса.
Осторожно, много скриншотов!
Подробнее о хранении паролей
Total votes 54: ↑43 and ↓11+32
Comments95

Поднять уровень английского легко!

Reading time1 min
Views15K
Чувак отлично рассказывает и подробно показывает.
Например, за 1 минуту можно выучить 50 тысяч английских слов, не верите?

В русском языке существует около 50 тысяч слов оканчивающихся на «ция» и «сия».
Так вот, почти все слова оканчивающиеся на «ция» имею окончание tion, а на «сия» — sion.
Т.е. из слова вы подставляется все до окончания «ция», «сия».
Модернизация — Modernization
Делегация — Delegation
Корпорация — Corporation
Абстракция — Abstraction
Профессия — Profession

1 урок


Остальные 3 видео доступны в плейлисте или на странице пользователя DjonikNSK
torrent: rutracker.org/forum/viewtopic.php?t=3904361
Total votes 96: ↑55 and ↓41+14
Comments65

Как я нанимаю программистов

Reading time4 min
Views10K
Есть три вопроса, ответ на которые надо знать, когда нанимаешь на работу программиста:
      1) Он умный?
      2) Способен ли он выполнять работу?
      3) Смогу ли я с ним работать?

Кто-то умный но не способный выполнять работу может быть хорошим другом, но не сотрудником. Можно обсудить с ним какие-то проблемы, пока он прохлаждается на своей собственной работе.

Тот, кто способен выполнять работу но не умён – неэффективен. Неумные люди выполняют работу путём грубой силы. Работа с такими людьми движется медленно и обычно раздражает.

С тем, с кем я не смогу работать – я не смогу работать.

Под катом продолжение статьи Аарона Шварца. Я бы предпочёл чтобы меня собеседовали таким образом, чем быть изучаемым девочкой-сотрудницей ОК, которая не отличает http от mp3.

Читать дальше →
Total votes 136: ↑112 and ↓24+88
Comments133

Как выбрать штат юрисдикции в USA по ставкам налогов

Reading time1 min
Views7.1K
Этот пост стал логическим «продолжением пути» поста "Обязательно ли получать лицензию Нацбанка Украины для создания компании за границей?".




Поиски информации о налоговых ставках разных штатов США показали следующее.

Если учитывать, что классической формой инкорпорирования считается С Corp, а типичными налогами на деятельность этих компаний являются Federal Tax, Income Tax и Sales Tax, то сопоставляя соответствующие карты вы можете выбрать для своей компании оптимальную (по соотношению этих двух налогов) юрисдикцию.
Читать дальше →
Total votes 38: ↑35 and ↓3+32
Comments18

Брюс Шнайер: Иллюзия безопасности

Reading time12 min
Views45K
image
Брюс Шнайер не нуждается в представлениях. На Хабрахабре можно найти много статей, касающихся деятельности этого «гуру криптографии». Под катом — текстовая расшифровка видеолекции Брюса Шнайера «The security mirage» («Иллюзия безопасности»).
Эта лекция доступна на YouTube, на Amara её можно посмотреть с субтитрами на 28-ми языках (включая русский). Что же заставило меня отнимать твоё время, хабрачитатель?
Ну и что же там?
Total votes 80: ↑77 and ↓3+74
Comments25

Определение местоположения по mac адресу роутера

Reading time1 min
Views166K
image

1. Узнаем MAC–адрес WiFi роутера, через который вы выходите в интернет. (Через веб–интерфейс, дать arp–запрос «arp -a», посмотреть на обратной стороне девайса.)

2. Заходим по адресу samy.pl/mapxss

3. Вбиваем в текстовое поле MAC–адрес и жмем «Search MAC».

Как это работает?
Читать дальше →
Total votes 109: ↑91 and ↓18+73
Comments283

Кастомные переменные Google Analytics, или новые возможности для сегментирования вашего трафика

Reading time4 min
Views11K
Как Вы, вероятно, уже знаете не так давно произошло обновление Google Analytics. Данное обновление было освещено и здесь, на хабре, — Грандиозное обновление Google Analytics

В частности изменения коснулись:
  • Увеличено количество целей до 20 (4 набора по 5 целей в каждом)
  • Появились цели новых типов (время проведенное на сайте и кол-во просмотренных страниц)
  • Веб-аналитика мобильных сайтов. Статистика с приложений на платформах Android и IPhone также как для веб-сайтав
  • Адаптация кода Analytics под выбранную платформу
  • Появление Pivot таблиц в отчетах — то чего очень не хватало многим, и из-за чего приходилось использовать Excel
  • Фильтрация данных в отчетах на лету
  • Добавлена новая метрика — уникальные посетители
  • Расширена возможность работы с событиями
  • Полностью изменены принципы работы с пользовательскими переменными


На последнем я бы и хотел остановить свое внимание.
Читать дальше →
Total votes 42: ↑37 and ↓5+32
Comments21

Отличная идея для стартапа? Хм… Вряд ли

Reading time4 min
Views4.5K
Это вольный перевод-пересказ этой статьи 2006 года, на которую я наткнулся около mailinator.com, за авторством Paul Tyma. Упоминаний на хабре не нашел, да будет перевод!

Итак, у вас есть отличная идея.


За годы работы я запустил небольшую кучку проектов и создал несколько компаний. Например Mailinator, Preemptive Solutions, Inc., и Classhat. На самом деле я наделал их гораздо, гораздо больше, но про большинство слышала разве что моя бабушка. Всё потому, что преимущественно это были глупые идеи, неудачные попытки что то сделать, или чересчур масштабные начинания, чтобы я мог довести их до релиза. Поучившись на своих ошибках, я теперь каждую новую идею проверяю на соответствие определённому набору правил, чтобы отсеять хорошие идеи от плохих. Ну или тех, которые мне кажутся таковыми.
Не забывайте, эти правила для канонічного стартапа — когда из сотрудников только вы и ваш друг, а денег — на пиво и чипсы. Если у вас в загашнике завалялись лишние пару миллионов — вы можете творить магию и без этих советов.

Что же там пишет Paul о стартапах?
Total votes 80: ↑68 and ↓12+56
Comments17
1
23 ...

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity