Pull to refresh
5
0
habrich @habrich

User

Send message

Самообучающаяся нейросеть 20Q.net задала уже миллиард вопросов

Reading time2 min
Views4.1K
Экспериментальный искусственный интеллект 20Q.net преодолел отметку в 50 000 000 тестов и вплотную приблизился к отметке в миллиард вопросов. Данная нейросеть построена на игре «Двадцать вопросов». Человек загадывает слово, а система его отгадывает, учитывая в процессе общения с человеком его возраст, пол и национальность.

Искусственный интеллект тренируется на людях. Получая ответы от нас, он пополняет свою базу знаний. Миллиард ответов означает, что сейчас он способен угадать практически любую мысль человека.

Посмотрим, насколько умён этот ИИ
Total votes 38: ↑37 and ↓1+36
Comments109

Управление информационным мусором в условиях быстрого его накопления в ограниченном пространстве

Reading time2 min
Views1.2K
Известно что единственный досаждающий недостаток широкого канала проявляется во внезапном пропадании свободного места на диске. Те у кого остались отсеки докупают винчестеры, но критический день рано или поздно наступает для всех: нужно что-нибудь чистить. Времени наспех смотреть/слушать/устанавливать/читать всё накопленное катастрофически не хватает. Лучше в это время качнуть еще что-нибудь, не так ли? Дилема Матроскина довольно быстро подтверждается: чтобы качнуть что-нибудь ненужное, нужно сначала закачать обратно удалить что-нибудь ненужное.

Однако плохо то, что непросмотренное теряется в этой свалке и вы уже не помните, что уже успели просмотреть, а что еще нет. Вы хотите привести всё это в порядок, но не хотите тратить на это времени.
Читать дальше →
Total votes 25: ↑22 and ↓3+19
Comments33

От данных — к информации

Reading time7 min
Views1.8K
В последнее время в специализированной прессе все чаще появляется «загадочная» аббревиатура ILM – Information Lifecycle Management. Ведущие разработчики один за другим предлагают решения для той или иной части ILM, красиво расписывая общую схему хранения данных в реорганизованном соответствующим образом датацентре. Однако ясного понимания, что же такое ILM, у российских заказчиков, на наш взгляд, пока не сложилось.

Первое, что стоит отметить: ILM – не панацея, не технология, не решение и не руководство к действию. Это концепция, отражающая современный взгляд на корпоративные данные; набор практик управления, нацеленных на достижение оптимального соотношения ценности информации для бизнеса и стоимости инфраструктуры её хранения.

ILM, согласно SNIA (Storage Networking Industry Association, www.snia.org), это политики, процессы, практики, сервисы и инструменты, используемые для того, чтобы соотнести ценность информации с точки зрения бизнеса с наиболее подходящей и эффективной по стоимости инфраструктурой, начиная с момента создания информации и заканчивая ее размещением. Информация сопоставляется с бизнес-требованиями через политики управления и уровни предоставления сервиса, связанные с приложениями, данными и метаданными.

Говоря проще, это концепция автоматического размещения данных в инфраструктуре датацентра на основании требований бизнеса к параметрам защищенности, доступности информации и с учетом ее ценности для бизнеса, актуальности и минимизации расходов на хранение. Какие же проблемы хранения помогает решить ILM?

Не захлебнуться в океане данных

Ни для кого не секрет, что объем корпоративной информации с каждым годом увеличивается, и очень серьезно. В соответствии с отчетами IDC рост объемов хранимых и обрабатываемых данных составляет более 70% в год. В среднестатистической современной компании три тысячи сотрудников ежедневно передают по электронной почте терабайт данных. Всего в мире, по подсчётам Gartner, в 2005 году отправлялось 36 миллиардов электронных сообщений в день — в три раза больше, чем в 2001-м. В некоторых специфичных отраслях, например в медицине, наблюдается экспоненциальный рост информационных объёмов.

Ситуация осложняется требованиями нормативных актов и внутрикорпоративныхстандартов, предписывающих длительное хранение некоторых видов информации — иногда в течение 5--10 лет. А это значит, что компания, имеющая корпоративные данные скромного объема в 1 Тбайт и показывающая рост этих объёмов 60% в год (не самый большой по современным меркам), через 10 лет будет хранить уже 110 Тбайт информации. Увеличение более чем в 100 раз!

Проблема взрывного роста объемов данных тесно связана с другой проблемой: постоянно усложняются процессы управления распределенной инфраструктурой датацентров. Современный центр обработки данных состоит из тысяч взаимодействующих компонентов – серверов, элементов систем хранения (логических единиц, дисков, контроллеров, управляющих серверов, ленточных накопителей и т. д.), элементов сетей хранения и локальных сетей (маршрутизаторов, хост-контроллеров, адаптеров и пр.). Для управления сложной инфраструктурой применяются специальные инструменты, причём для каждого вида инфраструктурных элементов — свои. И чем больше в датацентре разнородных компонентов, тем больше инструментов управления вы вынуждены использовать. Что ещё больше увеличивает сложность системы.

Кроме того, использование специализированных инструментов управления инфраструктурой не решает основной задачи – управлять лавинообразно растущим потоком данных. Компании продолжают хранить информацию в дорогих высокопроизводительных системах и, несмотря на снижение стоимости оборудования, с каждым годом расходуют всё больше средств на её хранение. Процесс резервного копирования становится всё сложнее и требует больше и больше времени. При этом существующие инструменты управления не автоматизируют в достаточной степени процессы размещения информации – администраторы фактически вручную выделяют место для ее хранения, задают привязку к необходимым серверам, создают расписание резервного копирования, определяют источники и места назначения.

Сложившуюся ситуацию в области хранения данных можно охарактеризовать следующим образом: объем данных катастрофически растет, а имеющиеся инструменты управления не в силах с этим справиться.

Нужны ли бизнесу все сохраняемые в системах данные?

Возвращаясь к примеру компании, за 10 лет увеличившей объём корпоративной информации в 100 раз, зададимся вопросом: так ли необходимы её бизнесу эти 110 Тбайт данных, размещенных в оперативных хранилищах?

Очевидно, что нет. С течением времени меняется как ценность данных, так и требования к их доступности и защищенности. Так, ценность финансовой транзакции максимальна в течение первого месяца и впоследствии неуклонно снижается. Кроме того, финансовая запись в ERP-системе компании и, скажем, личное письмо сотрудника имеют разную ценность для бизнеса уже в момент создания.

Между тем в оперативных высокопроизводительных хранилищах датацентра располагаются все данные, включая устаревшие и ненужные, в то время как храниться там должны только те, к которым предъявляются высокие требования доступности.

Анализ, проведенный Enterprise Storage Group, показывает, каким образом ценность информации для бизнеса изменяется с течением времени в зависимости от ее типа.



Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется с течением времени.

Следующее важное свойство корпоративных данных – их состояние. Создаваемые данные сохраняются в датацентре для последующей обработки и затем в зависимости от решаемых бизнесом задач изменяются. Пока данные изменяются, они находятся в активном состоянии и называются оперативными. Но с течением времени наступает момент, когда данные «закрепляются» и более изменениям не подвергаются. Они могут использоваться для генерации новых документов, сводных отчетов и т. п. Такие данные называют ссылочными. Естественный способ хранения ссылочных данных – архив.

В современных датацентрах обычно оперативные и ссылочные данные размещаются вместе, в одних и тех же хранилищах, что не только увеличивает стоимость хранения, но и создает трудности с соблюдением нормативных актов, регламентирующих хранение определенных видов информации.

Наконец, есть еще одно состояние – устаревшие данные, которые нигде более не используются, а срок их хранения, регламентируемый нормативными актами, истек. Такие данные больше не нужны бизнесу, их ценность нулевая, и они могут быть удалены. В настоящее время устаревшие данные отслеживаются практически вручную, их удаление из системы представляет собой кошмар для администратора, а хранение – пустую трату денег.

Вперед и вверх!

Описывая текущую ситуацию с хранением данных, мы намеренно не акцентировали внимания на различии между данными и информацией. Точно так же эти различия не учитываются в сложившейся сегодня практике организации процессов и инфраструктуры хранения. Однако именно этот аспект – один из важнейших в концепции ILM: данные ≠ информация

Данные – это просто набор байтов, способ отражения бизнес-информации в инфраструктуре хранения. С такой точки зрения все они представляют одинаковую ценность, поскольку их семантика не определена, а значение здесь имеют такие параметры, как надежность хранения, защищенность и доступность. Именно этими характеристиками оперируют современные системы хранения данных и инструменты управления инфраструктурой.

Информация – это данные, представляющие определенный смысл для бизнеса. Аналогичные по структуре данные, одинаково размещенные в системе хранения, могут иметь совершенно разный смысл и, следовательно, разную ценность для компании. Например, личное письмо сотрудника, посланное по электронной почте, и письмо того же сотрудника, содержащее конфиденциальные сведения о клиенте.

ILM предлагает уйти от управления данными и сфокусироваться на управлении информацией. Для этого необходимо в первую очередь изменить подход к ее хранению. В рамках ILM предлагается классифицировать бизнес-информацию компании, прежде чем она попадет в инфраструктуру хранения. Классификация – это необходимый для эффективного управления жизненным циклом информации процесс, обеспечивающий хранимые данные адекватной семантикой.

Для этого процесса вводятся понятия целевых показателей уровня сервиса (Service Level Objectives — SLO) и «политик» (Policies), на основе которых будет осуществляться управление хранением информации. SLO определяет, какие показатели ключевых характеристик (надежности, доступности и др.) должны обеспечиваться инфраструктурой хранения для данного класса информации. «Политики» определяют необходимые действия с конкретными классами информации при возникновении определенных условий (например, при окончании срока жизни информации). Основой для формирования SLO и политик являются бизнес-требования и бизнес-процессы компании, а также различные нормативные акты.

Таким образом, подход к хранению данных в датацентре становится информационно-центричным.



Создаваемая информация классифицируется, с ней связываются определенные SLO, на основании которых интегрированный в инфраструктуру механизм управления размещает эту информацию согласно заданным политикам. Это значит, что информация, требующая высокой доступности, попадет в высокопроизводительные системы хранения, а та, что не является критически важной для бизнеса, разместится в недорогих хранилищах.

При этом механизмы работы приложений с данными не меняются, но инструменты управления постоянно отслеживают ценность информации, ее состояние и перемещают ее в адекватные системы хранения согласно политикам и SLO. На определенном этапе жизненного цикла информация может стать ссылочной, устареть или повторно использоваться. Тогда механизм управления в первом случае передаст ее в архив, во втором – просто удалит, а в третьем – заново классифицирует и свяжет с другим SLO.

Таким образом, датацентр, построенный согласно ILM, обеспечивает следующие основные преимущества:

  • снижение стоимости хранения информации (за счет своевременного переноса данных в недорогие системы хранения и уничтожения устаревшей информации);
    строгое соблюдение нормативных актов, регламентирующих хранение данных, путем автоматического применения политик;
    достижение соответствия характеристик хранения (надежности, защищенности, доступности и др.) различным классам информации;
    исключение дублирования информации (за счет управления ссылочными данными).

    И при этом информация всегда предоставляется в нужном месте, в нужное время и по оптимальной цене.
Total votes 25: ↑22 and ↓3+19
Comments41

Директор Google сомневается в Семантической сети

Reading time2 min
Views906
Тим Бернерс-Ли считается одним из отцов-основателей Всемирной паутины и является действующим директором Консорциума W3C. Он выступил со вступительным словом о Семантической сети во вторник на открытии XXI Национальной конференции по искусственному интеллекту.

Тим Бернерс-Ли сказал, что следующим этапом эволюции Всемирной сети станет создание среды, в которой все данные будут доступны для обнаружения и анализа программами искусственного интеллекта. Семантическая сеть — это интернет, где вся информация специально отформатирована не только для удобства человека, но также для удобства машин, которые тоже будут с ней активно работать. Благодаря этому появятся новые возможности по обработке информации и новые приложения.

Как обычно, директор W3C призвал разработчиков более активно использовать семантические языки, вдобавок к HTML. Он обратил внимание на важность использования идентификаторов URI (Uniform Resource Identifiers) и стандарта RDF (Resource Description Framework) для идентификации информации. Если создание Семантической сети пойдет в намеченном направлении, то скоро интернет превратится в интерактивную среду для совместного творчества и работы, как и было задумано изначально.

Сразу после окончания выступления было предусмотрено время для вопросов из зала, и первым к микрофону подошел директор Google по поиску и член Американской ассоциации по искусственному интеллекту Питер Норвиг (Peter Norvig). Он использовал возможность публичного выступления на полную катушку и даже поспорил с оратором, сообщают журналисты, ставшие свидетелями спора.

Питер Норвиг выступил от имени компании Google и заявил, что на пути к Семантической сети стоит несколько препятствий. Главное из них — некомпетентность веб-мастеров: «Мы имеем дело с миллионами веб-мастеров, которые не могут настроить веб-сервер и не способны написать HTML-код». Этим горе-специалистам будет очень тяжело перейти к стандартам Семантической сети. Другие проблемы — конкуренция коммерческих провайдеров, которые не желают принимать единые стандарты, и жульничество, которое является естественной частью человеческой натуры. «Каждый день мы имеем дело с людьми, которые пытаются поднять свой сайт в результатах поиска и продать виагру кому-нибудь, кто ее совсем не ищет», — сказал Питер Норвиг.

Тим Бернерс-Ли согласился, что жульничество в интернете — это проблема, но он объяснил, что Семантическая сеть подразумевает главным образом идентификацию источника информации, а не описание контента. Вообще, компания Google должна быть как никто другой заинтересована во внедрении стандартов Семантической сети.
Rating0
Comments8

Опубликованы доклады с конференции «Будущее веб-поиска»

Reading time3 min
Views926
Научная конференция «Будущее веб-поиска» состоялась 19-20 мая в Барселоне (Испания) и была организована при участии Yahoo. Спустя некоторое время в онлайне были опубликованы доклады.

Список презентаций включает 26 научных работ на самые разные темы: анализ ссылок, алгоритмы, извлечение информации, структурирование данных, интеграция поиска с другими средами, дата-майниинг. О своих разработках рассказали ученые из Германии, Испании, США, Великобритании, Италии, Финляндии, Венгрии, Израиля, Канады и Голландии, а также исследователи из компании Yahoo.

«Хабрахабр» публикует полный список презентаций со ссылками на файлы PDF. Каждая из презентаций включает ключевые слайды. Слайдов может быть разное количество: от шести до трех десятков, но они обычно предельно насыщены информацией. Это основные тезисы работы плюс сопутствующие графики и формулы. Кстати говоря, многие из научных работ можно найти в открытом доступе в Сети в архивах научных журналов.
Читать дальше →
Rating0
Comments0

Neptune: инструмент для GTD

Reading time2 min
Views2.4K


По натуре своей я человек базалаберный и склонный откладывать на послезавтра все то, что нельзя отложить на завтра. Пару месяцев назад друзья загнали меня в угол и заставили прочесть "Getting Things Done: The Art of Stress-Free Productivity". В сети достаточно материалов про эту методику и я не буду агитировать за ее использование — скажу лишь, что это помогает даже мне.

Речь пойдет больше об инструментарии. Я отношусь к тем, кто работает преимущественно за компом и «классическая» реализация с ее папками и карточками меня определенно утомляет. За последний месяц я перепробовал достаточное количество программ, предназначенных для работы с методикой GTD — от Outlook Dashboard до GTDMail. В результате я остановился на весьма удобной, легкой и интуитивно понятной Neptune.
Читать дальше →
Total votes 37: ↑37 and ↓0+37
Comments34

30 советов, как эффективно трудиться и не сойти с ума, работая дома

Reading time5 min
Views17K
Тем, кому знакомы прелести работы дома (на себя, фрилансером или удаленно на ставку), также знаком соблазн поваляться на диване и затягивание сроков.

Я тоже люблю вздремнуть часок-другой, но это должно быть перерывом, а не постоянным рабочим режимом.

С другой стороны, работа дома приводит к размытию границ между работой и личной жизнью — если работать чересчур много, то не останется времени и сил на жизнь как таковую.

Так как же работать эффективно и в то же время не довести себя до нервного истощения? Я недавно уволился с постоянной работы и поэтому спросил совета у читателей своего блога. Они, как и всегда, откликнулись на мою просьбу, и я отобрал наиболее понравившиеся мне рекомендации, чтобы люди могли использовать их как руководство (ну, я тоже собираюсь руководствоваться этими советами).
Читать дальше →
Total votes 125: ↑123 and ↓2+121
Comments198

Моя любимая медитация

Reading time3 min
Views3.4K
Вот простая, но эффективная медитация, которая может вам понравиться. Обучение основам медитации не является целью этой заметки (может, кто-нибудь напишет комментарий со ссылкой на руководство по медитации для тех, кто еще этим не занимался, но если вы уже знакомы с этим, я думаю, вы найдете эту медитацию интересной и ценной.
Читать дальше →
Total votes 42: ↑33 and ↓9+24
Comments48

чтение с экрана?

Reading time1 min
Views1.2K
Наверное многие на хабре читают за компьютерами, ноутбуками, коммуникаторами и т.п. Только как это правильно делать к сожалению знают не многие в том числе и я. Хочу спросить может кто разбирался с этим вопросам, а то уж очень не хочеться через несколько лет одеть очки. Я имею ввиду какую контрастность, яркость, размер шрифта, фон и т.д. лучше ставить что бы наносить как можно меньшей вред для глаз. Поиск не чего толкового к сожалению не дал. Приветствуется любой матерьял на эту тему. Заранее спасибо.
Total votes 20: ↑14 and ↓6+8
Comments25

ИМУ 2008. Неофициальные итоги: фото, видео, etc.

Reading time2 min
Views541
21 и 22 мая в Киеве состоялась 4-я международная конференция «Интернет-Маркетинг в Украине». Прошла уже неделя, и, думаю, самое время уже кое-как подводить итоги. Для тех, кто там был (человек 400), и для тех, кому не повезло кто там еще не был, я составил следующую подборку:

Читать дальше →
Total votes 15: ↑15 and ↓0+15
Comments3

Вертикальное выравнивание в div'ах

Reading time1 min
Views2K
По мотивам cssing.org.ua.

Для вертикального выравнивания в блоках разработчики W3C создали замечательное свойство display: table-cell;, которое позволяет заставить какой-либо элемент отображаться как ячейка таблицы. При этом добавив vertical-align: middle; мы прекрасно справились бы с поставленной задачей, если бы не Internet Explorer, который ни в какую не хочет поддерживать свойство display: table-cell;.

читать дальше
Total votes 21: ↑18 and ↓3+15
Comments31

Подбор пароля к архиву

Reading time1 min
Views9.8K
Давным-давно, во времена BBS и Fido, была такая пошлая мода – ставить пароли на архивы с файлами. Получая файл, Вы не всегда могли его нормально распаковать. Приходилось использовать подручные средства и методом перебора «взламывать» архив. В основном программы были под Windows, а под *-nix системы не попадались реже. Разработчики, как могли, восполнили этот пробел, неспешно совершенствуя проект «rarcrack». Методом перебора (или «грубой силы» / brute force) программа сможет подобрать забытый пароль к файлам, заархивированным zip, 7z или rar.

А встречались ли Вам подобные разработки?

Операционная система: All POSIX (Linux/BSD/UNIX-like OSes)
Тип лицензии: GNU General Public License (GPL)
Страница проекта: sourceforge.net/projects/rarcrack
Total votes 8: ↑7 and ↓1+6
Comments15

Мотивация, жизнь и работа, опять о ней

Reading time3 min
Views2.1K
Научится заставлять себя что-то сделать для меня было нереально сложно. Мне очень повезло со способностями, поэтому все, что я брался делать выходило очень просто. Это ужасно расхалаживало меня последние пять лет. Когда я знаю, что для меня дело стоит в 30 минут, я дотяну до последних 30 минут и все сделаю «почти в срок». «Почти», потому что чем дальше я испытывал свои способности на прочность, тем чаще они давали осечки. Я банально не успевал, опаздывал со сдачей, на встречи и само собой переживал по этому поводу. Незавершенные, отложенные дела копились и копились, я оброс все большими обязательствами, идеями, проектами. Все это угнетало настолько, что мозг вырабатывал защитную реакцию — выкинуть все из головы, а значит задвинуть еще день, два, час, ахххррр!

Все кончилось тем, что я пропустил кучу хороших проектов, испортил с некоторыми людьми отношения и отчислился из института, вот так.

Месяца три назад я стал искать решение и, кажется, оно уже было у меня в голове. С удовольствием расскажу об этом.

Читать дальше →
Total votes 108: ↑100 and ↓8+92
Comments62

Интервью с создателем habrahabr — Денисом Крючковым

Reading time7 min
Views2.3K
С Денисом мы не могли побеседовать около двух месяцев, на каждой неделе по нескольку раз договариваясь о встрече. Не складывались обстоятельства: то один, то другой не мог подъехать. В итоге, мы все же встретились в баре Boozz, который находится неподалеку от офисов Тематических Медиа и Futurico.

Даня: Какие же кармические причины нам мешали встретиться месяца два, наверное?
Денис: Я думаю, что занятость.

Даня: Ты занимался сексом с детьми и строил свое казино с блек-джеком и шлюхами?
Денис: Нет, это было раньше, теперь я с этим завязал.

Читать дальше →
Total votes 132: ↑113 and ↓19+94
Comments118

UA WEB 2008 – впечатления

Reading time2 min
Views1.1K
По горячим следам конференции расскажу свои впечатления. Тут темы, тут докладчики. Расскажу о тех местах, на которые я попал. Ниже только мои личные впечатления, вполне может быть, что впечатления других участников отличаются.

День 1


Первый доклад Макса Ищенко про зарплаты. Человек с чувством юмора. Из его графиков зарплат понял, что новичкам в 2007 году платили 600-700 баксов, просто программерам 1200.

Класматес (соц сети). Вода по большей мере. Разве что, надо отметить, что парень рассказывал без дрожания в голосе и то, что он таки продает себя.

Особенности трансляции СМИ в интернете (Владимир Михалко) – интересно. Докладчик явно в струе, рассказывал хорошо.

Кофе-брейк. Различные ништяки на столе. Встреча знакомых.

SaaS. Пиар системы 1-С Битрикс – дань спонсорам.

Виталий Харисов – верстка независимыми блоками. Интересный доклад от разработчика яндекс.

Психофизик – вода. Вспомнил институт, вспомнил препода, читающего с листика.

Комфортная разработка сайтов на XSL – было не очень комфортно. Докладчица сильно нервничала, казалось, что плачет. Решил пойти в другой зал, в более спокойную атмосферу.

nginx. Игорь Сысоев понравился — крутой мужик.

Флекс. Рассказывали два смешных кадра. Думаю, с ними весело работать. Повеселило, когда они начали распивать минералку во время речи – могли бы даже тост сказать.

Запрос — ответ? Это не наш метод! (Александр Костюченко). Расказывал про технологию Комет. Интересно, систематизировал немного скудную инфу по этой теме. Мне даже захотелось сослаться на опен соурсный крос ленгвидж комет-сервер.

Первый день относительно интересный. Организация все же на хорошем уровне.
Читать дальше →
Total votes 19: ↑17 and ↓2+15
Comments29

Мой онлайновый органайзер.

Reading time1 min
Views1.4K
Представляю вниманию хабрапользователей новый сервис — онлайновый органайзер Synook. Сервис содержит rss-reader, адресную книгу, блокнот и социальные (а так же персональные) закладки. Разработка сервиса продолжается и в скором времени появятся новые возможности: список дел (todo list), менеджер задач, расписание, а так же все возможные полезные дополнения, позволяющие интегрировать сервисы прямо в браузер.
Total votes 11: ↑6 and ↓5+1
Comments16

Прототип бионического глаза и звуковая капча

Reading time1 min
Views1.3K
В догонку к статье Прототип бионического глаза позволит людям, потерявшим зрение, снова видеть.

CurlyBrace
Браво! Открытия, потенциально облегчающие жизнь миллионам людей достойны Нобелевки.


Как не странно почти каждый из пользователей Хабра может облегчить жизнь слабовидящим людям. Если вы не в курсе, слепые пользуются компом на ровне со зрячими, через специальные речевые проги. Я работал с невидящим прогером и суппортером, и однозначно могу сказать, что работоспособность его была на порядок выше многих зрячих.
Читать дальше →
Total votes 106: ↑103 and ↓3+100
Comments81

Information

Rating
Does not participate
Location
Киевская обл., Украина
Registered