Как стать автором
Обновить
10
0
Никита Жильцов @nzhiltsov

Пользователь

Отправить сообщение

RuSSIR 2018: 12-я летняя школа по информационному поиску

Время на прочтение2 мин
Количество просмотров3.4K
27–31 августа в Казани пройдет 12-я международная летняя школа по информационному поиску RuSSIR 2018.

В этом году её организуют Казанский федеральный университет (КФУ) и Российский семинар по оценке методов информационного поиска (РОМИП) при поддержке ACM SIGIR и BCS IRSG.



Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

  1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
  2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента.

Курсы:

  1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
  2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
  3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
  4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
  5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
  6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
  7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля.
Как попасть?
Всего голосов 38: ↑34 и ↓4+30
Комментарии0

Про аналитику и серебряные пули или «При чем здесь Рамблер/топ-100?»

Время на прочтение7 мин
Количество просмотров7.9K


Всем привет! Я тимлид проекта Рамблер/топ-100. Это лонгрид о том, как мы проектировали архитектуру обновлённого сервиса веб-аналитики, с какими сложностями столкнулись по пути и как с ними боролись. Если вам интересны такие базворды как ClickhouseAerospikeSpark, добро пожаловать под кат.
Читать дальше →
Всего голосов 18: ↑18 и ↓0+18
Комментарии8

Как создать своего бота для Skype. Что не написано в документации

Время на прочтение3 мин
Количество просмотров90K


Некоторое время назад я рассказывал о своем боте для Telegram, который умеет данные из Google Analytics показывать. А тут Microsoft объявила о запуске ботов в Skype — самое время изучить как это работает. Под катом — небольшое описание возможных проблем. Кому не терпится посмотреть результат, вот он — MetricsBot Add Bot to Skype.
Куда смотреть и что делать?
Всего голосов 31: ↑28 и ↓3+25
Комментарии31

Русский нейросетевой чатбот

Время на прочтение5 мин
Количество просмотров81K
О чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.



Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.

Читать дальше →
Всего голосов 28: ↑25 и ↓3+22
Комментарии73

Хакатон Big Data for Business: начните свой технологичный стартап

Время на прочтение4 мин
Количество просмотров5.3K

Приглашаем разработчиков, аналитиков, маркетологов, дизайнеров, менеджеров по продукту и бизнес-ангелов на хакатон Big Data for Business – двухдневное командное соревнование по разработке программных продуктов, решающих проблемы бизнеса через анализ данных. Хакатон пройдет 18-19 ноября в казанском ИТ-парке. Спонсоры мероприятия — компании EMC и Brocade. Партнеры — Textocat, DGL, Provectus и Бизнес-инкубатор ИТ-парка г. Казань. Призовой фонд — 150 000 рублей.

Приняв участие в хакатоне Big Data for Business, вы сможете:

  • найти команду единомышленников,
  • придумать классную бизнес-идею, реализовать и улучшить ее с ведущими экспертами,
  • получить признание,
  • выиграть ценные призы,
  • перенять опыт в технологической сфере и принципах упаковки продукта,
  • сделать первый шаг в сторону своего стартапа на основе технологий анализа данных
  • познакомиться с перспективными продуктовыми командами в области Big Data.

Далее мы расскажем о ключевых особенностях нашего мероприятия.
Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии0

ACM SIGIR 2015: ключевые тренды развития поисковых технологий

Время на прочтение8 мин
Количество просмотров5.2K



С 9 по 13 августа в г. Сантьяго (Чили) прошла 38я международная научная конференция по информационному поиску ACM SIGIR. Представляем вашему вниманию основные события данного мероприятия и ключевые тренды развития области информационного поиска как с точки зрения академической среды, так и индустрии.
Читать дальше →
Всего голосов 11: ↑9 и ↓2+7
Комментарии6

Text Analytics as Commodity: обзор приложений текстовой аналитики

Время на прочтение11 мин
Количество просмотров18K
text analytics landscapeЕсли бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение


Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как
  • категоризация текста
  • извлечение информации
  • информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.
Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии2

Извлечение упоминаний сущностей и поиск в Textocat API

Время на прочтение9 мин
Количество просмотров17K
Textocat API — это облачный SaaS анализа текстов. Качественное извлечение полезной информации из текстов — сложная задача и требует серьезной экспертизы. Миссия команды Textocat — сделать процесс обработки текстов настолько легким для использования, чтобы его мог включить в свой арсенал любой современный разработчик. Используя Textocat API, вы можете быстро прототипировать приложения на основе текстовой аналитики и превращать их в свой бизнес. В данной публикации мы покажем, насколько легко интегрировать в любое приложение возможности Textocat API по распознаванию упоминаний сущностей (объектов) и поиску документов на русском языке.

Возможности Textocat API Beta


В начале апреля мы запустили бета-тестирование Textocat API. В этой версии мы предлагаем разработчикам бесплатно использовать часть функционала сервиса со следующими возможностями:
  • распознавание упоминаний сущностей (entity recognition) в коллекциях документов на русском языке;
  • хранение обработанных коллекций;
  • полнотекстовый поиск с учетом выделенных типов сущностей.


пример распознавания упоминаний сущностей

Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии66

Технологии Semantic Web

Время на прочтение2 мин
Количество просмотров30K
Semantic Web (он же Web of Data, Linked Data, Linking Open Data) — это направление развития Всемирной паутины, позволяющее машинам не только отображать информацию в интернете, но и понимать ее смысл.

Смотреть первые две части
Всего голосов 30: ↑26 и ↓4+22
Комментарии44

Elasticsearch — сортируем выдачу руками

Время на прочтение5 мин
Количество просмотров19K
Благодаря своей гибкости и масштабируемости, сегодня Elasticsearch находит применение во все более широком круге задач — от поиска до аналитики. Однако есть ряд вопросов, с которыми Elasticsearch не справится в одиночку.

Например, ваша поисковая выдача меняется от пользователя к пользователю. И сортировка, основанная только на данных самого документа (TF/IDF или сортировки по любым полям документа), не дает нужного результата. При этом в поисковой выдаче интернет-магазина вы хотите показать товар, который пользователь уже смотрел на первых позициях.

Другой пример. Параметр, влияющий на сортировку, меняется слишком часто: Elasticsearch построен на базе Lucene и использует append-only хранилище, обновление документов фактически отсутствует. Каждое изменение документа приводит к его переиндексации и влечет периодическое перестроение сегментов хранилища. Иными словами, если вы хотите отсортировать выдачу по количеству просмотров документа на сайте, то самое тупое, что можно сделать, — это записывать каждый просмотр в Elasticsearch. И здесь, похоже, назрел вопрос использования внешнего хранилища мета-информации, используемой для сортировки документов.


Читать дальше →
Всего голосов 26: ↑26 и ↓0+26
Комментарии16

Сравнение библиотек глубокого обучения на примере задачи классификации рукописных цифр

Время на прочтение21 мин
Количество просмотров53K
Кручинин Дмитрий, Долотов Евгений, Кустикова Валентина, Дружков Павел, Корняков Кирилл

Введение


В настоящее время машинное обучение является активно развивающейся областью научных исследований. Это связано как с возможностью быстрее, выше, сильнее, проще и дешевле собирать и обрабатывать данные, так и с развитием методов выявления из этих данных законов, по которым протекают физические, биологические, экономические и другие процессы. В некоторых задачах, когда такой закон определить достаточно сложно, используют глубокое обучение.

Глубокое обучение (deep learning) рассматривает методы моделирования высокоуровневых абстракций в данных с помощью множества последовательных нелинейных трансформаций, которые, как правило, представляются в виде искусственных нейронных сетей. На сегодняшний день нейросети успешно используются для решения таких задач, как прогнозирование, распознавание образов, сжатие данных и ряда других.
Читать дальше →
Всего голосов 29: ↑29 и ↓0+29
Комментарии20

RuSSIR 2014: VIII летняя школа по информационному поиску

Время на прочтение3 мин
Количество просмотров3.5K
18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и  Казани.

В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» и Российский семинар по Оценке Методов Информационного Поиска «РОМИП» при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.

Главной темой школы будет визуализация данных в задачах информационного поиска. Рабочий язык — английский.



Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».

Основные курсы:
  • Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
  • Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
  • Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
  • Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
  • Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
  • Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.

К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Как попасть?
Всего голосов 23: ↑20 и ↓3+17
Комментарии0

Информация

В рейтинге
Не участвует
Откуда
Казань, Татарстан, Россия
Зарегистрирован
Активность