Comments / Profile of elingur / Habr

How to become an author

User

Profile Publications 3Comments 166Bookmarks 101

Как уменьшить количество измерений и извлечь из этого пользу

elingur Feb 5 2016 at 11:00

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).

0

Census Analyzer 1.0: новый инструмент для анализа данных

elingur Feb 2 2016 at 10:12

А что на счет коммерциализации продукта? Какая абонентская плата предполагается в будущем или это будет зависеть от объема заливаемых данных?

+4

В Швейцарии вынесут на референдум вопрос о безусловном доходе для всех граждан

elingur Feb 1 2016 at 09:50

В Финляндии все соц.льготы автоматически отменяются с введением безусловного дохода, в этом и есть его смысл.

+2

ABBYY выходит на рынок поисковиков США, а ABBYY LS запускает маркетплейс для переводчиков: комментарии сотрудников

elingur Jan 22 2016 at 10:32

Ну судя по тому, что по самым грубым подсчетам Compreno может индексировать одно предложение в секунду, то говорить о полноценном интернет-поисковике просто глупо — загнется на дневном потоке одного фейсбука. Скорее всего это локальный поисковик по небольшим объемам информации, которые можно будет скармливать индексатору.

0

Рип сетевых словарей при помощи Node.js, ч. 1: статические страницы; CLI; DSL -> TXT, PDF, DjVu; сопутствующие задачи

elingur Jan 21 2016 at 15:18

Спасибо!
Ошибок при подключении не пишет, просто игнорит.
Попробую полазить по форумам.

0

Рип сетевых словарей при помощи Node.js, ч. 1: статические страницы; CLI; DSL -> TXT, PDF, DjVu; сопутствующие задачи

elingur Jan 21 2016 at 13:27

Спасибо, объемная проведена работа!
Может быть подскажете, мой Lingvo 12 не хочет подключать скомпилированный lsd словарь (родным компилятором из dsl, ошибок при компиляции не выдавал)? Может есть ограничение на объем подключаемых словарей (поучился около 400 МБ)?

+1

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения

elingur Jan 21 2016 at 10:54

Согласен, k-means++ лишен ряда недостатков по сравнению с k-means, в частности при выборе начальных кластеров.
Вместо k-means можно использовать простое сравнение векторов по косинусу — быстро и просто — только та же проблема в выборе первичных векторов-кластеров.

Latent semantic indexing и её вариации через PCA/SVD изучили хорошо, да и решение в лоб через кластеризацию колонок или строк матрицы term2document, по сути, даст похожий результат — только делать это придётся очень долго.

— попробуйте BigARTM К.Воронцова, это реализация LSA без SVD, работает быстро даже на больших массивах, разбираться, правда, долго.

А вообще закон больших чисел говорит, что во многих задачах по Big data достаточно частотности, все эти TFiDF и их вариации помрут на больших объемах.

Мы представляем текст в виде шинглов, кусков.

Это решение было предложено гугловцами еще в 2007-ом в виде реализации на sim hash (можно на min hash). Для поиска дублей — оптимально — скорость высокая, точность можно варьировать. Архитектура, правда, не простая получается при больших объемах.

Спасибо за статью — хорошее пособие для начинающих «бигдатовцев».

+1

Некоторые современные подходы в области обработки естественного языка

elingur Jan 12 2016 at 16:30

ОБРАБОТКА ЗНАНИЙ!

Ну это, как говорится, и ёжику понятно. Пока даже нет корректного определения, что считать знанием в ИИ. В настоящее время задача решается в лоб — бесконечным составлением тезаурусов. Лично я считаю, что это тупиковый путь, но другого не вижу. Все псевдо-семантические алгоритмы типа LSA / LDA больше напоминают пляски с бубном (сам этим занимаюсь), нежели реализацию семантических связей. Поэтому проблема в определении, в постановке задачи: что мы считаем знанием, каковы его границы, какими свойствами оно должно обладать?

0

Apple покупает стартап, работающий над анализом чувств и эмоций пользователя

elingur Jan 11 2016 at 10:34

Да, такие вещи не только в маркетинге используются, но и, например, при монтаже фильмов (выбор оптимальной сцены). При этом смотрятся не только эмоции, но и физиологические характеристики (давление, пульс и пр.), в том числе активность зон коры головного мозга. В Москве этим занимается neurotrend. Так что мы все уже «посчитаны» — решения за нас принимаю нейро-макетологи…

0

Некоторые современные подходы в области обработки естественного языка

elingur Jan 9 2016 at 17:17

перспективность нейросетевых алгоритмов глубокого обучения в сравнении с классическими методами обработки естественного языка

Перспективность — возможно, да. А вот преимущества я пока не вижу. Современные статистические методы обработки естественного языка пока не только более точны, но и более гибки в настройке (хотя бы потому, что можно «руками» выбирать и настраивать нужные параметры). Мне кажется, вопрос «что лучше» пока спорный. Ведь вовсе не обязательно уподоблять ИИ мозгу человека; например, самолеты летают, но крыльями не машут.

+1

Facebook, Microsoft и Google заявили, что новый закон о цифровом шпионаже Англии является «шагом в неверном направлении»

elingur Jan 9 2016 at 17:05

Принятие подобных законов только ускоряет закат эпохи интернета: появятся десятки альтернативных сетей или способов передачи информации, которые будет невозможно контролировать.

+1

Роботы лишат юристов работы (рутинной)

elingur Dec 28 2015 at 08:01

Года три-четыре назад был тендер (Конституционного суда России) по автоматической обработке юридических документов, в частности исков. Идея была в том, чтобы автоматически находить все статьи закона, под которые попадает исковое заявление. Естественно, это лишь предварительная обработка, упрощающая жизнь юристам — решение принимает человек. Так что вполне уместная статья.

+1

Роскомнадзор запускает автоматизированную систему для выявления незаконного контента в интернет-СМИ

elingur Dec 26 2015 at 09:41

Интересно, а кто разработчик? Тендер на эту систему был года три-четыре назад, частично она была давно реализована (без анализа фото и видео).

0

Первый язык определяет лингвистические способности человека

elingur Dec 16 2015 at 00:35

Если не ошибаюсь, он сам об этом пишет в своей автобиографии («Другие берега»). Правда, стал сомневаться, возможно раньше начал не на французском, а на английском.

0

Первый язык определяет лингвистические способности человека

elingur Dec 15 2015 at 16:23

Из достоверных источников: Владимир Набоков начал говорить на французском, раньше чем на русском. Это не помешало ему стать не только великим русскоязычным, но и англоязычным писателем.

0

Первый язык определяет лингвистические способности человека

elingur Dec 15 2015 at 10:29

Не очень корректное название статьи. Точно такие же исследования проводили и десять и двадцать лет назад, и получали ровно такой же результат. Речь идут не о влиянии на лингвистические способности, а формировании так называемой фонетической (фонематической) решетки восприятия звуков. В отличии от акустического восприятия, которое врожденно, фонетическое восприятие формируется в первые годы жизни ребенка (первый год). Грубо говоря, если вы в первый год-два будете говорить с ребенком на двух языках, а потом перейдете на один, то второй он быстро забудет. НО, во взрослом возрасте ему будет гораздо легче (с фонетической точки зрения) учить тот второй язык. В этом смысле детей полезно учить в раннем возрасте языкам со сложной фонетикой (французский, китайски и пр.). Говорить, что это как-то влияет на лексические или тем более на когнитивные способности, по крайней мере, не корректно.

0

Первый язык определяет лингвистические способности человека

elingur Dec 15 2015 at 10:18

после инсульта большинство пациентов не могут говорить

Инсульт может поразить любую часть мозга, в том числе отличающую за восприятие речи или речепроизводство. Речевые области (зоны Вренике и Брока) у большинства людей во всем мире находятся с левом полушарии, поэтому говорить, что китайцы после инсульта говорят — просто некорректно. Тут скорее другое: поскольку китайская речь тональна (зависит от высоты тона), то при ее распознавании на ряду с фонематическими участвуют акустические маркеры, которые находятся обоих полушариях. Возможно поэтому есть иллюзия, что китайцы «лучше» переносят инсульт.

+1

Профессия «программиста» через 5 лет

elingur Dec 14 2015 at 09:57

Ну доля правды есть. Еще лет пять назад я чувствовал себя в относительной безопасности в своей области (data mining, big data), а теперь уже начинают наступать на пятки. Действительно, для работы в современных тучках (типа Амазона) не требуется глубоких знаний теории, нужно знать на какие «кнопочки» нажимать, машина сама найдет оптимальное решение (заказчику пофигу, как оно найдено). А учитывая, что молодым работодатель платит меньше, то перспективы, указанные в этой статье, весьма реальны.

0

ФРИИ ускорит рост рынка big data в России

elingur Nov 25 2015 at 12:10

Поясните, пожалуйста, может я не допонял: четыре прикладные задачи — они тоже таинственные, как и инвесторы?

0

Как решить проблему машинного понимания естественного языка

elingur Nov 24 2015 at 09:32

просто семантический подход в нашей стране мало известен.

Ну я бы сказал, это некомпетентное высказывание. Как раз в нашей стране этот подход наиболее развит. Мельчук, Апресян, Кибрик, Жолковский, Мартемьянов и десятки других ведущих специалистов, которые не только разрабатывали теорию, но и создавали реальные рабочие системы.

+1

5