Pull to refresh
12
0
Send message
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
А что на счет коммерциализации продукта? Какая абонентская плата предполагается в будущем или это будет зависеть от объема заливаемых данных?
В Финляндии все соц.льготы автоматически отменяются с введением безусловного дохода, в этом и есть его смысл.
Ну судя по тому, что по самым грубым подсчетам Compreno может индексировать одно предложение в секунду, то говорить о полноценном интернет-поисковике просто глупо — загнется на дневном потоке одного фейсбука. Скорее всего это локальный поисковик по небольшим объемам информации, которые можно будет скармливать индексатору.
Спасибо!
Ошибок при подключении не пишет, просто игнорит.
Попробую полазить по форумам.
Спасибо, объемная проведена работа!
Может быть подскажете, мой Lingvo 12 не хочет подключать скомпилированный lsd словарь (родным компилятором из dsl, ошибок при компиляции не выдавал)? Может есть ограничение на объем подключаемых словарей (поучился около 400 МБ)?
Согласен, k-means++ лишен ряда недостатков по сравнению с k-means, в частности при выборе начальных кластеров.
Вместо k-means можно использовать простое сравнение векторов по косинусу — быстро и просто — только та же проблема в выборе первичных векторов-кластеров.

Latent semantic indexing и её вариации через PCA/SVD изучили хорошо, да и решение в лоб через кластеризацию колонок или строк матрицы term2document, по сути, даст похожий результат — только делать это придётся очень долго.

— попробуйте BigARTM К.Воронцова, это реализация LSA без SVD, работает быстро даже на больших массивах, разбираться, правда, долго.

А вообще закон больших чисел говорит, что во многих задачах по Big data достаточно частотности, все эти TFiDF и их вариации помрут на больших объемах.

Мы представляем текст в виде шинглов, кусков.

Это решение было предложено гугловцами еще в 2007-ом в виде реализации на sim hash (можно на min hash). Для поиска дублей — оптимально — скорость высокая, точность можно варьировать. Архитектура, правда, не простая получается при больших объемах.

Спасибо за статью — хорошее пособие для начинающих «бигдатовцев».
ОБРАБОТКА ЗНАНИЙ!

Ну это, как говорится, и ёжику понятно. Пока даже нет корректного определения, что считать знанием в ИИ. В настоящее время задача решается в лоб — бесконечным составлением тезаурусов. Лично я считаю, что это тупиковый путь, но другого не вижу. Все псевдо-семантические алгоритмы типа LSA / LDA больше напоминают пляски с бубном (сам этим занимаюсь), нежели реализацию семантических связей. Поэтому проблема в определении, в постановке задачи: что мы считаем знанием, каковы его границы, какими свойствами оно должно обладать?
Да, такие вещи не только в маркетинге используются, но и, например, при монтаже фильмов (выбор оптимальной сцены). При этом смотрятся не только эмоции, но и физиологические характеристики (давление, пульс и пр.), в том числе активность зон коры головного мозга. В Москве этим занимается neurotrend. Так что мы все уже «посчитаны» — решения за нас принимаю нейро-макетологи…
перспективность нейросетевых алгоритмов глубокого обучения в сравнении с классическими методами обработки естественного языка

Перспективность — возможно, да. А вот преимущества я пока не вижу. Современные статистические методы обработки естественного языка пока не только более точны, но и более гибки в настройке (хотя бы потому, что можно «руками» выбирать и настраивать нужные параметры). Мне кажется, вопрос «что лучше» пока спорный. Ведь вовсе не обязательно уподоблять ИИ мозгу человека; например, самолеты летают, но крыльями не машут.
Принятие подобных законов только ускоряет закат эпохи интернета: появятся десятки альтернативных сетей или способов передачи информации, которые будет невозможно контролировать.
Года три-четыре назад был тендер (Конституционного суда России) по автоматической обработке юридических документов, в частности исков. Идея была в том, чтобы автоматически находить все статьи закона, под которые попадает исковое заявление. Естественно, это лишь предварительная обработка, упрощающая жизнь юристам — решение принимает человек. Так что вполне уместная статья.
Интересно, а кто разработчик? Тендер на эту систему был года три-четыре назад, частично она была давно реализована (без анализа фото и видео).
Если не ошибаюсь, он сам об этом пишет в своей автобиографии («Другие берега»). Правда, стал сомневаться, возможно раньше начал не на французском, а на английском.
Из достоверных источников: Владимир Набоков начал говорить на французском, раньше чем на русском. Это не помешало ему стать не только великим русскоязычным, но и англоязычным писателем.
Не очень корректное название статьи. Точно такие же исследования проводили и десять и двадцать лет назад, и получали ровно такой же результат. Речь идут не о влиянии на лингвистические способности, а формировании так называемой фонетической (фонематической) решетки восприятия звуков. В отличии от акустического восприятия, которое врожденно, фонетическое восприятие формируется в первые годы жизни ребенка (первый год). Грубо говоря, если вы в первый год-два будете говорить с ребенком на двух языках, а потом перейдете на один, то второй он быстро забудет. НО, во взрослом возрасте ему будет гораздо легче (с фонетической точки зрения) учить тот второй язык. В этом смысле детей полезно учить в раннем возрасте языкам со сложной фонетикой (французский, китайски и пр.). Говорить, что это как-то влияет на лексические или тем более на когнитивные способности, по крайней мере, не корректно.
после инсульта большинство пациентов не могут говорить

Инсульт может поразить любую часть мозга, в том числе отличающую за восприятие речи или речепроизводство. Речевые области (зоны Вренике и Брока) у большинства людей во всем мире находятся с левом полушарии, поэтому говорить, что китайцы после инсульта говорят — просто некорректно. Тут скорее другое: поскольку китайская речь тональна (зависит от высоты тона), то при ее распознавании на ряду с фонематическими участвуют акустические маркеры, которые находятся обоих полушариях. Возможно поэтому есть иллюзия, что китайцы «лучше» переносят инсульт.
Ну доля правды есть. Еще лет пять назад я чувствовал себя в относительной безопасности в своей области (data mining, big data), а теперь уже начинают наступать на пятки. Действительно, для работы в современных тучках (типа Амазона) не требуется глубоких знаний теории, нужно знать на какие «кнопочки» нажимать, машина сама найдет оптимальное решение (заказчику пофигу, как оно найдено). А учитывая, что молодым работодатель платит меньше, то перспективы, указанные в этой статье, весьма реальны.
Поясните, пожалуйста, может я не допонял: четыре прикладные задачи — они тоже таинственные, как и инвесторы?
просто семантический подход в нашей стране мало известен.

Ну я бы сказал, это некомпетентное высказывание. Как раз в нашей стране этот подход наиболее развит. Мельчук, Апресян, Кибрик, Жолковский, Мартемьянов и десятки других ведущих специалистов, которые не только разрабатывали теорию, но и создавали реальные рабочие системы.

Information

Rating
Does not participate
Registered
Activity