Comments / Profile of kay7 / Habr

User

Технологический стек классификации текстов на естественных языках

kay7 Apr 4 2017 at 13:23

2 идеи:
1) геотаги, имена собственные и уникальные термины («стелс технология») — лучше характеризуют текст, чем слова общего назначения. Почему бы не сделать на текст 2 вектора: ключевых понятий/признаков (размерностью 100 чисел) и вектор обычных слов(все остальное)? Проверять спецвектор, если похож более, чем на 50%, брать в проверку полный вектор.

2) «Чтобы построить куличик — не обязательно просеивать три Камаза песка». Возможно, ваш алгоритм таскает порожний песок, вместо полезных камушков ;) И входящий поток данных избыточный, и его нужно грубово и "_не_ дорого" отфильтровать до подачи на наиболее ресурсоемкую часть алгоритма классификации. Например: откинуть окончания, частицы и предлоги. (-5% к объему текста), а там и слова можно на 2-3 байта заменить. Потому что в русском языке только немногим более 1 тысячи глаголов и 5 тысяч наиболее употребимых существительных. А образованный человек владеет 20-50 тыс. специализированных понятий (Они все есть в «политехническом словаре» :) ).

PS И интересно, как вы боретесь с изоморфизмом?
красива, красивый, красивой, красивому — для вас 4 терма или один?

Look

Логика сознания. Часть 10. Задача обобщения

kay7 Feb 1 2017 at 19:38

Вопросы к вашей системе:
1) Как можно решить задачу не зная ее полных условий («где мы?» = на земле, под водой или в вакууме?)? и не сформулировав условия, которым должно соответствовать «правильного решение»? а также «точки зрения» (ТЗ) с которой решается задача? пример ТЗ: Сила, ум, опыт, качество исполнения, разумное время…
2) Как можно сделать «верный» логический вывод, не имея достаточного и достоверного массива знаний? а не слов и онтологий.
3) Как можно быть правым, если не знаешь верных ли те данные, на которых ты строишь свое решение в данной конкретной задаче?
4) Как можно сделать логический вывод, не пользуясь _контекстно_ корректными свертками фактов/логики и эвристиками?
5) К какой реалистичной и достижимой цели(ям) должна стремиться создаваемая система на текущем и последующих этапах?
6) Каким образом можно сделать, чтобы система сама себе развивала? ставила себе мини-цели, их достигала и демонстрировала ментору? Виртуальный логико-аналитический эксперимент?! ;) Или все-таки логико-когнитивно-семантический? :)
7) Как системе передавать обратную связь об ошибках и неточностях ее «хода мыслей» от ментора? (Закольцованное обучение. Изменение весов факторов и значимости контекстов в КОНКРЕТНОЙ задаче, «гашение» малозначимых контектов )
8) Как научить ее использовать при решении прошлый опыт решения задач (ходы, подходы, стратегии) и подходящие аналоги задач, без перебора данных с нуля до решения? Думаю, успешное решение надо сохранять и использовать в новых задачах.
9) Как решить проблему достоверности знаний и выбора правильного угла взгляда на имеющиеся факты для решения задачи («просев знаний», через фильтры стратегии или стратегий решения задачи)?
10) Что важнее для решаемой задачи: достоверность или частота использования знания (иначе можно сказать «типичность знания для выбранного контекста»)?
11) Как «выжать» максимум смысла из 1 абзаца данных?
12) Если я скажу, что пространство/множество «признаков понятий» — конечно. Вы мне поверите?
13) Как можно использовать при работе системы знание об неверности факта, утверждения, понятия? Например: «яблоки растут на сосне», «вратарь забивает больше всех в команде».

И самый интересный: Каким образом система сама может стать «умнее», чем была вчера? что она должна уметь делать для этого?

Look

Логика сознания. Часть 7. Самоорганизация пространства контекстов

kay7 Sep 27 2016 at 14:00

1. «Цель — понять как работает мозг и создать сильный ИИ»
А вы работает в связке со спецами по изучению мозга?! [удивление]
В каких областях и задачах ваш «сильный ИИ» (согласно вашему определению из wiki) будет специализоваться в будущем?

2. «категории получаются автоматически как области близких по смыслу контекстов»
А как эти области изначально получаются?
Оператор-человек? Алгоритм? Эмпирические правила? Частотность использования пар-троек слов? Иное?
Грубо: Вам нужно в программу загнать серьезный объем терминов, связей с весами, фактов и контекстов, и возможно моделей.
Как вы научите компьютер понимать «человеческие смыслы», если компьютер у вас говорит на инопланетном бинарном языке? Ведь базис семантики людей и семантики машин, категорически иной.
На бинарном базисе семантику можно только «симулировать».

3. «выделение набора смыслов»
Что есть СМЫСЛ с точки зрения ЭВМ? ;) Как он выглядит? И как его можно выделить алгоритмом?
IMHO: можно создать только «проекцию смысла» в виде электронного образа. Но без электронного «базиса пространства смыслов» и это НЕвозможно.

4. «Они отражают совместность срабатывания контекстов. То есть тот факт, что часто одна и та же информация может быть неплохо истолкована в каждом из них.»
Если брать слишком широкие, пересекающиеся контексты, в чем тогда польза от них? Они же низкоинформативны.
Например: «грибы» и «несъедобные грибы». Контексты пересекаются, но один из них содержит целиком второй. Информационной ценности больше у 2ого.
Или я не правильно вас понял? Примерчик бы…

Контексты будут явно нескольких видов: категориальные или «широкие» (сотни терминов. Пример: «живые существа»), специализированные (20-50 терминов. «особенности обработки титана»), модельные (описание явлений, процессов или оргструктуры), статичные и динамичные ситуативные/сценические (например: «описание театрального представления»).

Look

Логика сознания. Часть 7. Самоорганизация пространства контекстов

kay7 Sep 27 2016 at 12:06

Подскажите, пожалуйста:
1. то, что вы описали, уже есть в виде программной реализации?
2. ваша основная прикладная цель — переводы? Или иная?

Несколько вопросов по статье:
1. почему бы контексты не связать-объединить контекстами (или «обобщенными категориями») более высокого уровня? Разве это не упростит вычислительную сложность задачи?
Молото + Рубанок => Инструменты.
Кот + Пес => Домашние животные
Чашка+Вилка+Раковина+Ведро = Кухня

2. Чтобы обучать «сеть» нужна 2 типа информации: «позитивная» и «негативная». Одна — учит, другая — задает границы, где перестает действовать модель.
Пример: Поз.: «мясо можно кушать», Нег.:«мясо сырое нельзя есть людям».
Каким образом вам удается свою сеть «научить» 2ому виду информации?

3. При работе с «сырым» текстом встречается: юмор, поговорки, глупости, оговорки и иносказания. Как можно научить сеть хотя бы их игнорировать? ;)

4. Семантические контекстные связи(СКС) могут быть очень «тончайшими» и не вербализуемыми, как в этом случае их удается представить в виде весов матрицы?
Или схожая ситуация: 2 разных человека могут определить СКС по-разному в зависимости от воспитания, жизненного опыта и даже настроения. Для некоторых людей СКС могут быть вообще в виде поэтических ассоциаций ;)

5. А каким образом проверяется «чему сеть научилась»? Есть ли какая-то автоматизированная методика построения «контрольных точек» для проверки корректности работы сети после обучения?

Look