Search
Write a publication
Pull to refresh
0
0

User

Send message
2 идеи:
1) геотаги, имена собственные и уникальные термины («стелс технология») — лучше характеризуют текст, чем слова общего назначения. Почему бы не сделать на текст 2 вектора: ключевых понятий/признаков (размерностью 100 чисел) и вектор обычных слов(все остальное)? Проверять спецвектор, если похож более, чем на 50%, брать в проверку полный вектор.

2) «Чтобы построить куличик — не обязательно просеивать три Камаза песка». Возможно, ваш алгоритм таскает порожний песок, вместо полезных камушков ;) И входящий поток данных избыточный, и его нужно грубово и "_не_ дорого" отфильтровать до подачи на наиболее ресурсоемкую часть алгоритма классификации. Например: откинуть окончания, частицы и предлоги. (-5% к объему текста), а там и слова можно на 2-3 байта заменить. Потому что в русском языке только немногим более 1 тысячи глаголов и 5 тысяч наиболее употребимых существительных. А образованный человек владеет 20-50 тыс. специализированных понятий (Они все есть в «политехническом словаре» :) ).

PS И интересно, как вы боретесь с изоморфизмом?
красива, красивый, красивой, красивому — для вас 4 терма или один?
Вопросы к вашей системе:
1) Как можно решить задачу не зная ее полных условий («где мы?» = на земле, под водой или в вакууме?)? и не сформулировав условия, которым должно соответствовать «правильного решение»? а также «точки зрения» (ТЗ) с которой решается задача? пример ТЗ: Сила, ум, опыт, качество исполнения, разумное время…
2) Как можно сделать «верный» логический вывод, не имея достаточного и достоверного массива знаний? а не слов и онтологий.
3) Как можно быть правым, если не знаешь верных ли те данные, на которых ты строишь свое решение в данной конкретной задаче?
4) Как можно сделать логический вывод, не пользуясь _контекстно_ корректными свертками фактов/логики и эвристиками?
5) К какой реалистичной и достижимой цели(ям) должна стремиться создаваемая система на текущем и последующих этапах?
6) Каким образом можно сделать, чтобы система сама себе развивала? ставила себе мини-цели, их достигала и демонстрировала ментору? Виртуальный логико-аналитический эксперимент?! ;) Или все-таки логико-когнитивно-семантический? :)
7) Как системе передавать обратную связь об ошибках и неточностях ее «хода мыслей» от ментора? (Закольцованное обучение. Изменение весов факторов и значимости контекстов в КОНКРЕТНОЙ задаче, «гашение» малозначимых контектов )
8) Как научить ее использовать при решении прошлый опыт решения задач (ходы, подходы, стратегии) и подходящие аналоги задач, без перебора данных с нуля до решения? Думаю, успешное решение надо сохранять и использовать в новых задачах.
9) Как решить проблему достоверности знаний и выбора правильного угла взгляда на имеющиеся факты для решения задачи («просев знаний», через фильтры стратегии или стратегий решения задачи)?
10) Что важнее для решаемой задачи: достоверность или частота использования знания (иначе можно сказать «типичность знания для выбранного контекста»)?
11) Как «выжать» максимум смысла из 1 абзаца данных?
12) Если я скажу, что пространство/множество «признаков понятий» — конечно. Вы мне поверите?
13) Как можно использовать при работе системы знание об неверности факта, утверждения, понятия? Например: «яблоки растут на сосне», «вратарь забивает больше всех в команде».

И самый интересный: Каким образом система сама может стать «умнее», чем была вчера? что она должна уметь делать для этого?
1. «Цель — понять как работает мозг и создать сильный ИИ»
А вы работает в связке со спецами по изучению мозга?! [удивление]
В каких областях и задачах ваш «сильный ИИ» (согласно вашему определению из wiki) будет специализоваться в будущем?

2. «категории получаются автоматически как области близких по смыслу контекстов»
А как эти области изначально получаются?
Оператор-человек? Алгоритм? Эмпирические правила? Частотность использования пар-троек слов? Иное?
Грубо: Вам нужно в программу загнать серьезный объем терминов, связей с весами, фактов и контекстов, и возможно моделей.
Как вы научите компьютер понимать «человеческие смыслы», если компьютер у вас говорит на инопланетном бинарном языке? Ведь базис семантики людей и семантики машин, категорически иной.
На бинарном базисе семантику можно только «симулировать».

3. «выделение набора смыслов»
Что есть СМЫСЛ с точки зрения ЭВМ? ;) Как он выглядит? И как его можно выделить алгоритмом?
IMHO: можно создать только «проекцию смысла» в виде электронного образа. Но без электронного «базиса пространства смыслов» и это НЕвозможно.

4. «Они отражают совместность срабатывания контекстов. То есть тот факт, что часто одна и та же информация может быть неплохо истолкована в каждом из них.»
Если брать слишком широкие, пересекающиеся контексты, в чем тогда польза от них? Они же низкоинформативны.
Например: «грибы» и «несъедобные грибы». Контексты пересекаются, но один из них содержит целиком второй. Информационной ценности больше у 2ого.
Или я не правильно вас понял? Примерчик бы…

Контексты будут явно нескольких видов: категориальные или «широкие» (сотни терминов. Пример: «живые существа»), специализированные (20-50 терминов. «особенности обработки титана»), модельные (описание явлений, процессов или оргструктуры), статичные и динамичные ситуативные/сценические (например: «описание театрального представления»).
Подскажите, пожалуйста:
1. то, что вы описали, уже есть в виде программной реализации?
2. ваша основная прикладная цель — переводы? Или иная?

Несколько вопросов по статье:
1. почему бы контексты не связать-объединить контекстами (или «обобщенными категориями») более высокого уровня? Разве это не упростит вычислительную сложность задачи?
Молото + Рубанок => Инструменты.
Кот + Пес => Домашние животные
Чашка+Вилка+Раковина+Ведро = Кухня

2. Чтобы обучать «сеть» нужна 2 типа информации: «позитивная» и «негативная». Одна — учит, другая — задает границы, где перестает действовать модель.
Пример: Поз.: «мясо можно кушать», Нег.:«мясо сырое нельзя есть людям».
Каким образом вам удается свою сеть «научить» 2ому виду информации?

3. При работе с «сырым» текстом встречается: юмор, поговорки, глупости, оговорки и иносказания. Как можно научить сеть хотя бы их игнорировать? ;)

4. Семантические контекстные связи(СКС) могут быть очень «тончайшими» и не вербализуемыми, как в этом случае их удается представить в виде весов матрицы?
Или схожая ситуация: 2 разных человека могут определить СКС по-разному в зависимости от воспитания, жизненного опыта и даже настроения. Для некоторых людей СКС могут быть вообще в виде поэтических ассоциаций ;)

5. А каким образом проверяется «чему сеть научилась»? Есть ли какая-то автоматизированная методика построения «контрольных точек» для проверки корректности работы сети после обучения?

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity