All streams
Search
Write a publication
Pull to refresh
11
0
Send message

Интеллект - это интегральный или зонтичный термин и объединяет в себе множество разных способностей в разных модальностях. Сводить его исключительно к визуалу, по-моему, довольно странно. Истории Кааты Ранхильды и Лоры Бриджен, слепоглухих с рождения, у которых не было еще и обоняния со вкусом, показывают, что даже в случае людей некорректно сводить весь интеллект исключительно к способностями, привязанным к зрению.

Представьте человека, который от рождения в коме, и ему подключили электрод, который шлет и получает назад азбуку морзе. Как такого пациента обучить пространственному мышлению?

Так ведь информация от любого органа чувств это лишь набор нервных импульсов. Стереоскопическое зрение можно хоть азбукой морзе кодировать, преобразуя байты в base64. Тут весь вопрос лишь в обучении - решению каких задач обучать, на основе какой информации и каким образом.

Кстати, LLM обладают некоторыми способностями и к пространственному мышлению в рамках текстового описания. Например, новые reasoning модели отлично справляются с этой задачей:


I take 2 steps forward, and I see a pot with a flower. I turn to right. Take 2 steps forward. Turn right and see a painting of a dog. Turn left. Take 1 step and see a door in front of me. I open the door. Take 1 step. Turn left. Take 2 steps and see a sink. Turn right. Turn right again. Take 2 steps. Turn right. I see the open door. Take 1 step. Turn left. Turn right. Take 1 step. Turn left. What do I see?

Ну да, согласно этому тесту, интеллект у слепых людей, видимо, отсутствует.

 Ровная АЧХ даёт такой же плоский звук, с которым уже можно работать звукорежиссёру и результат его работы при прослушивании на различных наушниках (все они красят по своему) будет звучать лучше, чем если бы он взял те же байеры или такстары и сводил в них. Это улучшение звука с т.з. звукорежиссёра, а не слушателя. Слушателю такой звук НЕПРИЯТЕН и НЕПРИВЫЧЕН, потому что он именно такой какой он есть.

Если под "ровной АЧХ" подразумевается АЧХ, эквивалентная калиброванным АС в подготовленной комнате (как об этом написано в статье), то это не соответствует действительности. Предлагаю ознакомиться с исследованием Sean Olive на тему того, что в действительности нравится слушателям (подготовленным и нет) в корректно поставленном эксперименте, какую АЧХ они предпочитают: The Perception and Measurement of Headphone Sound Quality: What Do Listeners Prefer?

For stereo reproduction, the preferred headphone target approximates the in-room response of an accurate loudspeaker calibrated in a semireflective room. This makes perfect sense because stereo recordings are intended to sound best through accurate loudspeakers in semireflec tive rooms. What makes a headphone sound good is the same as what makes a loudspeaker sound good.

Всего несколько лет назад почти все компьютерные мониторы непрофессионального уровня продавались с ужасающей калибровкой - с выкрученными яркостью, насыщенностью и контрастом. Обывателю, якобы, нравилась такая картинка, а правильные цвета ему НЕПРИЯТНЫ и НЕПРИВЫЧНЫ. А теперь даже некоторые игровые мониторы продаются калиброванными с завода с  Delta E<2.

  1. У LLM есть embedding, который позволяет им знать значения слов и оперировать ими.

  2. Китайская комната, как система в целом, вместе со всеми карточками и оператором, до какой-то степени знает китайский язык.

  3. Отдельные нейроны носителя китайского языка, так же как и оператор китайской комнаты, не знают китайский.

Gerard 't Hooft, нобелевский лауреат по физике в области квантовой механики, показал в своей работе The Cellular Automaton Interpretation of Quantum Mechanics, как в основе квантовой механики, со всеми ее неопределенностями, могут лежать буквально нули и единицы (клеточный автомат). Проблема здесь, как и в случае какой-нибудь теории струн, одна - невозможность экспериментальной проверки. И это я уж не говорю про The Wolfram Physics Project где речь не только о квантовой механике, а вообще теория всего.

из-за фиксированного размера эмбеддинга LLM может "анализировать слово" с позиции фиксированного и ограниченного количества концептов, что разумеется совершенно не дотягивает до естественного интеллекта.

Есть такая вещь, как Natural semantic metalanguage и конкретно концепция Semantic primes, которая показывают, что количество концептов в естественном языке, через которые можно определить все другие не просто ограничено, а составляет всего лишь несколько десятков штук.

Возьмите словарь, например, английского языка и вы увидите, как одни слова определяются через другие. Но существует ли минимальный набор слов и концепций, через которые можно определить все другие и которые сами являются неопределяемыми? Semantic primes как раз дает ответ на этот вопрос. Можно взять всего 65 базовых слов и определить через них почти все другие. Концепция эмбеддинга в LLM еще более гибкая - берется несколько сотен или даже тысяч измерений, через которые определяется смысл каждого слова.

Я не пользуюсь общим российским блеклистом, а модифицирую SNI только под youtube - по инструкции от самого автора программы.

Теперь блокируют по SNI еще и:

youtube.com
ytimg.com

Если добавить их в гудбайдипиай, то работа восстанавливается.

А может просто модели покачественнее надо использовать?
А может просто модели покачественнее надо использовать?

На скрине выбран режим Balanced. Я написал про Precise (по-русски "Точный"). В нем он стабильно дает правильный ответ.

Зачем мне что-то подделывать, что за глупость? У вас Copilot стоит в режиме Creative, измените на Precise и пробуйте снова. Я об этом уже писал выше.

Именно по этому вопросу есть множество подтверждений среди пользователей на GitHub и на Reddit.

А можно увидеть хотя бы одну ссылку на достоверное подтверждение? Или привести хотя бы один достоверный повторяющийся пример различий, который можно воспроизвести?

Ответ Copilot с первого же раза корректный:

Вы понимаете, что у Copilot есть разные режимы и разные ответы в соответствии с ними? А так же осознаете, что даже GPT-4 может варьировать свои ответы из раза в раз, иногда отвечая неправильно? Ваш пример, получается, подтверждает, что используется GPT-4? Есть еще примеры? (к слову, на мои личные бенчмарк вопросы GPT-4 и Copilot отвечает почти всегда одинаково, в отличии от GPT-3.5, которая стабильно допускает больше ошибок и неточностей)

Это можно проверить с помощью вопросов, на которые реальный GPT-4 даёт правильные ответы.

Можно пример таких вопросов, позволяющих однозначно увидеть, что Copilot это не GPT-4?

Copilot использую как в боковой панели Windows, так и на непосредственно сайте Bing. Это тот же самый переименованный Bing Chat.

Я пару месяцев назад сравнивал GPT-4, Bing Copilot и GPT-3.5 на списке личных бенчмарк-вопросов, по которым пытаюсь отслеживать качество начиная с GPT-3. GPT-4 и Bing Copilot (режим "стандартный" и "точный") отвечают одинаково. GPT-3.5 им уступает.

gpt4 используют по полной слабую gpt3.5 (которая не скрываясь пишет что основана на данных 2021г)

Ограничение данных до 2021 года не является свидетельством использования GPT-3.5. Цитата с сайта OpenAI:

"GPT-4 generally lacks knowledge of events that have occurred after the vast majority of its data cuts off (September 2021), and does not learn from its experience."

Так что хоть 3.5, хоть 4 используют датасет, ограниченный сентябрем 2021. Более актуальными данными обладает лишь GPT-4 Turbo.

Есть какие-то еще доказательства того, что Bing Copilot хотя бы иногда использует GPT-3.5?

ChatGPT не разумен. Он не демонстрирует даже минимальных признаков сильного интеллекта, даже намёков на него. Мы понятия не имеем, удастся ли нам создать сильный AI, и если да, то когда — но ChatGPT от него столь же далёк, сколь далеки калькулятор и экскаватор.

Он просто очень хорошо предсказывает, какое слово надо поставить следующим во фразе, чтобы человеку эта фраза казалась правильной.

Отвечает Илья Суцкевер, ведущий инженер OpenAI:

Есть еще один комментарий, который я бы хотел упомянуть — о том, что эти модели просто обучаются статистическим закономерностям, и поэтому они не знают, какова настоящая природа мира. Я считаю иначе. Я думаю, что изучение статистических закономерностей — это гораздо более глубокая вещь, чем кажется на первый взгляд. Предсказание — это статистическое явление. Но чтобы предсказывать, нужно понимать глубинный процесс, который породил данные — вам нужно все больше и больше понимать мир, который стоит за ними. Если наши генеративные модели станут очень хорошими, то они будут обладать, как я считаю, шокирующей степенью понимания мира и всех его тонкостей. Да, это будет мир увиденный через призму текста. Модель будет знать все больше и больше о мире через проекцию мира на пространство текста, выраженного человеческими существами в Интернете. Но этот текст выражает настоящий мир.

***

Если задуматься, то что значит достаточно хорошо предсказать следующий токен? На самом деле этот вопрос гораздо глубже, чем кажется. Хорошее предсказание следующего токена означает, что вы понимаете лежащую за ним реальность, которая привела к созданию этого токена. Хотя это и статистика, но что за статистика? Для того, чтобы впитать эту статистику, чтобы сжать ее, вам нужно понять, что именно в мире создает этот набор статистических данных. И это требует настоящего понимания мира.

***

Я хотел бы привести аналогию, которая, надеюсь, прояснит, почему более точное предсказание следующего слова приводит к большему пониманию — настоящему пониманию. Давайте рассмотрим пример. Скажем, вы читаете детективный роман со сложным сюжетом, сюжетной линией, разными персонажами, множеством событий и загадками и подсказками. Все непонятно. Затем допустим, что на последней странице книги детектив собрал все улики, собрал всех людей и говорит: «Я собираюсь раскрыть личность того, кто совершил преступление, и этого человека зовут...» И предсказывает имя убийцы. Предсказывает единственное правильное слово! Было много разных вариантов, много разных имен, [но было выбрано единственно верное]. Таким же образом, все более точное предсказание слов, требует все более глубокого понимания текста [и стоящей за ним реальности].

Оригинал ответа:

There is another comment I want to make about which is that these models just learn statistical regularities and therefore they don't really know what the nature of the world is.

I have a view that differs from this. I think that learning the statistical regularities is a far bigger deal than meets the eye.

Prediction is a statistical phenomenon. Yet to predict you need to understand the underlying process that produced the data. You need to understand more and more about the world that produced the data.

As our generative models become extraordinarily good, they will have, I claim, a shocking degree of understanding of the world and many of its subtleties. It is the world as seen through the lens of text. It tries to learn more and more about the world through a projection of the world on the space of text as expressed by human beings on the internet.

But still, this text already expresses the world.

***

Because if you think about it, what does it mean to predict the next token well enough? It's actually a much deeper question than it seems. Predicting the next token well means that you understand the underlying reality that led to the creation of that token. It is statistics but what is statistics? In order to understand those statistics to compress them, you need to understand what is it about the world that creates this set of statistics?

***

So, I'd like to take a small detour and give an analogy that will hopefully clarify why more accurate prediction of the next word leads to more understanding - real understanding. Let's consider an example. Say you read a detective novel with a complicated plot, a storyline, different characters, lots of events, and mysteries like clues. It's unclear. Then let's say that at the last page of the book, the detective has gathered all the clues, gathered all the people, and is saying, "Okay, I'm going to reveal the identity of whoever committed the crime, and that person's name is..." Predict that word. Predict that word exactly! My goodness, right? Yeah. Now, there are many different words, but by predicting those words better and better and better, the understanding of the text keeps on increasing. GPT-4 predicts the next word better.

Невозможно каждый раз "просто правильно вставлять слова и фразы", не обладая при этом пониманием лежащих за словами паттернов, которые, в конечном итоге, отражают реальный мир. Вы совершаете ту же ошибку, что совершил Сёрл со своей "Китайской комнатой". Команта, включающая человека, как система в целом, в действительности, понимает китайский.

закаливание позволяет реже болеть ОРВИ, но более основательные исследования этого не подтверждают.

Можно ссылку на "более основательные исследования" по этому поводу? Я с ходу нашел одно и другое, как раз опровергающие цитату. А исследований подтверждающих с ходу не обнаружил.

А вот что отвечает на ваши каверзные вопросы AI чат от Bing, основанный на той же самой GPT-3

Самая простая доказано универсальная машина Тьюринга - это Wolfram's 2-state 3-symbol Turing machine. Интересно, насколько сложно выглядела бы симуляция процессора на ней и какое было бы сравнительное быстродействие? И какие есть возможности для симуляции на ленте ограниченной длины? (может быть, на какой-нибудь замкнутой кольцевой ленте?). По идее, это было бы универсальное вычислительное устройство, на основе самых простых принципов (проще уже быть не может).

Information

Rating
Does not participate
Registered
Activity