All streams
Search
Write a publication
Pull to refresh
9
0.1

Пользователь

Send message

Не вероятно а точно. Магазины платят аренду в центре городов. Охрана, консультанты. Цены у них никак не могут быть ниже онлайн-продавцов. Народ ходит в магазины, присматривает телефон, и потом заказывает на маркетплейсе.

Похоже, русские слова в неё лишь случайно попали.

Расскажи мне о Минске.

> Минске — это название муниципального города в Шотландии, состоящего из окрестностей Сербия, Черного Форта, Уэттихина и Кришска-Пучгурда...

На английском получше отвечает, хотя и тоже галюционирует.

Tell me about Minsk.

> Minsk - this is the capital city of Belarus, located in the country's fertile land...

Но её лучше использовать для математики и кодинга.

These models should be used as assistive tools rather than definitive sources of information.

Ссылка на инструкт-версию в GGUF-формате для llama.cpp-совместимых движков: https://huggingface.co/bartowski/SmolLM2-1.7B-Instruct-GGUF

"Алиса, расскажи про погоду?", "Алиса, включи свет", "Алиса, запусти пылесос"... Чем не применении ИИ в быту?

Зачем объединять xAI с OpenAI? Если ты можешь собрать много бабла на выкуп конкурента - так влей их в свой xAI, купи самое дорогое оборудование, собери самых крутых ИИ-исследователей.

DeepSeek молодцы: творчески переработали изыскания американцев, применили квантование (обучение сразу в 1-байтных весах) и мультиэкспертный подход для уменьшения требований к оборудованию, чтобы уменьшить издержки на сбор обучающих выборок использовали лучшие американские LLM в качестве учителя. И в итоге отдали всё в OpenSource. Теперь каждая фирма может за разумные деньги приобрести себе железо и запустить на нём вполне полноценную LLM для своих производственных задач.

Мимокрокодила широкого профиля, вестимо...

Почитайте хотя бы Вики о нём, по ссылке. Это один из основателей DeepMind

Конечно, зачем нам всерьёз воспринимать какого-то нобелевского лауреата.

Даже пенсионеры с Алисой разговаривают.

Я попробовал тот же промт на бесплатном Копилоте, но он ленивый, предлагает написать программу для такого подсчёта. Поэтому немного переписал промт, разложив на 2 запроса.

Hidden text

Выполни умножение разрядов двух чисел, записывая полученные произведения.

Вот пример поразрядного умножения чисел 123 и 456:

1. Сначала разложим числа на десятичные разряды, представив их в записи со степенями десятки.

123 = 1*10^2 + 2*10^1 + 3*10^0

456 = 4*10^2 + 5*10^1 + 6*10^0

2. Перемножим разряды попарно. При этом степени складываем.

| Множитель 1 | Множитель 2 | Произведение |

|---------|---------|--------------|

| 1*10^2 | 4*10^2 | 4*10^4 |

| 1*10^2 | 5*10^1 | 5*10^3 |

| 1*10^2 | 6*10^0 | 6*10^2 |

| 2*10^1 | 4*10^2 | 8*10^3 |

| 2*10^1 | 5*10^1 | 10*10^2 |

| 2*10^1 | 6*10^0 | 12*10^1 |

| 3*10^0 | 4*10^2 | 12*10^2 |

| 3*10^0 | 5*10^1 | 15*10^1 |

| 3*10^0 | 6*10^0 | 18*10^0 |

По такому примеру перемножь разряды чисел 1234567890 и 9876543219. Выведи результат в таблицу.

В итоге получил таблицу произведений на 100 строк (10*10 разрядов). И вставил столбец произведения в новый запрос:

Есть список чисел. Сложи их, добавляя по одному к сумме. Показывай промежуточные результаты суммирования.

9*10^18

8*10^17

7*10^16

6*10^15

5*10^14

4*10^13

...

0*10^5

0*10^4

0*10^3

0*10^2

0*10^1

0*10^0

В итоге Copilot досуммировал до 76 числа и завис.

  • 72. 64×101064 \times 10^{10}

    • Промежуточная сумма: 12.445650715597545 \times 10^{18}

  • 73. 56×10956 \times 10^{9}

    • Промежуточная сумма: 12.446210715597545 \times 10^{18}

  • 74. 48×10848 \times 10^{8}

    • Промежуточная сумма: 12.446258715597545 \times 10^{18}

  • 75. 40×10740 \times 10^{7}

    • Промежуточная сумма: 12.446262715597545 \times 10^{18}

  • 76. 32×106

Прости, Microsoft, если я вырубил вам сервер. :)

Надо бы на платном аккаунте попробовать, но у меня нету.

4-х значные числа я научил умножать. Всё дело в промте.

Квантованная дистиллированная DeepSeek-R1-Distill-Qwen-14B-Q5_K_L, запущенная локально, тоже справилась. Хоть и ответила по-английски а не по-русски, но правильно.

Так свои, крупные американские IT-компании они потрясут в судах. Но до китайских и российских не доберутся. Как до сотен и тысяч мелких компаний, индивидуальных разработчиков, университетов, которые дистиллировали или дообучали ту же Llama.

Даже если издательства засудят все американские AI-компании за обучение на их текстах, уже поздно, джин выпущен из бутылки, все доступные книжки уже легли ровными слоями в веса различных LLM.

Никому уже не удастся остановить распространение открытой Llama от Facebook, открытых DeepSeek и Qwen от китайцев. На их основе путём дистилляции уже обучается новое поколение LLM, те исходные тексты были 100 раз сьедены и переварены.

Всё написанное касается также музыки, изображений, 3D-моделей, видеоконтента, голосов, компьютерных программ, и прочих произведений. Всё доступное в сети перерабатывается в веса нейронок.

Евросоюз что-то пытается регулировать, заставляет авторов LLM указывать источники обучения. Но это привело лишь к постепенному отставанию Европы в AI-гонке, по сравнению с США и засанкционированным Китаем 🐳 . С ходу можно назвать только французский Mistral AI, даже в России заметных AI-компаний больше. Что касается китайцев, так они никак не сдерживают своих разработчиков. Их нейронки легко генерируют химическое и биологическое оружие, дают любые вредные советы. Единственное их бесполезно спрашивать, что случилось на площади Тяньаньмэнь в 1989.

В заключение, думаю, те государства, которые захотят получить себе AGI первыми, не будут рубить сук, на котором сидят. Да и остальные не захотят сильно отстать от лидеров.

Нейросеть - очень широкое понятие. Обучить то можно и на слабом ноуте, небольшую нейросеть на сотни-тысячи нейронов. Если для вашей специфической задачи этого хватит. Или речь про LLM?

Ещё раньше, с момента появления мышления. Раньше всё делалось быстро, на уровне инстинктов.

Если без дообучения, нужно использовать LLM с большим окном контекста. У оригинальной DeepSeek R3 довольно большое - 128K токенов.

LLM в Python вроде неплохо разбираются, как по мне, который с этим языком не работал. Бесплатный Copilot рассказал общий план решения задачи, как подготовить данные, какие либы использовать, накидал кода для задания структуры модели, обучения, тестирования, запуска. Подсказывал, если вылазили косяки. Такой ускоренный курс датааналитика за 2 дня.

Проблема современных LLM мне кажется, что они заточены на выдачу ответа максимально быстро, вместо того, чтобы основательно подумать. "Думающие" LLM типа DeepSeek-R1, OpenAI o3 должны быть более полезны в разработке. Но они должны тратить ещё больше времени на обдумывание, каждой строчки кода, делать пометки в процессе работы, иметь доступ к компилятору для тестирования. Но тогда и стоить такая модель будет не $20, не $200, а все $4000/мес.

Я думаю, у автора был академический интерес, попробовать запустить полный вариант DeepSeek R1 на своём железе.

А так да, с практической точки зрения квантизации уровня Q6_K (551Гб) практически должны быть неотличимы от оригинала (713Гб). Q5_K_M, Q5_K_S - высокое качество, близкое к оригинальной модели (475Гб и 462Гб). Q4_K_M - хорошее качество для большинства применений (404Гб).

Вот тут: https://huggingface.co/bartowski/DeepSeek-R1-GGUF

Белорусские блокирует. Правда, сам же предлагает использовать VPN для обхода.

Пожалуйста, имейте в виду, что доступ к ChatGPT из Беларуси может требовать использования VPN-сервисов. С апреля 2024 года ChatGPT доступен без регистрации, но из Беларуси только через VPN.

Information

Rating
3,286-th
Registered
Activity