Pull to refresh
4
0
Send message

По видимому, у сберовского токенизатора нету tool calls в принципе.

https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview/blob/main/tokenizer.json

Зависит больше от токенизатора. Так-то и в ранних chatgpt 3.5-4 бывала мешанина с китайским в ответах, при этом никаких опенсорсных китайских ИИ не было.

Веса в принципе очень тяжело интерпретировать, за это anthropic борется. однако они (в формате safetensors) не содержат исполняемого кода. Потому не могут сами отправить секретные документы по интернету куда не надо. Отправить может только код-инференс запуска, а там уже всё стандартно. Да и отрубить лишние доступы тоже можно :)

П. С. На деле и открытого исходного кода не требуется

Я не писал что этого достаточно, я писал что ключевое :)

Ну, а остальное примерно также, как у другого софта с доступом к гостайне.

По сути, ключевое это работа на серверах, расположенных в России

Важный момент: это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете

Нет, написано обратное. Что использовали deepseek архитектуру это-то ладно

Не обязательно - стиль ответа можно сильно изменить даже промптом

У меня есть сомнения, что гигачат ultra действительно обучена с нуля. Смотрите

Недавно эти ребята опубликовали статью, где определённой методикой выяснили, что Huawei Pangu использовала веса Qwen-2.5 14B. Я решил методику повторить
Вот код, вот команда uv run main.py --model-a deepseek-ai/DeepSeek-V3.1 --model-b ai-sage/GigaChat3-702B-A36B-preview-bf16 --interpolate min
Результаты

=== Correlations between models ===
 Q: 0.7975
 K: 0.6938
 V: 0.8433
 O: 0.8421

~ 0.8 это очень много, результат явно намекает на веса deepseek-а в базе.
При этом Q и K значения сильно меняются при смене токенизатора, потому результаты V/O ещё более показательные.

Стоит сказать, что я пока не протестировал другие DeepSeek-V3.*, где корреляция может быть ещё выше.

P.S. Я также своей реализацией запускал и модели из той статьи и воспроизвёл их результаты.

Понял. Я бы сделал через битовый сдвиг. Увы, не помню по памяти, как он реализуется... но chatgpt мне валидный пример набросал =)

А там a может быть и False, и True, и "Error with API"

>>> a = "Error"
>>> if a:
...     True
... else:
...     False
...
True
>>> if a == True:
...     True
... else:
...     False
...
False
>>>


А ты приходишь и объясняешь, что == True надо убрать.

Имеется ввиду, клавиатурный минус? т.е. решения в духе 5 + (-1 * 3) не подойдут?

У вас в этом комментарии две пунктуационные ошибки. Тире перед "это" не ставится. И точки в конце нет.

Вы не взяли примеры, вы придумали их сами. Это то самое трюкачество, в котором вас справедливо обвиняют

Т.е. зубрёжка. Там можно проще - наизусть перечислить вообще все встроенные функции, модули и базовые методы. Проверять по чек-листу легко, и как KPI элементарно считать.

человек сможет писать поддерживаемый код без грубых ошибок

В таком случае, вы сами его не прошли. Ведь на полном серьёзе пишете
55 == True is True
и спрашиваете кандидатов, как оно работает

У openpyxl вполне хорошо работает режим записи, но тут речь про дозапись/редактирование уже готовых, а не создание новых файлов. Примерно такое

wirh pd.ExcelWriter(engine="openpyxl", mode="a" )

Почему я начал писать excelsior - именно этот режим, именно в append формате, слишком медленный. Write быстрый, append медленный.

Лучше мой Excelsior (я так назвал либу) улучши!

Я с момента выхода статьи улучшил инструмент, и очень сильно. и даже переименовал

Он в ~500 раз быстрее чем openpyxl, и по возможностям приближается. И да, работа как со строкой.

Я оказывается миддл :)

Тесты у меня есть, причём прямо xlsx файлы внутри github проекта (грязные). Папка tests Сейчас научил со стилями работать

Information

Rating
Does not participate
Registered
Activity

Specialization

Backend Developer, System Administration