Pull to refresh
4
2.1
Send message
  1. Я уже взял тариф на 200 тыс. токенов за 490 рублей от LLaMA 3.3 70B.

Скажите, а зачем кому-то покупать у вас 200 тыс. токенов 70B модели за 490 рублей, когда можно купить 1 миллион токенов 670B модели DeepSeek-V3-0324 за где-то 80 рублей?

Модель намного лучше, цена за токен в 30 раз дешевле.

https://api-docs.deepseek.com/quick_start/pricing

А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных...

Нейроны которого образут сложную структуру с различными специализациями.

И, честно говоря, вы бы матчасть подучили. Чтоб понять в чем разница между векторной базой и LLM, прежде чем пулять фразами.

Столько времени надо сдать на водительские права, очевидно, что добежать самому или доехать на автобусе быстрее, чем все это потерянное время.

Курсор это инструмент, а не магический кристалл. С ним надо учиться работать. Настраивать его под себя, под проект. Понять какие промпты работают, а какие не очень. Какие задачи решаются промтами хорошо, а какие не очень. Понять, что модель часто не знает либ используемых в проекте и научиться давать ссылки на необходимую документацию в промпте. И ид, и тп.

Возьмите людей, которые полгода активно кодят в курсоре. Настройте им VS Code, один в один как курсор, только минус ИИ. Ну и давайте делать задания что там что там.

Я как-то проходил собес, где надо было сделать тестовое за короткое время и утверждалось, что я могу использовать любые ИИ в работе. Попытался сделать без ИИ, сделал, но не за час, а за 3 часа, из-за чего мне отказали. Задание: дали гитхаб с проектом, надо было запилить новый функционал и в процессе тестирования всплывает ошибка в старом коде которую надо тоже пофиксить. Самому вовремя не успеть, если есть навык работы с курсором, то можно и успеть.

Только я не уверен, что хотел-бы туда попасть, подозреваю, что контора - потогонка на все задачи ставит нереальные сроки.

Какие именно тесты проводились?

В статье перечислены тестовые бенчмарки с кратким описанием, по названию можно найти их описание и список тестов.

Почему сравнивают с ChatGPT 3.5, а не GPT-4?

В статье нигде не упоминается ни ChatGPT 3.5, ни GPT-4.

Если он и правда сможет конкурировать с GPT-4 Turbo

GPT-4 Turbo устарела еще в прошлом году, с ней никто уже давно не соревнуется.

Да, можно по API, хоть напрямую, хоть через OpenRouter. Только 4-й версии еще не существует, поэтому доступна 3-я.

Но! Не от соли 100%. Потому что солю всё всегда в больших дозах, каждый день обильно солю завтрак, обед и ужин. В оправдание себе нашел статью, что 5 гр. в сутки как норма это устаревшее мнение. И что люди которые превышают это суточное потребление даже живут лучше (и видимо точно без мигрени).

Просто у вас нет гипертонии, а автору такой диагноз поставили, то есть у него и так уже повышенное давление с обычным для него рационом. Добавляем к этому рациону еще соленого, давление поднимается еще и начинает болеть голова.

Соль. Странно, что врач когда ставил диагноз про это не упомянул, ибо известная проблема. Соль задерживает жидкость в организме, больше жидкости, больше крови и больше давление. Всякие травки от повышенного давления - обычное мочегонное.

А насколько хватает длинны контекста DeepSeek? У него всего 64к контекст, для общения норм, но для агентного программирования на среднем проекте модели и с бОльшим контекстом часто забывают правила или что там было раньше.

Все-таки в 90-х программерские, или скорее айтишные анекдоты были в основном в ФИДО.

Попал думер в ад, через какое-то время сатана жалуется богу - забери его, пожалуйста, всех чертей замучил, житья не дает. Открываются перед думером врата рай, он достает бензопилу: "О, секретный уровень!"

Многие команды для совместной работы используют google docs и google sheets. Эти ученые ими случайно не пользовались на протяжении своих 10 лет исследований?

То, что Гугл, имея такую огромную базу пользовательских документов, никак не задействует ее для обучения своих ИИ, лично мне верится слабо. Сейчас идет гонка ИИ и всем плевать на законы, лишь бы не дать китайцам себя обогнать.

Все модели запускались в следующих условиях, кроме Qwen3, где применялись более консервативные значения по умолчанию:

Не понял, а зачем Qwen3 обидели и не дали токенов побольше? И почему Polaris7b слил более слабой сетке Polaris4b. Судя по тексту дальше:

Если ограничить max_tokens стандартным 4096 или 8192, Polaris теряет большую часть своего преимущества.

Ему тоже порезали количество токенов, как и Qwen3? Почему-бы не сделать 2 серии тестов для вообще всех сеток из тестируемых, одна серия тестов с дефолтным max_tokens, другая с max_tokens=90000. Было-бы наглядно и можно было-бы делать выводы, а пока как-то странно выглядит.

Перейдём к методологическим проблемам:

На мой взгляд, одна из важнейших методологических проблем это как они провели 4-й этап на котором группы менялись: те, кто использовал ЛЛМ теперь писали сами, а те, кто раньше писал сам - использовали ЛЛМ. И поведение участников, как и результаты, сильно отличались от того, как было на предыдущих этапах, из-за чего было много хайпа на тему отупения.

Вот только 4-й этап во-первых был необязательным и пришло сильно меньше народу (которого и так было слишком мало для нормального исследования), а во-вторых задание отличалось - вместо того, чтоб писать новое сочинение как на предыдущих этапах, участники переписывали старое.

Так что к участникам оригинального исследования есть огромная претензия, или скорее, вопрос: эти изменения в 4-й этап были сделаны специально, чтоб на разнице в ЭЭГ с предыдущими этапами можно было начать говорить об отуплении, или нечаянно накосячили?

А ваш каш консультант особенный, сделан из адамантия, что он выкладывается на 100% тогда как свои работники болеют, а когда не болеют продуктивны 66% рабочего времени?

Почему все закупленные на десятки миллиардов рублей Минздравом РФ лекарства от ковида признаны ВОЗ бесполезными (в лучшем случае).

Почему вы так решили? Понятно, что во времена ковида все было переполнено пропагандой с разных сторон, но сейчас даже ЧатГПТ, обучающийся в основном на западных источниках считает это утверждение ложным:

  1. Не все препараты оказались бесполезными — часть (глюкокортикоиды, моноклональные антитела, вакцины) доказала эффективность.

  2. Однако значительная доля закупок пришлась на препараты с недоказанной или доказанно отсутствующей эффективностью, которым ВОЗ официально рекомендовала не пользоваться.

R1-0528 из статьи да, рассуждающая R1, обновленная 28 мая.

Давайте честно: грузчик / кладовщик / штабелерщик (любой сотрудник) - это специалист в своей сфере

Я не знаком с АОЕ-шной тематикой, помимо того, что наблюдал на реальном складе участвуя в его автоматизации, поэтому у меня нет ответа на вопрос почему паханы, которым нельзя работать, но можно получать зарплату, лезут именно в грузчики, а не другие специальности, но почему-то они делают именно это. И сразу отвечая про грузчиков на этот вопрос:

Чем по вашему склад (как структура и организация) отличается от, например, отдела разработки или отдела закупа?

Среди грузчиков полно честных работяг, но тем не менее, профессия грузчика довольно близка к социальному дну, а люди на дне оказываются не просто так, у всех свои причины. У кого-то проблемы с психикой, у кого-то с алкоголем, у кого-то еще чтото. И методы работы со средним социальным слоем, плохо работают с нижним, как-раз потому-что эти люди не смогли нормально адаптироваться под эти методы и оказались внизу.

Потому-что видел как реально наводят порядок на складах. Сначала надо натыкать камеры на каждом углу, чтоб выявить паханов, которым работать по воровским законам западло и они устраиваются грузчиками, чтобы самим нихера не делать, а гонять других грузчиков. Затем, когда паханы выявлены - показательно выгнать их к чертям. И уж потом есть шанс, что с остальными можно будет разговаривать. И не пони-радугой "ой, а давайте как дома", а конкретикой, т.к. пить вы с ними не пили и какой срач у них дома понятия не имеете.

Если хоть один пахан остался - вас будут саботировать на всех этапах все работники склада.

Как мило, грузчикам на складе сказали "давайте сделаем как дома, все по честному" они хоба, и сделали, а лишние люди взяли и сами уволились. :)

Автор, ваш ИИ вообще не имеет никакого представления о том, что такое склад, поэтому наплел вам выдуманой пони-магии с три короба, а вы и поверили.

1
23 ...

Information

Rating
1,912-th
Registered
Activity