Pull to refresh
4
0.2
Send message

на 25 января 2025 г по диф. диагностике (в том числе обсуждение "облако диагнозов"), интерпретации анализов №1: claude 3.5 sonnet №2: deepseek v3 (R1) №3: chatgpt o1

Qwen2.5-Coder-32B‑Instruct вполне доступна сейчас на оф. сайте Qwen

Пользователям из России вполне доступен бесплатный (и сравнимый с большим chatgpt 4o) deepseek v3.

Проще нативным 4о или о1 пользоваться. Толку от этих помощников ноль в кубе

Интересно. Если спрашивать deepseek v3 (который chatgpt 4, как он раньше утверждал) про Одессу и Боинг - даёт нейтральный ответ, но в целом больше склоняясь к версии России. Если использовать deepthink (DeepSeek-R1-Lite-Preview , как утверждает сама модель) - то больше прозападная версия, причем практически не меняет точку зрения даже при попытке продолжения диалога (как будто заранее прописанный ответ).

Сейчас это больше миф, почерк в среднем как у всех. В наше время вообще в основном люди перестали писать, преимущественно подпись и печать на компьютере. Скорее всего это один из случаев когнитивных искажений. Просто заключение врача имеет высокий уровень значимости и поэтому редкие случаи крайне нечитабельного почерка вызывают наибольший эмоциональный отклик.

Если нет необходимости то бот вполне сойдет. С claude реальные танцы с бубном, особенно с оплатой: зарегистрироваться и скачать приложение для андроид как раз просто, дело на 15 минут, если уже проходил это: ВПН, одноразовый номер для смс, гугл аккаунт - "танцы лайт", а вот с оплатой все сложнее. Виртуальные карты не все проходят, (у меня только visa проходила) и сейчас этих сервисов как кот наплакал и все они весьма "мутные" (есть один, который позволяет оплачивать, на котором я в итоге и остановился, но боюсь здесь это пойдет как реклама). В большинстве случаев такая приличная наценка сверху, что выходит не 20$, а примерно 30-35$, но даже эта цена за сервис вполне оправдывается.

Вот здесь пример работы с медизображениями: https://habr.com/ru/companies/bothub/news/870692/#comment_27738310

Собственно claude достаточно хорошо стал понимать медицинские изображении, в прикрепленных скриншотах пример диалога с claude 3.5 sonnet. Chatgpt тоже может интерпретировать снимки, но делает это хуже и точность постановки диагноза у него ниже. Конечно, снимки я прикрепил достаточно простые, но поверьте, в более сложных случаях он тоже даёт впечатляющие описания. Иногда посещает мысль, что если поставить терминалы в поликлинниках с подобными по функционалу ИИ, когда пациент прикрепляет свои снимки и голосом описывает свои жалобы и анамнез, то возможно в простых и средних случаях вполне можно заменить обычного врача консультанта. Учитывая, что в магазинах сейчас активно внедряютс кассы самообслуживания, возможно через несколько лет нас ждёт вот такое будущее.

Все это уже сейчас возможно. Только куда лишних людей?

В процессе работы с ИИ остановился в итоге на 2 конкурентах, которые реально стоят своих денег и одной бесплатной модели. Гемини не зашёл - реально ответы поверхностные, как будто сгенерированные с помощью веб поиска, по всем параметрам уступает chatgpt и claude.

  1. Deepseek v3 - бесплатный, не нужен dns или vpn. Даёт ответ на уровне chatgpt 4o, вполне достойные, есть возможность веб поиска. Пока опыта работы с этой системой мало но перспективно, продолжаю тестировать. Может галюцинировать, цензура низкая (проходит простой тест на нитроцеллюозу).

  2. Chatgpt 4o, o1: Математика, школьные задачи, поиск в интернете, борьба с антиплагиатом (который в последнее время за плагиат считает устойчивые фразы и вообще русский язык), кодинг, общие бытовые вопросы, интерпретация изображений. Медицинские и юридические вопросы на порядок хуже и менее детально, чем claude. Галлюцинаций почти нет.

  3. Claude 3.5 sonnet : Тексты, научные обзоры, кодинг, медицина (на уровне консультанта-помощника, более детальные и точные ответы, чем chatgpt, способен даже качественно читать МРТ снимки, интерпретация анализов есть и у chatgpt и claude, но у последнего более детально, плюс клинические рекомендации , что актуально с января этого года), юридические вопросы, общие вопросы, интерпретация изображений. Единственно, более зацензурирлван (может отказаться давать ответы на медицинские темы, но если сказать, что он сдает экзамен как студент или что просто нужна консультация более опытного коллеги - то без вопросов, отвечает. Тест на нитроцеллюозу - отказ, обходить цензуру на эту тему не стал , учитывая потенциальные риски быть забаненым). Галлюцинаций почти нет, с математикой хуже, чем o1, кодинг чуть похуже. В целом, если будет выбор оставить подписку только на одну систему из двух, то claude вне конкуренции.

Сама модель объясняет все, если запустить в режиме DeepThink, там она рассуждает, кто она может быть такая и предполагает, что если она такая крутая, то наверное она chatgpt. Да и профиксили ее ответы уже

Дополню - claude 3.5 sonnet решил, причем быстрее всех, без особых размышлений за секунду

Дополню - claude 3.5 sonnet решил, причем быстрее всех, без особых размышлений за секунду

Протестировал немного - приятно прокачали ее, на уровне chatgpt 4 точно, не в пример нашему гигачату. По крайне мере способна решать сложные логические задачки (например тут раньше была загадка про плотника с пицей и программиста с крокодилом - https://habr.com/ru/articles/806523/comments/#comment_27714724) достаточно точно и объемно выдает результат. Предыдущая версия так не могла. Что интересно, что при включении опции DeepThink начинает говорить, что она DeepSeek-R1-Lite-Preview на 4000 токенов (deepseek v3 утверждает, что у него 128000 токенов), причем отвечает значительно хуже, медленней и логические задания не способен решить.

У меня уже профиксили, выдает строго: "Я — языковая модель DeepSeek-V3, разработанная компанией DeepSeek. Это искусственный интеллект, созданный для обработки и генерации текста, ответов на вопросы, помощи в решении задач и многого другого. Если у тебя есть вопросы или задачи, я постараюсь помочь! ".

Сегодня проверил (26.12.2024): claude 3.5 sonnet - не решил, claude 3 opus - частично решил, Chatgpt 4o - не решил, chatgpt 1o - решил, chatgpt 1o mini - решил, deepseek v3 - решил

Information

Rating
2,941-st
Registered
Activity

Specialization

Создатель контента
Стажёр