Comments / Profile of kunsun / Habr

@kunsun^{read⁠-⁠only}

User

Обзор новых Open Source LLM. Или как локально запустить аналог ChatGPT

Ну очевидный же бред. Либо эти люди не просили генерировать тексты (основная работа для ллм) либо они не читали результаты. Крошечные модели сильно заметно уступают всем крупным моделям, даже таким слабым как лама3-70 и клауд-1.

Look

Обзор новых Open Source LLM. Или как локально запустить аналог ChatGPT

kunsun May 30 at 09:47

В этой таблице Клауд 2.1 ниже чем лама 8б. Это абсолютно нереально. Ни в какой вселенной. Только если нашли какой то специальный тест на который ламу натаскивали, типа повтори 10 раз одну букву задом наперед.

А еще Клауд-1 выше чем Клауд 2 и 2.1. Может эту таблицу перевернуть надо?

Look

Обзор новых Open Source LLM. Или как локально запустить аналог ChatGPT

kunsun May 30 at 09:43

А что то за таблица? Я вот сейчас зашел на опенроутер и попросил у самой модной ph3 - 14b простенький текст написать. Там получился текст в духе "твая мая большой друг индейцев карифана...". ChatGPT себе такого никогда не позволял.

-1

Look

Llama 3.1-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

kunsun May 29 at 09:59

Еще одна проблема - математические записи. Бот их часто пишет латекс выражениями внутри долларов $$\[\sqrt{x^2+1}\] $$

Надо конвертить во что то более красивое чем латекс месиво. В картинки переделывать нельзя, телеграм не даст их вставлять посреди текста, можно в юникодные символы, есть библиотека которая делает это более менее прилично.

Но проблема еще их сдетектить в тексте, они не всегда между двумя долларами стоят.

Look

Llama 3.1-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

kunsun May 29 at 09:42

Еще одна проблема - сообщения от ботов бывают больше 4к символов. Если их тупо порезать то разрез может пройти внутри тега и будет 2 испорченных сообщения.

Look

Llama 3.1-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

kunsun May 29 at 09:00

Переделка маркдауна от чатгпт-ботов в маркдаун для телеграма это похоже самая сложная часть таких ботов. Перерыл кучу проектов на гитхабе ни у кого нет ничего приличного.

Входные данные нестабильны, боты могут одно и тоже по разному оформлять, могут неправильно оформить вообще, а телеграм не принимает сообщения которые оформлены с ошибками в тегах.

зы html у телеграма это на самом деле тоже маркдаун, просто похож внешне на хтмл, обычные парсеры хтмл тут непригодны

Look

Information

Specialization