Как стать автором
Обновить
18
0
Станислав @took_the_lead

Пользователь

Отправить сообщение

там в претрейне минимум 1 млрд токенов для каждого из 200 языков, в том числе русского (NLLB гуглите)

оффтоп на тему жирного шрифта: попробуйте расширение Jiffy Reader)

Конкретно за CO₂ скорее всего доминирующие факты влияния на изменение климата на данный момент находятся вне зоны ответственности человека, но это не отменяет того факта, что по другим категориям персонального эко следа нам не нужно что-то менять.

Жирный шрифт обусловлен большим количеством затрагиваемых в статье тем и разделения по логическим блокам. Возможно человеческий след и сотрется через 300-3000 лет, только какая польза будет нам, если нас не будет? Выводы каждый человек должен сделать для себя сам и в меру своей осознанности и ответственности начать менять себя и стимулировать к этому своё окружение.

Добрый день, спасибо за обратную связь. В статье сказано, и описывается среднестатистический житель мегаполиса России. Обзор обобщённый в меру большого числа покрытых факторов, но каждый из них конечно же может и должен быть разобран ещё глубже. Но даже и в этом виде осознанные люди задумаются над обозначенными цифрами и смогут экстраполировать тенденции на 10 лет и понять, что нужно что-то менять, и лучше начать с себя и своего окружения.

Если Вас интересует обход конкретно детекторов сгенерированного текста, то всё очень просто - все они работает на основе расчёта перплексии каждого предложения. (Вероятность появления следующего токена). Вам просто нужно "засорить" токены таким образом, чтобы перплексия высчитывалась не верно. Еще в 21 году сразу же после появления zerogpt я создал простенький сервис HideGPT (гуглится), который в случайном порядке заменяет некоторые символы (a,o,e,у,р на кириллицу в случае если текст на английском и наоборот). Такой простой трюк скрывал факт написанного текста гпт на 100%.

Спасибо за детально развёрнутые мысли, я примерно такое и ожидал увидеть, как процесс зарождающейся дискуссии на описанные выше темы. Грань действительно тонкая, и проанализировав и сделав собственные выводы, лично я принял решение максимально долго не допускать детей к ИИ вообще. На своем примере из детства буду стараться прививать любовь к чтению, познаванию, мышлению, логике через реальный мир. В ИИ вкатиться они всегда успеют имхо.

Да, прочитал, там как будто бы разобран один из аспектов, обсуждаемый в статье. Коротко, по существу, да, но там не описывается на основании чего он пришел к таким выводам, нет аналитики и источников авторства этих мыслей.

Ну может оно Вам тогда и не надо?) Идея была в том, чтобы задать предмет для дискуссии на глубокие темы, поднятые в статье. Сокращение через ллм это крутая фишка и я сам ей пользуюсь, но не всё и всегда стоит сокращать, потому что статья и так является концентратом идей и мыслей.

Состояние потока это круто, только едва ли вы были в том возрасте, который описывается в статье. В таком возрасте дети ещё не умеют в продуктивность, расставление приоритетов и рефлексию о рисках от такой деятельности.

В статье приведены примеры начальных шагов. В целом я хотел запустить в комментариях дискуссию и обратить внимание на проблему (в очередной раз). Но если кто-то задумается и переосмыслит взаимодействие своих детей с девайсами, значит моя цель достигнута.

Я думаю что сисадминами, кодерами, хакерами они стать ещё успеют:). Главное чтобы в детстве ментальное и физическое здоровье сохранилось.

Без теории практические аспекты могут быть не до конца понятны, тут описаны причины, цели, инструменты и т.д. Конечно, идей много в посте, в том числе и общих, это фундамент - базис. Практическая часть конечно интереснее практикам будет, но без теории из первой статьи всё таки не была бы полной для понимания.

Делали свой чекер (checkgpt.app, сейчас недоступен) на ИИ сгенерированный контент на русском языке (и не только) в начале 23 года еще, тогда еще не появилась волна аналогов и zerogpt был еще в виде steamlit приложения. Собрали датасет доступных на тот момент сгенерированных текстов (chargpt 3, bloom). По нему обучили классификатор (Catboost). Фичи выделяли скриптом на питоне, который извлекал их из текста. Вот фрагмент моей статьи с описанием работы чекера:

Для определения сгенерированного или написанного человеком текста, мы используем комбинацию статистических и эвристических методов.

- Статистические признаки учитывают такие метрики как индекс читаемости и связанности текста, комплексная сложность текста, перплексия, количество уникальных и сложных слов, длина слов и предложений, количество символов и др, юниграмы и токены.

- Эвристические признаки в том числе учитывают извлеченные определенные речевые обороты и слова, нестандартные формулировки и конструкции предложений, отклоенения от текстов, написанных человеком.

В результате работы появился ML алгоритм для классификации текстов, который использует в том числе следующие метрики:

  • Перплексия (perplexity) или же «коэффициент неопределённости» — метрика оценки языковых моделей. Она определяет сложность текста.

  • Автоматический индекс удобочитаемости (automated readability index (ARI) — мера определения сложности восприятия текста читателем, аппроксимирующая сложность текста.

  • Корреляция встречаемости речевых оборотов в текстах.

  • Индекс сложности текста (text complexity).

  • Индекс удобочитаемости Флеша (Flesch reading ease formula) — метрика, использующая формулу, оценивающую сложность текста.

  • Индекс Колман-Лиау (Coleman–Liau index)) — индекс удобочитаемости, который наряду с индексом ARI может использоваться для определения сложности восприятия текста читателем путём аппроксимирования сложности текста.

  • Уникальность текста - метрика определения вероятностных и уникальных слов и их комбинаций в предложениях.

  • Связанность предложений (cohesion) - и лексическая связность текста или предложения, которая соединяет их в единое целое и придает им смысл; одна из определяющих характеристик текста/дискурса и одно из необходимых условий текстуальности..

  • Когерентность (Coherence) - метрика оценки целостности текста, заключающаяся в логико-семантической, грамматической и стилистической соотнесённости и взаимозависимости составляющих его элементов (слов, предложений и т. д.).

  • Индекс смешанности (Code Mixing Index) - метрика обозначает спонтанное переключение предложения или речевой составляющей.

  • другие know-how решения.

я думаю всё же такую сборку стоит воспринимать как PoC, нежели как платформу с возможностью для ежедневного использования, пока лучше GPU ничего не придумано, но там нужен другой бюджет.

Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.

Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.

Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.

1

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность

Специализация

Fullstack Developer, Chief Technology Officer (CTO)
Senior
Python
English
C++
Django
Algorithms and data structures
Software development
C
Visual Studio