Комментарии / Профиль took_the

Станислав @took_the_lead

Пользователь

ПрофильСтатьи12ПостыНовостиКомментарии37

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

took_the_lead 8 апр в 12:45

там в претрейне минимум 1 млрд токенов для каждого из 200 языков, в том числе русского (NLLB гуглите)

Посмотреть

Экослед человека: потребление ресурсов и воздействие на природу

took_the_lead 8 апр в 12:42

оффтоп на тему жирного шрифта: попробуйте расширение Jiffy Reader)

Посмотреть

Экослед человека: потребление ресурсов и воздействие на природу

took_the_lead 6 апр в 08:21

Конкретно за CO₂ скорее всего доминирующие факты влияния на изменение климата на данный момент находятся вне зоны ответственности человека, но это не отменяет того факта, что по другим категориям персонального эко следа нам не нужно что-то менять.

Посмотреть

Экослед человека: потребление ресурсов и воздействие на природу

took_the_lead 6 апр в 08:20

Жирный шрифт обусловлен большим количеством затрагиваемых в статье тем и разделения по логическим блокам. Возможно человеческий след и сотрется через 300-3000 лет, только какая польза будет нам, если нас не будет? Выводы каждый человек должен сделать для себя сам и в меру своей осознанности и ответственности начать менять себя и стимулировать к этому своё окружение.

Посмотреть

Экослед человека: потребление ресурсов и воздействие на природу

took_the_lead 6 апр в 08:18

Добрый день, спасибо за обратную связь. В статье сказано, и описывается среднестатистический житель мегаполиса России. Обзор обобщённый в меру большого числа покрытых факторов, но каждый из них конечно же может и должен быть разобран ещё глубже. Но даже и в этом виде осознанные люди задумаются над обозначенными цифрами и смогут экстраполировать тенденции на 10 лет и понять, что нужно что-то менять, и лучше начать с себя и своего окружения.

Посмотреть

Как разоблачить нейросеть: 6 признаков, что текст написал ИИ

took_the_lead 8 мар в 09:50

Если Вас интересует обход конкретно детекторов сгенерированного текста, то всё очень просто - все они работает на основе расчёта перплексии каждого предложения. (Вероятность появления следующего токена). Вам просто нужно "засорить" токены таким образом, чтобы перплексия высчитывалась не верно. Еще в 21 году сразу же после появления zerogpt я создал простенький сервис HideGPT (гуглится), который в случайном порядке заменяет некоторые символы (a,o,e,у,р на кириллицу в случае если текст на английском и наоборот). Такой простой трюк скрывал факт написанного текста гпт на 100%.

Посмотреть

Анализ влияния ИИ (LLM) на когнитивные способности в 10-летней перспективе

took_the_lead 7 мар в 10:04

Спасибо за детально развёрнутые мысли, я примерно такое и ожидал увидеть, как процесс зарождающейся дискуссии на описанные выше темы. Грань действительно тонкая, и проанализировав и сделав собственные выводы, лично я принял решение максимально долго не допускать детей к ИИ вообще. На своем примере из детства буду стараться прививать любовь к чтению, познаванию, мышлению, логике через реальный мир. В ИИ вкатиться они всегда успеют имхо.

Посмотреть

Анализ влияния ИИ (LLM) на когнитивные способности в 10-летней перспективе

took_the_lead 7 мар в 10:02

Да, прочитал, там как будто бы разобран один из аспектов, обсуждаемый в статье. Коротко, по существу, да, но там не описывается на основании чего он пришел к таким выводам, нет аналитики и источников авторства этих мыслей.

Посмотреть

Анализ влияния ИИ (LLM) на когнитивные способности в 10-летней перспективе

took_the_lead 6 мар в 20:27

Ну может оно Вам тогда и не надо?) Идея была в том, чтобы задать предмет для дискуссии на глубокие темы, поднятые в статье. Сокращение через ллм это крутая фишка и я сам ей пользуюсь, но не всё и всегда стоит сокращать, потому что статья и так является концентратом идей и мыслей.

Посмотреть

Влияние цифрового потребления и избыточного использования девайсов на детей

took_the_lead 2 мар в 09:20

Состояние потока это круто, только едва ли вы были в том возрасте, который описывается в статье. В таком возрасте дети ещё не умеют в продуктивность, расставление приоритетов и рефлексию о рисках от такой деятельности.

Посмотреть

Влияние цифрового потребления и избыточного использования девайсов на детей

took_the_lead 2 мар в 09:19

В статье приведены примеры начальных шагов. В целом я хотел запустить в комментариях дискуссию и обратить внимание на проблему (в очередной раз). Но если кто-то задумается и переосмыслит взаимодействие своих детей с девайсами, значит моя цель достигнута.

Посмотреть

Влияние цифрового потребления и избыточного использования девайсов на детей

took_the_lead 1 мар в 14:22

Я думаю что сисадминами, кодерами, хакерами они стать ещё успеют:). Главное чтобы в детстве ментальное и физическое здоровье сохранилось.

Посмотреть

Рассуждения об оцифровке отдельных аспектов личности (самодигитализации)

took_the_lead 28 фев в 16:08

Без теории практические аспекты могут быть не до конца понятны, тут описаны причины, цели, инструменты и т.д. Конечно, идей много в посте, в том числе и общих, это фундамент - базис. Практическая часть конечно интереснее практикам будет, но без теории из первой статьи всё таки не была бы полной для понимания.

Посмотреть

Mozilla адаптировала Fakespot в дополнение к Firefox для обнаружения ИИ-контента

took_the_lead 4 фев в 08:48

Делали свой чекер (checkgpt.app, сейчас недоступен) на ИИ сгенерированный контент на русском языке (и не только) в начале 23 года еще, тогда еще не появилась волна аналогов и zerogpt был еще в виде steamlit приложения. Собрали датасет доступных на тот момент сгенерированных текстов (chargpt 3, bloom). По нему обучили классификатор (Catboost). Фичи выделяли скриптом на питоне, который извлекал их из текста. Вот фрагмент моей статьи с описанием работы чекера:

Для определения сгенерированного или написанного человеком текста, мы используем комбинацию статистических и эвристических методов.

- Статистические признаки учитывают такие метрики как индекс читаемости и связанности текста, комплексная сложность текста, перплексия, количество уникальных и сложных слов, длина слов и предложений, количество символов и др, юниграмы и токены.

- Эвристические признаки в том числе учитывают извлеченные определенные речевые обороты и слова, нестандартные формулировки и конструкции предложений, отклоенения от текстов, написанных человеком.

В результате работы появился ML алгоритм для классификации текстов, который использует в том числе следующие метрики:

Перплексия (perplexity) или же «коэффициент неопределённости» — метрика оценки языковых моделей. Она определяет сложность текста.
Автоматический индекс удобочитаемости (automated readability index (ARI) — мера определения сложности восприятия текста читателем, аппроксимирующая сложность текста.
Корреляция встречаемости речевых оборотов в текстах.
Индекс сложности текста (text complexity).
Индекс удобочитаемости Флеша (Flesch reading ease formula) — метрика, использующая формулу, оценивающую сложность текста.
Индекс Колман-Лиау (Coleman–Liau index)) — индекс удобочитаемости, который наряду с индексом ARI может использоваться для определения сложности восприятия текста читателем путём аппроксимирования сложности текста.
Уникальность текста - метрика определения вероятностных и уникальных слов и их комбинаций в предложениях.
Связанность предложений (cohesion) - и лексическая связность текста или предложения, которая соединяет их в единое целое и придает им смысл; одна из определяющих характеристик текста/дискурса и одно из необходимых условий текстуальности..
Когерентность (Coherence) - метрика оценки целостности текста, заключающаяся в логико-семантической, грамматической и стилистической соотнесённости и взаимозависимости составляющих его элементов (слов, предложений и т. д.).
Индекс смешанности (Code Mixing Index) - метрика обозначает спонтанное переключение предложения или речевой составляющей.
другие know-how решения.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 2 фев в 12:59

я думаю всё же такую сборку стоит воспринимать как PoC, нежели как платформу с возможностью для ежедневного использования, пока лучше GPU ничего не придумано, но там нужен другой бюджет.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 30 янв в 17:58

Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 30 янв в 17:57

Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 30 янв в 10:41

Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 30 янв в 10:40

Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.

Посмотреть

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

took_the_lead 30 янв в 10:21

Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.

Посмотреть

Информация

Специализация