All streams
Search
Write a publication
Pull to refresh
9
0
Василий @binque

был(а) 15 минут назад

Send message

Есть много признаков, которые выдают сгенерированный ИИ контент. Например, частое использование литературных слов и оборотов вроде "однако", тогда как на Хабре принят разговорный стиль. Деепричастные обороты в истории от первого лица. Калька речевых оборотов с английского, например "Я и коллега сделали" вместо "Мы с коллегой сделали". Идеальная расстановка запятых. Про слишком обобщенные фразы без конкретики уже говорили.

С другой стороны, есть куча признаков, которые скорее свойственны именно текстам от живых авторов на Хабре. Использование просторечий. Использование любых слов, образованных от названия сайта, типа хабрапользователи, хабрапост. И разные популярные фразочки, которые нейросеть вряд ли станет использовать, вроде:

  • Как-то сумбурно получилось.

  • От слова «совсем».

  • Поясню.

  • Еще раз.

  • Простите, накипело.

  • Ничтоже сумняшеся

Это мои наблюдения, не утверждаю, что я точно прав. Никакой пункт в отдельности ничего не гарантирует, но повышает вероятность. Ожидал увидеть в статье исследование, а не просто подсчет двоеточий и звездочек.

Было бы интересно взять хотя бы по несколько сотен точно авторских и точно искусственных статей и обучить на них нейросеть для классификации. Или хотя бы использовать TF-IDF. Или что-то другое из машинного обучения. А потом ждем расширение для браузера, которое будет делать пометки к статьям.

Где взять точно авторские статьи — отобрать вручную из популярных постов или просто взять посты, написанные несколько лет назад. Где взять точно сгенерированные статьи — отобрать вручную или просто сгенерировать свои.

Бывший Vscale — это сейчас VDS Selectel. Минимальный тариф — 1 ядро, 512 Мб за 200 рублей. 2 ядра, 2 Гб стоят 800 рублей. Из плюсов — почасовая оплата. Пользуюсь семь лет. Даже цены за это время не менялись.

А то что сейчас гуглится по Vscale — это что-то новое. Но судя по информации на сайте тоже связано с Selectel. Хотя найти контакты было сложно, так что выглядит подозрительно

Открытые модели есть. Mistral 7B, Mixtral 8x7B и Mixtral 8x22B доступны под лицензией Apache 2.0.
Llama-3 вышла в апреле. Полгода назад писали про вторую версию, видимо. У Llama лицензия вроде бы требует только указывать использование и добавлять название в дообученные модели, а так особых ограничений тоже нет.
А пост, очевидно, написан ради рекламы канала

Цензура и системные требования зависят от модели. Здесь только интерфейс.

Модель Llama-3-8b отвечает лучше, чем ChatGPT-3.5, и квантизированная версия хорошо работает на процессоре. Я обычно использую квантизацию в 5 бит. На моем Ryzen 5800H выдает около 6-7 токенов в секунду. Если брать 4-битную, то можно получить до 12 токенов в секунду. Качество при это падает незначительно.

Для Fitbit аналогично есть SDK на JS для приложений и циферблатов, а еще Web API.

Так ведь формат PNG использует тот же алгоритм сжатия Deflate, что и ZIP. То есть по сути можно было просто записать текст в семибитной кодировке как битовый массив, а потом сжать обычным архиватором. И так размер должен получиться еще немного меньше, так как не потребуется заголовок PNG. Разве нет?

То, что уже давно нативно реализовано в браузерах и удобно работало, теперь переписывают с нуля на JS. Еще больше не люблю, когда простым нажатием "Назад" вообще невозможно вернуться на предыдущую страницу. Так как сколько раз ни нажимай, сразу же происходит перенаправление обратно вперед. Выход только — искать нужную страницу по истории.

В Opera есть сохранение для просмотра в оффлайне и экспорт в PDF.

Последнее решение не сработает, если массив не является связным списком. Простейший пример: [0, 1, 1]. Функция выдаст ответ 0, верный ответ — 1.

Здесь ведь на 250% быстрее. 6 км/ч — это 100%. Прибавляем 250%, получаем 350%. То есть в 3,5 раза быстрее.
А 15 км/ч — это 6 км/ч умножить на 2,5. То есть 250% от 6 км/ч. Или на 150% быстрее.

которая позволяет ходить на 250% быстрее

Это в 3,5 раза быстрее.

При (прямо скажем, довольно быстрых) шести километрах в час вам нужно 10 минут, чтобы пройти километр. Но Moonwalkers могут увеличить скорость ходьбы до пятнадцати километров в час.

Это в 2,5 раза (или на 150%) быстрее.

Где-то здесь ошибка. Мне кажется, проще писать "в Х раз быстрее", чтобы никто не путался. Но почему-то во многих статьях модно формулировать именно как "на 100500% круче", хотя для лучшего понимания это все равно в голове приходится пересчитывать.

Хабраэффекта уже не должно быть, так что могу выложить открыто. Только ссылки на свои проекты ведь по правилам нельзя? Лучше просто название?
Партнерство, возможно, будет интересно. Но только некоммерческое, естественно.

Да, мы тоже при регистрации проверяем почтовый домен по базе disposable email через открытый API. В большинстве случаев срабатывает, но не всегда. А раньше тролли ими активно пользовались.

Одним устройством, могут пользоваться разные люди

Да, я про это писал. Поэтому все равно нужна ручная проверка.

Лучше продумайте систему рейтингов, репутации … например по аналогии с хабром.

У нас есть системы приглашений и рейтингов, похожие на Хабр. Но этого недостаточно. Люди хорошо умеют притворяться, либо у них по другим причинам радикально меняется поведение. И само по себе это не помогает от накруток лайков.

У нас люди пишут о своих личных переживаниях. И мы стараемся, чтобы им было комфортно, чтобы их никто не осуждал, не смеялся, не оскорблял.

Ой, боюсь хабраэффекта.) Скину в личку. Ну при желании его легко найти, я думаю.

Есть способ отслеживания пользователя через специально закэшированные файлы.

Слышал, надо будет изучить. Спасибо.

Получить информацию о версии браузера/OC не сложно

Это уже и так есть в User-Agent.

Да, но динамический он в определенных границах.

Не всегда. Но да, есть мысль добавить сравнение первых двух октетов от адреса.

выявить те аккаунты, которые лайкают только одного пользователя. Или наоборот, аккаунт, у которого большинство лайков только с нескольких аккаунтов.

Это совсем необязательно будет так. Чтобы иметь возможность лайкать, человек должен получить приглашение на сайт. А для этого ему нужно написать посты, которые лайкнут несколько других людей. И дополнительные аккаунты обычно используются не чисто для лайков себя или троллинга, а и как обычные дневники.

чтобы все сделанные им лайки откатывались обратно

Конечно, при бане аккаунта за лайки удаляем его голоса за последнее время.

Information

Rating
Does not participate
Location
Белград, Белград, Сербия
Registered
Activity