Comments 38
Не понимаю, почему Wikipedia до сих пор не запустила свою нейросеть, обученную на их же статьях. Как раз сейчас рынку не хватает модели, достоверность ответов которой можно было бы проверить.
в каком-то смысле запустила самой первой и вот сдулась самой первой
Нейросеть и проверяемые данные это все еще оксюморон.
Хотя в меньшей степени все то же самое относится и к самой вики, но все же лучше статьи, чем нейронка.
Тем более, нейросеть, как вы описали, у нас уже есть - это ChatGPT.
Касательно статей за пределами условной теории чисел и уравнений Максвелла - Википедия и достоверность это тоже прямо скажем вещи ортогональные. По статьям где есть мнения и точки зрения там какие-нибудь Дейли телеграф это проверяемый источник, а таких источников можно найти в любую сторону. Короче я Википедии доверяю в вопросе массы протона, и не доверяю в любых статьях где есть заинтересованные лица и их группы, фанаты, исторические предвзятости и прочие веяния момента.
По статьям где есть мнения и точки зрения там какие-нибудь Дейли телеграф это проверяемый источник, а таких источников можно найти в любую сторону.
Если в авторитетных источниках господствуют несколько точек зрения, значит, в статье будут представлены все эти точки зрения, пропорционально тому, сколько им внимания уделяется в источниках, в чём проблема-то?
Википедия все 25 лет работы открыто декларирует, что критерий для включения информации в статью - проверяемость, а не истинность. Цели сделать так, чтобы в статье была только одна точка зрения никогда и не стояло. Цель - представить все значимые точки зрения (не путать с "все точки зрения вообще"). Поэтому, в статье про звезду Табби описываются разные гипотезы, а не какая-то одна, при этом, там описываются гипотезы, опубликованные в авторитетных источниках, а гипотезы Васи Пупкина о том, что это боженька подмигивает, опубликованной в личном бложике Васи, там нет.
Если в авторитетных источниках господствуют несколько точек зрения, значит, в статье будут представлены все эти точки зрения....., в чём проблема-то?
В том что не будут. На любом форуме (хабр не исключение) есть смещение в ту или иную сторону соответствующую взглядам модераторов. Все срачи и войны правок рано или поздно оказываются в руках этих людей, которые завершают их в соответствии со своим внутренним ощущением. Аналогично будет решаться вопрос какие источники "авторитетные". И без разницы что это было, форум фанфиков по Гарри Поттеру или Википедия. Далее люди которые в срачах систематически проигрывают уходят и создают свой форум фанфиков по Гарри Поттеру. Теперь у вас два форума фанфиков каждый со своим уклоном. Если вы наблюдали за каким угодно онлайн сообществом на промежутке в несколько лет вы это могли лично наблюдать многократно. Кажется, во Фрикономиксе было про исследование, где это же наблюдали десятилетки ранее на газетах. Нет смысла быть не предвзятым, поэтому газеты просто делились на то, в какую сторону они будут предвзяты и каждая обслуживала свою лояльную публику удовлетворяя ее вкусы.
Википедия это такой реддит без рекламы. Там есть информация, и чем ближе ваш вопрос к "какова масса протона" тем меньше в этой информации субъективных примесей. Но чем вы дальше от подобных тем, тем больше выдаваемое определяется "духом сообщества" и его активисткой части. Тащемта средний человек или даже средний специалист не пишет и не правит википедные статьи. Это достаточно узкое, сообщество которое как-то сложилось и самоподдерживается. Как и прочие активистские сообщества оно имеет уклон в определенную сторону, зачастую очень сильный уклон. Просто для примера во всех таких сообществах недопредставлена точка зрения скуфов, потому что им лень. Это не значит что такой точки зрения нет, или она мало распространена. Она мало распространена среди активистов писателей статей, а по популяции она вообще может быть доминирующей.
Вот только в Википедии нет никаких модераторов контента, а оценка авторитетности производится участниками сообщества, в котором представлены люди самых разных взглядов (сравнительно недавно даже натуральный фашист нашёлся, который так прямо себя и позиционировал, мол, здрасьте, да, я фашист, такие вот у меня взгляды - тут все немножко охренели и решили, что это уже перебор). Из-за этого, кстати, в Википедии довольно туго принимаются какие-то крупные решения, особенно те, что требуют срочной реакции (например, забастовка против какого-то закона, ущемляющего свободу в сети). - подтягиваются несогласные, начинаются попытки подведения предварительных итогов, оспаривания, наконец, выстраданный окончательный итог, подтягиваются те, кто опоздал, оспаривают и его... в итоге, принимать решение уже поздно. Эта бюрократия немало нервов выматывает, но, всё же, она не даёт принимать какие-то совсем уж волюнтаристские решения.
Хорошо жить в мире розовых пони, правда же?
Макнитесь с разбегу в любую современную политоту на википедии, и увидите этот перекос. Хотя, если вы сами с этим перекосом, то вам покажется, что всё нормально.
Это "перекос" - отражение такого же "перекоса" в реальности. Если у вас в реальности 90% источников пишут "шейх Абдулла откусил голову летучей мыши", а 10% СМИ, зависимых от шейха пишут, что он этого не делал, то уделить половину статьи тому, что шейх не кусал мышку, никак нельзя.
Если вас не устраивает реальность, это можно понять (меня тоже дофига всего не устраивает), но это не вина Википедии, которая лишь эту реальность отражает. Это её цель, она такой создана и по таким принципам существует уже четверть века. Но читатели упорно считают, что Википедия обязана удовлетворять их ожиданиям и существовать не по своим правилам, а по правилам которые эти люди считают правильными. А она не обязана.
Там не только политота. Мои статьи удалялись редакторами с комментариями: "не знаю такого", хотя я брал информацию с англоязычной вики, где по этой теме мягко говоря дофига и целое сообщество тех, кто писал по теме.
С минимальными поправками в конце тут можно заменить википедия на слово наука вообще.
Но как-то живем. Во всем есть заинтересованные группы.
Все LLM и так обучены на данных википедии, а проверка фактов и использование актуальной информации осуществляется с помощью агентов, которые могут обращатся к той же википедии. Так что не понятно в чем потенциальное преимущество такой модели. Плюс тяжело с нуля собрать команду, которая может с нуля обучать LLM с современной архитектурой
Более информативный первоисточник новости: https://techcrunch.com/2025/10/18/wikipedia-says-traffic-is-falling-due-to-ai-search-summaries-and-social-video/
Вот интересный график:

Это статистика переходов на сайты из поисковых запросов в Рунете. И причина такого катастрофического снижения в AI - люди или используют нейронки для получения информации, или довольствуются ответами AI в поисковых запросах и не переходят дальше на сайты.
Таким образом, владельцы сайтов постепенно будут терять монетизацию от размещения рекламы на страницах - к ним приходит всё меньше посетителей. И тут уж как посмотреть - или конец эпохи, или новое поле возможностей в монетизации сайтов.
Правда, в магазинах и маркетплейсах пока без входа на страницы не обойтись, но, думаю, и здесь возникнут аналогичные проблемы довольно скоро. Я для пробы попросил AI найти хороший ноутбук подешевле, и он мне выдал рекомендацию сайта, на котором я его и купил пару лет назад.
Будут ии на сайты заходить, потом отдавать инфу пользователям - так что какая разница? Рекламу не показать?
Когда ии научится не лоботомироваться от плохих статей, старый поиск станет совсем не нужен, будем юзать что-то вроде perplexity.
Будут ии на сайты заходить, потом отдавать инфу пользователям - так что какая разница? Рекламу не показать?
Эту инфу кто-то сначала должен произвести, а если производство себя не окупает - ее просто станет меньше.
Есть сайты чисто информационные - вот они показов рекламы лишаются в принципе. Нейрочатик может свою показать, а потом поделиться с сайтом - но именно что может, не более того.
Есть сайты, на которых происходит какая-то транзакция, те же онлайн-магазины. За покупку деньги они получат, но возможности апсейла типа "с этим товаром покупают..." ограничиваются только финальными страничками, потому что ИИ приведёт юзера уже в состоянии "товар в корзине". А при дальнейшем развитии агентов - и это уйдёт, можно будет купить товар не выходя из нейрочата.
Что гугл, что яндекс, в своих нейроответах льёт бесполезную воду похлеще живых сеошников
Так или иначе, она для этого и создавалась (хотя это никак не декларировалось и никто об этом не думал, наверное). Но по сути Википедия - чистый, высокоструктурированный и семантически размеченный концентрат человеческих знаний, что может быть лучше для обучения ИИ?
Еще бы Либген с Сайхабом так оцифровать, вообще было бы шикарно (не человекоориентированные pdf/djvu, а вот что-то такое именно машинночитаемое).
Так проблема не в том что ии обучается у Вики(это нормально) просто потом люди уже не заходят на вики, а коль меньше заходят то меньше и пишут, а коль меньше пишут то и актуальность Базы Знаний плывет
Мне кажется притянуто за уши. Если ты читаешь текст, то какая разница какой адрес в заголовке браузера. Если тебя сподвигло, что-то исправить, то дойти до вики 1 клик.
Тем что ты не чувствуешь частью сообщества... и ответственностью возможность этого вклада
К примеру ты используешь MapsMe которая за основу берет cвободные данные с OpenStreet... если ты хочешь чтоб карта была точнее ты заходишь в OpenStreet и исправляешь это. В итоге через месяц данные появятся и люди могут пользоваться... То есть ты в сообществе и понимаешь как это изменить использовать.
Другой пример ты испльзуешь Apple карты - тебя не устраивает точность - ты можешь на это повлиять? Нет! или как-то исправить? вроде нет... А вот и да... тоже зайти в OpenStreet и отрисовать и со временем(через пару лет как у меня так было) твои изменения появятся на Applе картах.
Так и с Вики - постепенно ты теряешь понимание что за выдачей стоит вики которую можно изменить
Если ты добавил свой дом на карту - это ещё не значит, что ты влился в сообщество.
Приведённые примеры лишь показывают проблему недоинформированности. Но это вообще не основная проблема.
Если у человека зазудит, то он найдёт как и в я.карте поправить, и в вики написать, и какое мыло у автора поста в попытке доказать ему, что он не прав. Но в большинстве своём такого зуда нет в принципе, не важно чтобы кнопка редактировать в двух кликах.
А почему нет, ты зделал вклад, в это сообщество, и другие этим пользуются. Ты часть пропорционально твоему вкладу.
так а что ему делать с зудом если чат ГПТ говорит неправильно? прямо и не стесняется и ты это знаешь и не хочешь чтоб другие наступали на эти грабли? Основная часть просто пройдет мимо, так и вики иногда так,а остальные доверятся и будут спорить с пеной у рта, или использовать некорректные входные данные
Я всё же настаиваю, что сообщество это про социальную составляющую, и пока ты что-то делаешь в соло - это не про сообщество.
Владельцы всяких ГПТ тоже заинтересованы, чтобы инфа была правдивая. Поэтому пытаются получать фидбек лайками и прочими
ты не прав ....
Да, вы правы, я не прав
и в дальнейшем дообучать. В общем не в их интересах скрывать источники. Другое дело, что с ИИ сложно определить источник проблемы.
При этом ежегодное содержание платформы обходится примерно в 178 миллионов долларов, большая часть которых идёт на серверы и инфраструктуру.
ЛПП. По данным на 2020 год - на хостинг 2% ($2 400 286), на амортизация и износ еще 2% ($1 951 405). На командировки и конференции уходит тоже 2% ($2 309 068).
А на что уходят деньги ($112 489 397):
49% Зарплаты
20% Награды и гранты
9% Прочие операционные расходы
10% Расходы на профессиональные услуги
4% На обработку пожертвований
Источник: https://en.wikiversity.org/wiki/Statistical_analysis_of_Wikimedia_Foundation_financial_reports
Данные за 2023 и 2024 здесь: https://wikimediafoundation.org/annualreports/2023-2024-annual-report/ в разделе "Statement of activities (audited)". На зарплаты теперь уходит 60%.
Интересно зарплаты кому? если наполняет сообщество и нет модераторов ?
Инженерам, отвечающим за техническое состояние
Вы же не думаете, что ресурс из топ-10 по популярности в мире хостится под кроватью у энтузиаста? Серверы и прочая сетевая инфраструктура требуют обслуживания. Сами серверы тоже потребляют и электричество, и трафик, и площадь в датацентрах занимают.
Разработчикам движка Mediawiki
Юристам фонда Викимедиа, которые представляют интересы Википедии в судах по всему миру, в т.ч. в России. В этому году, например, шла битва в индийском суде, где местная контора требовала выдать ей данные редакторов, которые в Википедии писали про эту контору всякое, что конторе не понравилось. Если пускать такое на самотёк и не бороться, то суд может вполне в отсутствие ответчика принять решение "выдать", а в случае отказа - заблокировать доступ к Википедии.
Но, в целом, Фонд не испытывает ни малейшего недостатка в деньгах, пожертвований приходит столько, что деньги буквально не знают куда деть.
Чем дальше государства ограничивают интернет, тем больше размывается достоверность WIkipedia. Уже сейчас это по большей части сборник цитат из "свободных" СМИ, одобренных анально огороженной группой модераторов, которая абсолютно не приемлет дискуссий. В этой ситуации умрет дед Максим - да и х.. с ним.
Модераторы википедии приложили все усилия, чтобы это произошло.
С одного края - абсолютный плюрализм и неразборчивость, когда "если есть пруфлинк, значит, можно добавить в статью", а если нет пруфлинка, то давайте пометим [источник непроверен 100500 дней] и на том и успокоимся.
С другого - анальные огороды и личные пристрастия. Бибиси доверенный источник, Раша Тудей недоверенный. В обсуждениях к удалению статьи (неважно, политота, наука, персонаж или что угодно) - кто последний покричал в комментах, за тем и осталось решение. Кому надоело кричать, тот забил болт.
Даже в научных статьях никто не следит за релевантностью. Возьмите биологию - систематика там в двух соседних статьях, ссылающихся друг на друга, может быть разбросана от Линнея, если не Аристотеля, до свежайшей генетики. Потому что учёный-генетик одну статью поправил, а про вторую даже не подозревал, пока какая-то школота не добавила перекрёстные ссылки. Ну или подозревал, но ему было уже лень править две статьи, а где две, там и двести, и у него лапки отвалились...
Итого, репутация у википедии сложилась - "вы мне ещё пруфы на википедию дайте, ага".
А теперь этот колхоз плачет, "почему нас меньше читают".
Не, ну спасибо, что корпус хоть каких-то знаний собрали и поддерживают.
Вот только доверьяй-но-проверьяй таков, что надо и по перекрёстным ссылкам во все стороны сбегать, и историю правок и обсуждение прочитать, вдруг там какой-то упоротыш с админскими правами лютовал. Или наоборот, админы мышей не ловили, пока какой-то упоротыш не навандалил.
Бибиси доверенный источник, Раша Тудей недоверенный.
Понятно, это не Раша Тудей виновата, что является пропагандистским изданием, а Википедия, которая лишь отражает реальность. Реальность неверна, но виновата в этом почему-то Википедия. Так адресуйте Раше Тудей претензии, чего она такая.
В обсуждениях к удалению статьи (неважно, политота, наука, персонаж или что угодно) - кто последний покричал в комментах, за тем и осталось решение.
Решение чаще всего принимает тот, кто в обсуждении не участвовал, поскольку большая часть участников не имеет возможности удаления/оставления статей. Тот, кто будет подводить итог, прочтёт все высказанные аргументы. Наоборот, если в обсуждении наваливать портянки текста, стремясь, чтобы твоё слово стало последним, это повышает вероятность того, что обсуждение и решение по статье зависнет на годы, т.к. подводящие итоги видят километровые портянки и думают "да ну нафиг, я за то же время лучше разберу десяток других номинаций, чем одну эту буду читать и анализировать килобайты текста".
Используемые термины ("модераторы", "комменты") говорят о том, что вы слабо знаете внутреннее устройство Википедии. Ну, не станет википедист эти слова употреблять: модераторов не существует, а вместо "комментов" он скажет "обсуждения". И уж тем более ни один википедист не выдаст вот эту штуку про то, что кто последний, тот судьбу статьи и решит.
Все издания пропагандистские, другие на нашу планетку не завезли
В обсуждениях там именно что комменты. А что модераторов не существует, это вы расскажите людям, которые уполномочены патрулировать.
Понятно, это Раша Тудей виновата, а Бибиси невиновата. Этодругин Форте.
Отражение реальности в разбитом зеркале.
Возьмите биологию - систематика там в двух соседних статьях, ссылающихся друг на друга, может быть разбросана от Линнея, если не Аристотеля, до свежайшей генетики. Пот
Я бы посмотрел, что бы на похожую претензию ответил, скажем, Линус Торвальдс, если бы вы начали предъявлять, что, мол, а вот у вас в Linux тут одна функция написана так, а похожая эдак, лапки не дошли отрефакторить?
Подозреваю, что он бы ответил очень образно и красочно, а самым вежливым было бы "хочешь сделать лучше - присылай патчи".
Википедия это типичный опенсорс-проект, где никто никому ничего не обязан, и каждый улучшает Википедию в той области и том объеме, в каком пожелает. Люди делают это в свое свободное время, не получая за это ничего, кроме удовольствия от процесса.
Не, ну какой же гад этот человек, что добровольно потратил час своего времени на улучшение одной статьи статью, а еще час на вторую не потратил. Настоящий мерзавец :)
Окей, спросите у ИИ, он вам напишет хорошо. Или не хорошо, нагаллюцинирует. А на некоторые темы и отвечать не станет, как, скажем, Deepseek о том, что произошло на площади Тяньаньмэнь.
Вот именно, никто никому не обязан. Поэтому и уровень релевантности там тоже... не обязывающий.
И я тоже не обязан, увидев нестыковки в смежных статьях по биологии, всё сейчас бросить и побежать читать свежие научные журналы и приводить весь кластер в адекватное состояние. Я вижу, что какая-то псина в статье "псина псиная" относится к псиным, а в статье "псиные" уже к "сучьим". Ок, понятно, здесь правды не сыщешь, пойду в другое место.
А причины, почему этот человек гад, могут быть в ассортименте. Начиная с того, что гадом мог быть тот, кто расставил гиперссылки позже. Или что систематика ещё в процессе уточнения, генетики сами до конца не уверены, править статью "псина", "псинообразные" или "сучьи".
Вот только в релиз справочника по систематике псин такой букет не вошёл бы, а в накат правок википедии - с лёгкостью необычайной. Википедия - это CVS в мире энциклопедий.
Что мешает Википедии брать средства с компаний за обучение ИИ, принцип, что знания должны быть бесплатными?
Википедия стремительно теряет аудиторию