28 сентября газета «Комсомольская правда» объявила, что газетные выпуски с 22 июня 1941 года по 9 мая 1945 года военных лет будут помещены в интернете. Издательский дом «Комсомольская правда» разрешит свободно использовать эти выпуски по лицензии Creative Commons Attribution. Поэтому все лица смогут делать законный бизнес на текстах и фотографиях из этих выпусков. Для публикации выбран сайт Wikimedia Commons.

Краудсорсинг
Использование ресурсов толпы
Магнитный набор «Сам Себе Дизайнер» – как настольная игра поможет создать идеальную планировку вашей квартиры или дома?

Несколько лет назад мы успешно запустили краудфандинг-проект «Чашка-Юла». Мы до сих пор с большой благодарностью и теплотой в сердце вспоминаем поддержку аудитории Хабра, которая поверила в проект и помогла его реализовать.
Но сегодня речь пойдет совсем о другом, однако, не мене интересном и полезном проекте! Подробности далее на ВИДЕО и в статье.
Вики-конференция в Москве 25 и 26 сентября 2021 года
В субботу и воскресенье 25—26 сентября 2021 года в Москве, в библиотеке имени Некрасова (метро Бауманская) проходит XV Вики-конференция. Она посвящена развитию Википедии и аналогичных сайтов на языках народов России, а также вопросам свободного знания и свободных проектов в целом. Она будет онлайн и оффлайн. Приходите и подключайтесь.
6 правил по обеспечению качества данных для машинного обучения
В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Проект электронного мультитула QUARK. Часть 4

Часть 1, Часть 2, Часть 3. Страница на краудфандинге
В предыдущей части я сообщил о запуске кампании и спросил у вас мнения насчет того, как лучше поступить с формой корпуса устройства. Юзеры @sshmakov, @dizatorr, тогда предложили сделать небольшой выступ со стороны дисплея, что исключит возможность устойчивого положения «Щупом к верху». А @Ivnika и @Olegun предложил сделать защитное стекло дисплея полукруглым. Прорабатываем оба эти варианта.
Очевидным упущением для меня стало то, что я плохо объяснил куда подключается второй щуп. Такие вопросы возникли как у читателей, так и у бекеров CrowdSupply. Думаю два этих фото все расставят по местам:...
Карты распространения борщевика Сосновского и зачем мы сделали свою

В этой заметке я расскажу о том, какие бывают карты распространения борщевика, а также, что нас побудило сделать свою карту распространения борщевика Сосновского в Московской области за 2021 год. И что у нас в итоге получилось.
Проект электронного мультитула QUARK. Часть 3

Первая и вторая части.
Два ОЧЕНЬ долгих месяца прошло с момента последней публикации. За это время я превратился в профессионального ждуна. А с платформой Crowdsupply я начал работать аж ТРИ месяца назад! Сейчас это даже писать смешно. Всего лишь несколько месяцев упорной работы, а по ощущениям год. Но мы, таки, запустились! Ииии-хаа!!!
Как организовать разметку данных для машинного обучения: методики и инструменты

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.
Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.
Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.
Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
7 способов получить качественные размеченные данные для машинного обучения
Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.

При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Мой опыт запуска краудфандинговой кампании
Значит пилил я, пилил свой девайс, себе в копилку очередных погодных информеров, раздвигателей штор, котопоилок (нужное подчеркнуть) и, внезапно… Допилил. Ну то есть, ребята которым показал, сказали, что такое нельзя прятать от общественности и предложили показать на суд публики. Штош, попробуем. Попробовал. Понравилось. Предложили запуститься на CrowdSupply.
Итак, что эта за платформа и в чем преимущество (и есть ли оно) перед Kickstarter. Во-первых, создатели сервиса делают упор на открытость и «железячность» проектов. И действительно, если полистать список, можно убедиться, что подавляющее большинство профинансированных проектов, это устройства реализованные в железе, хотя в числе первых были и довольно необычные. Например этот кусок э-ээм… говядины в шоколаде:

Новые рекорды: найдено 51-ое простое число Мерсенна

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)
Блоуинг Рок, Северная Каролина, 21 декабря 2018 года — организация Great Internet Mersenne Prime Search (GIMPS, масштабный Интернет-проект по поиску простых чисел Мерсенна) обнаружила самое большое известное простое число 282589933 - 1, состоящее из 24 863 048 знаков. Компьютер добровольца Патрика Ляроша вычислил его 7 декабря 2018 года. Патрик — один из тысяч, использующих бесплатное ПО GIMPS.
Новое простое число, также известное как M82589933, вычислено перемножением 82 589 933 двоек и вычитанием единицы. Оно превосходит предыдущее рекордное простое число более чем на полтора миллиона разрядов, в особом классе исключительно редких простых, известных как числа Мерсенна. Это всего пятьдесят первое открытое простое число Мерсенна; вычисление каждого последующего становится сложнее. Простые числа Мерсенна названы по имени французского монаха Марина Мерсенна, изучавшего эти числа больше 350 лет назад. Основанная в 1996 году GIMPS обнаружила последние 17 простых чисел Мерсенна.
Полежать в эконом-классе? Zephyr Aerospace разработал двухэтажные купе для самолетов. И можно сделать почти кровать

Если у вас есть опыт длительных перелетов, то вы помните это чувство, когда очень хочется полежать, но нет. Теперь появился шанс, что и в эконом-классе можно будет летать с комфортом.
Википедия купается в деньгах? — Взгляд из России
Сегодня мы прочли статью «Википедия купается в деньгах» и были очарованы. Там рассказано, как фонд Wikimedia собирает пожертвования по всему миру, и как развивается его целевой капитал. Да, всё в статье правда: в США и фонд есть, и активы есть, и доход есть. Однако в нашей-то стране дело обстоит по-другому. Поистине «тревожит» российских редакторов-добровольцев Википедии совсем иное.
Ближайшие события
Википедия купается в деньгах — зачем молить о пожертвованиях?

Некоммерческая организация Wikimedia Foundation (WMF), которая владеет Википедией и другими сайтами UGC, вот-вот достигнет десятилетней цели: собрать $100 млн в долгосрочном резерве Wikimedia Endowment. Это произойдёт на пять лет раньше, чем планировалось. Объём чистых активов (net assets) составляет около $200 млн по состоянию на июнь прошлого года. Сейчас уже около $300 млн. Доходы непрерывно растут. Согласно внутренним документам, за первые девять месяцев текущего финансового года фонд собрал пожертвований на $142 млн — и уже побил рекорд прошлого года.
Эта информация может удивить доноров и пользователей по всему миру, которые видели баннеры для сбора средств в Википедии. Их показывают в разное время в разных странах. В прошлом году их впервые начали крутить в Индии. В настоящее время эти баннеры показывают жителям охваченной пандемией Латинской Америки. Они создают впечатление, что WMF с огромным трудом поддерживает Википедию в рабочем состоянии… Послания жалобные: «В этот четверг Википедия действительно нуждается в вас. Это уже десятое обращение, которое мы вам показали. 98% наших читателей не жертвуют, они отворачиваются… Мы просим вас, пожалуйста, не надо скроллить от нас» (We ask you, humbly, don’t scroll away)».
Пришло время и тебе встать на защиту Sci-hub

- Быстрый старт спасения Sci-Hub: загрузите 1 случайный торрент (100 ГБ) из коллекции scimag и скачайте его. Оставайтесь на раздаче навсегда.
- Трекер успеха миссии, спасибо phillm
- Участвуйте в проектах Sci-Hub с открытым исходным кодом: freereadorg/awesome-libgen
- Присоединяйтесь к /r/scihub, чтобы оставаться в курсе
Спасательная миссия для Sci-Hub и Open Science
Elsevier и USDOJ объявили войну Sci-Hub и Open Science. Эпоха Sci-Hub и Александры, сражающихся в одиночку, должна закончиться. Мы должны встать на её сторону.
7 мая Александра Элбакян из Sci-Hub сообщила, что ФБР прослушивает ее аккаунты более двух лет. Эта новость появилась после того, как Twitter заставил замолчать официальный аккаунт Sci_Hub в Твиттере, потому что индийские ученые организовались против своего министерства и иска Elsevier.
Сам Sci-Hub в настоящее время заморожен и не загружал никаких новых статей с декабря 2020 года. Эта спасательная миссия сосредоточена на поддержке раздач (seeding) коллекции статей, чтобы подготовиться к потенциальному закрытию Sci-Hub.
Александра Элбакян из Sci-Hub, книжный воитель Library Genesis, Аарон Шварц и бесчисленное множество других неназванных боролись за то, чтобы освободить науку от хватки коммерческих издателей. Сегодня они делают это скрытно, в одиночку, без ведома, опасаясь тюремного заключения, и даже сейчас их прослушивает ФБР. Они жертвуют всем ради одного видения: Open Science.
Пишем расширение для MediaWiki

В рунете я почти не встречал материалов о том, как писать расширения для MediaWIki. Основной стартовой точкой был и остается официальный сайт платформы, но там процесс расписан не очень дружелюбно по отношению к новичкам. Попробуем же это исправить!
В этой статье я покажу, как написать простейшее расширение для Медиавики, включающее в себя новый метод API, расширение парсера и немного js/css для фронтенда. А чтобы не было скучно, приплетем сюда работу с Google Knowledge Graph.
Как сделать, чтобы базой знаний начали пользоваться человеческие люди

Корпоративная база знаний — это не только и не столько площадка на базе какого-нибудь вики-движка, сколько люди и процессы, стоящие за ней. При внедрении вики-платформы самое сложное — это не тонкая настройка движка или попутных расширений: самое сложное — это сделать так, чтобы коллеги наконец начали пользоваться поднятой вами базой знаний.
Я начал заниматься базой знаний, будучи зеленым джуном, так что все описанные в посте рекомендации применимы даже в том случае, если у вас нет административных или финансовых ресурсов. Иными словами, советов в духе "просто заставьте всех писать и штрафуйте непослушных" тут не будет, мы пойдем другим путем.
Как документировать базы данных на MediaWiki и не свихнуться

В этой статье пойдет речь о том, как я подошел к документированию баз данных продуктов Veeam на MediaWiki движке. Сразу оговорюсь, что документация эта служит исключительно для внутреннего пользования, поэтому я много где позволял себе определенные вольности.
Хоть главной причиной выбора платформы MediaWiki и было нежелание плодить без необходимости сайты документации, это решение также позволило воспользоваться многими преимуществами MediaWiki: понятный и привычный интерфейс, удобство поиска, полуавтоматическое создание документации и многое-многое другое.
«Популяризация исторического контента в Википедии»: круглый стол в Казани
Дискуссия обратилась к двум ключевым вопросам: 1) как избегать этнических конфликтов, 2) как сделать научную литературу доступной для самого широкого использования.
Как перестать принимать слабительное для мозга, чтобы не спустить свою жизнь в унитаз

Однажды наступит время, когда мы сможем узнать всё обо всём, избежать бОльшую часть всевозможных проблем, жить в гармонии с природой и окружающими людьми, наслаждаясь каждым новым днем в богатстве и здравии. А пока…
Мы живем в мире, где научные данные перемешаны и противоречат друг другу, а система образования с каждым днём всё сильней отстает от действительности. Предметы и отрасли науки находятся в рассинхроне, что не позволяет осознать нечто приближенное к истине на стыке наук. Расфокусировка внимания, дефицит времени и невозможность одновременно следить за происходящим в разных сферах сильно усложняют познание мира и понимание происходящих в нем процессов. В этой связи затруднено формирование понятийного аппарата через расширение познаний в разных областях знаний.
Вклад авторов
alizar 4504.9marks 1543.4aleksandrit 1148.0ruASG 1019.6PereslavlFoto 586.6ivansychev 418.5Ellanorsh 367.0Mithgol 339.0naz2 297.0