Как стать автором
Поиск
Написать публикацию
Обновить
0.2

Краудсорсинг

Использование ресурсов толпы

Сначала показывать
Порог рейтинга
Уровень сложности

Газета «Комсомольская правда» лицензирует выпуски военных лет для свободного коммерческого использования

Время на прочтение3 мин
Количество просмотров4.4K

28 сентября газета «Комсомольская правда» объявила, что газетные выпуски с 22 июня 1941 года по 9 мая 1945 года военных лет будут помещены в интернете. Издательский дом «Комсомольская правда» разрешит свободно использовать эти выпуски по лицензии Creative Commons Attribution. Поэтому все лица смогут делать законный бизнес на текстах и фотографиях из этих выпусков. Для публикации выбран сайт Wikimedia Commons.

Следуют подробности.

Магнитный набор «Сам Себе Дизайнер» – как настольная игра поможет создать идеальную планировку вашей квартиры или дома?

Время на прочтение3 мин
Количество просмотров6.8K

Несколько лет назад мы успешно запустили краудфандинг-проект «Чашка-Юла». Мы до сих пор с большой благодарностью и теплотой в сердце вспоминаем поддержку аудитории Хабра, которая поверила в проект и помогла его реализовать.

Но сегодня речь пойдет совсем о другом, однако, не мене интересном и полезном проекте! Подробности далее на ВИДЕО и в статье.

Читать далее

Вики-конференция в Москве 25 и 26 сентября 2021 года

Время на прочтение3 мин
Количество просмотров792

В субботу и воскресенье 25—26 сентября 2021 года в Москве, в библиотеке имени Некрасова (метро Бауманская) проходит XV Вики-конференция. Она посвящена развитию Википедии и аналогичных сайтов на языках народов России, а также вопросам свободного знания и свободных проектов в целом. Она будет онлайн и оффлайн. Приходите и подключайтесь.

И что же там будет?

6 правил по обеспечению качества данных для машинного обучения

Время на прочтение6 мин
Количество просмотров5K
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →

Проект электронного мультитула QUARK. Часть 4

Время на прочтение6 мин
Количество просмотров5.9K

Часть 1, Часть 2, Часть 3. Страница на краудфандинге

В предыдущей части я сообщил о запуске кампании и спросил у вас мнения насчет того, как лучше поступить с формой корпуса устройства. Юзеры @sshmakov, @dizatorr, тогда предложили сделать небольшой выступ со стороны дисплея, что исключит возможность устойчивого положения «Щупом к верху». А @Ivnika и @Olegun предложил сделать защитное стекло дисплея полукруглым. Прорабатываем оба эти варианта.

Очевидным упущением для меня стало то, что я плохо объяснил куда подключается второй щуп. Такие вопросы возникли как у читателей, так и у бекеров CrowdSupply. Думаю два этих фото все расставят по местам:...

Читать далее

Карты распространения борщевика Сосновского и зачем мы сделали свою

Время на прочтение9 мин
Количество просмотров28K

В этой заметке я расскажу о том, какие бывают карты распространения борщевика, а также, что нас побудило сделать свою карту распространения борщевика Сосновского в Московской области за 2021 год. И что у нас в итоге получилось.

Опасно: борщевик Сосновского!

Проект электронного мультитула QUARK. Часть 3

Время на прочтение3 мин
Количество просмотров7.7K

Первая и вторая части.

Два ОЧЕНЬ долгих месяца прошло с момента последней публикации. За это время я превратился в профессионального ждуна. А с платформой Crowdsupply я начал работать аж ТРИ месяца назад! Сейчас это даже писать смешно. Всего лишь несколько месяцев упорной работы, а по ощущениям год. Но мы, таки, запустились! Ииии-хаа!!!

Читать далее

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение17 мин
Количество просмотров11K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →

7 способов получить качественные размеченные данные для машинного обучения

Время на прочтение5 мин
Количество просмотров5.2K
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.


При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Читать дальше →

Мой опыт запуска краудфандинговой кампании

Время на прочтение5 мин
Количество просмотров4.6K
Что такое краудфандинг, надеюсь, рассказывать нет необходимости, потому без лишних предисловий поведаю о своем опыте работы с одним из таких сервисов. Речь пойдет не о таком гиганте как Kickstarter, а о более специализированном на «железных» open source проектах сервисе CrowdSupply. Но обо всем по порядку. 

Значит пилил я, пилил свой девайс, себе в копилку очередных погодных информеров, раздвигателей штор, котопоилок (нужное подчеркнуть) и, внезапно… Допилил. Ну то есть, ребята которым показал, сказали, что такое нельзя прятать от общественности и предложили показать на суд публики. Штош, попробуем. Попробовал. Понравилось. Предложили запуститься на CrowdSupply.

Итак, что эта за платформа и в чем преимущество (и есть ли оно) перед Kickstarter. Во-первых, создатели сервиса делают упор на открытость и «железячность» проектов. И действительно, если полистать список, можно убедиться, что подавляющее большинство профинансированных проектов, это устройства реализованные в железе, хотя в числе первых были и довольно необычные. Например этот кусок э-ээм… говядины в шоколаде:


Читать дальше →

Новые рекорды: найдено 51-ое простое число Мерсенна

Время на прочтение5 мин
Количество просмотров25K

(Примечание переводчика: не нашёл публикации (-ий) по данной теме на Хабре.)

Блоуинг Рок, Северная Каролина, 21 декабря 2018 года — организация Great Internet Mersenne Prime Search (GIMPS, масштабный Интернет-проект по поиску простых чисел Мерсенна) обнаружила самое большое известное простое число 282589933 - 1, состоящее из 24 863 048 знаков. Компьютер добровольца Патрика Ляроша вычислил его 7 декабря 2018 года. Патрик — один из тысяч, использующих бесплатное ПО GIMPS.

Новое простое число, также известное как M82589933, вычислено перемножением 82 589 933 двоек и вычитанием единицы. Оно превосходит предыдущее рекордное простое число более чем на полтора миллиона разрядов, в особом классе исключительно редких простых, известных как числа Мерсенна. Это всего пятьдесят первое открытое простое число Мерсенна; вычисление каждого последующего становится сложнее. Простые числа Мерсенна названы по имени французского монаха Марина Мерсенна, изучавшего эти числа больше 350 лет назад. Основанная в 1996 году GIMPS обнаружила последние 17 простых чисел Мерсенна.

Читать дальше →

Полежать в эконом-классе? Zephyr Aerospace разработал двухэтажные купе для самолетов. И можно сделать почти кровать

Время на прочтение2 мин
Количество просмотров6.9K

Если у вас есть опыт длительных перелетов, то вы помните это чувство, когда очень хочется полежать, но нет. Теперь появился шанс, что и в эконом-классе можно будет летать с комфортом.

Читать далее

Википедия купается в деньгах? — Взгляд из России

Время на прочтение2 мин
Количество просмотров22K

Сегодня мы прочли статью «Википедия купается в деньгах» и были очарованы. Там рассказано, как фонд Wikimedia собирает пожертвования по всему миру, и как развивается его целевой капитал. Да, всё в статье правда: в США и фонд есть, и активы есть, и доход есть. Однако в нашей-то стране дело обстоит по-другому. Поистине «тревожит» российских редакторов-добровольцев Википедии совсем иное.

И что теперь делать-то?

Ближайшие события

Википедия купается в деньгах — зачем молить о пожертвованиях?

Время на прочтение5 мин
Количество просмотров30K
Проект гораздо богаче, чем кажется.



Некоммерческая организация Wikimedia Foundation (WMF), которая владеет Википедией и другими сайтами UGC, вот-вот достигнет десятилетней цели: собрать $100 млн в долгосрочном резерве Wikimedia Endowment. Это произойдёт на пять лет раньше, чем планировалось. Объём чистых активов (net assets) составляет около $200 млн по состоянию на июнь прошлого года. Сейчас уже около $300 млн. Доходы непрерывно растут. Согласно внутренним документам, за первые девять месяцев текущего финансового года фонд собрал пожертвований на $142 млн — и уже побил рекорд прошлого года.

Эта информация может удивить доноров и пользователей по всему миру, которые видели баннеры для сбора средств в Википедии. Их показывают в разное время в разных странах. В прошлом году их впервые начали крутить в Индии. В настоящее время эти баннеры показывают жителям охваченной пандемией Латинской Америки. Они создают впечатление, что WMF с огромным трудом поддерживает Википедию в рабочем состоянии… Послания жалобные: «В этот четверг Википедия действительно нуждается в вас. Это уже десятое обращение, которое мы вам показали. 98% наших читателей не жертвуют, они отворачиваются… Мы просим вас, пожалуйста, не надо скроллить от нас» (We ask you, humbly, don’t scroll away)».

Пришло время и тебе встать на защиту Sci-hub

Время на прочтение4 мин
Количество просмотров59K
image


  • Быстрый старт спасения Sci-Hub: загрузите 1 случайный торрент (100 ГБ) из коллекции scimag и скачайте его. Оставайтесь на раздаче навсегда.
  • Трекер успеха миссии, спасибо phillm
  • Участвуйте в проектах Sci-Hub с открытым исходным кодом: freereadorg/awesome-libgen
  • Присоединяйтесь к /r/scihub, чтобы оставаться в курсе


Спасательная миссия для Sci-Hub и Open Science


Elsevier и USDOJ объявили войну Sci-Hub и Open Science. Эпоха Sci-Hub и Александры, сражающихся в одиночку, должна закончиться. Мы должны встать на её сторону.

7 мая Александра Элбакян из Sci-Hub сообщила, что ФБР прослушивает ее аккаунты более двух лет. Эта новость появилась после того, как Twitter заставил замолчать официальный аккаунт Sci_Hub в Твиттере, потому что индийские ученые организовались против своего министерства и иска Elsevier.

Сам Sci-Hub в настоящее время заморожен и не загружал никаких новых статей с декабря 2020 года. Эта спасательная миссия сосредоточена на поддержке раздач (seeding) коллекции статей, чтобы подготовиться к потенциальному закрытию Sci-Hub.

Александра Элбакян из Sci-Hub, книжный воитель Library Genesis, Аарон Шварц и бесчисленное множество других неназванных боролись за то, чтобы освободить науку от хватки коммерческих издателей. Сегодня они делают это скрытно, в одиночку, без ведома, опасаясь тюремного заключения, и даже сейчас их прослушивает ФБР. Они жертвуют всем ради одного видения: Open Science.
Читать дальше →

Пишем расширение для MediaWiki

Время на прочтение13 мин
Количество просмотров4.1K

В рунете я почти не встречал материалов о том, как писать расширения для MediaWIki. Основной стартовой точкой был и остается официальный сайт платформы, но там процесс расписан не очень дружелюбно по отношению к новичкам. Попробуем же это исправить!

В этой статье я покажу, как написать простейшее расширение для Медиавики, включающее в себя новый метод API, расширение парсера и немного js/css для фронтенда. А чтобы не было скучно, приплетем сюда работу с Google Knowledge Graph.

<?php explode( ' ', 'your mind' ); →

Как сделать, чтобы базой знаний начали пользоваться человеческие люди

Время на прочтение13 мин
Количество просмотров13K

Корпоративная база знаний — это не только и не столько площадка на базе какого-нибудь вики-движка, сколько люди и процессы, стоящие за ней. При внедрении вики-платформы самое сложное — это не тонкая настройка движка или попутных расширений: самое сложное — это сделать так, чтобы коллеги наконец начали пользоваться поднятой вами базой знаний.

Я начал заниматься базой знаний, будучи зеленым джуном, так что все описанные в посте рекомендации применимы даже в том случае, если у вас нет административных или финансовых ресурсов. Иными словами, советов в духе "просто заставьте всех писать и штрафуйте непослушных" тут не будет, мы пойдем другим путем.

Приобщиться к не очень тайным знаниям →

Как документировать базы данных на MediaWiki и не свихнуться

Время на прочтение22 мин
Количество просмотров11K

В этой статье пойдет речь о том, как я подошел к документированию баз данных продуктов Veeam на MediaWiki движке. Сразу оговорюсь, что документация эта служит исключительно для внутреннего пользования, поэтому я много где позволял себе определенные вольности.

Хоть главной причиной выбора платформы MediaWiki и было нежелание плодить без необходимости сайты документации, это решение также позволило воспользоваться многими преимуществами MediaWiki: понятный и привычный интерфейс, удобство поиска, полуавтоматическое создание документации и многое-многое другое.

Ну что ж, рассказывай →

«Популяризация исторического контента в Википедии»: круглый стол в Казани

Время на прочтение4 мин
Количество просмотров1.6K
19 февраля 2021 года Институт истории Академии наук Республики Татарстан (Институт Марджани) провёл круглый стол по теме «Популяризация исторического контента в Википедии». Учёные историки обозначили круг проблем, которые возникают у них при работе с Википедией.

Дискуссия обратилась к двум ключевым вопросам: 1) как избегать этнических конфликтов, 2) как сделать научную литературу доступной для самого широкого использования.
Читать дальше →

Как перестать принимать слабительное для мозга, чтобы не спустить свою жизнь в унитаз

Время на прочтение15 мин
Количество просмотров17K

Однажды наступит время, когда мы сможем узнать всё обо всём, избежать бОльшую часть всевозможных проблем, жить в гармонии с природой и окружающими людьми, наслаждаясь каждым новым днем в богатстве и здравии. А пока…

Мы живем в мире, где научные данные перемешаны и противоречат друг другу, а система образования с каждым днём всё сильней отстает от действительности. Предметы и отрасли науки находятся в рассинхроне, что не позволяет осознать нечто приближенное к истине на стыке наук. Расфокусировка внимания, дефицит времени и невозможность одновременно следить за происходящим в разных сферах сильно усложняют познание мира и понимание происходящих в нем процессов. В этой связи затруднено формирование понятийного аппарата через расширение познаний в разных областях знаний.

Что будет дальше?

Вклад авторов