Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.
User
Применение библиотеки FuzzyWuzzy для нечёткого сравнения в Python. Расстояние Левенштейна (редакционное расстояние)
У него не было уверенности, что он правильно расслышал. От этого так много зависело! Но не переспрашивать же? (с) Борис Акунин. Весь мир театр.
Работая над голосовым помощником, который упоминается в предыдущей статье, понял, что просто не могу с вами не поделиться прекраснейшей библиотекой FuzzyWuzzy.
Применение машинного обучения для определения содержимого колонки в таблице
Представим, что у нас есть таблица с неизвестными данными причем у которых почему-то пропали названия колонок. Наша задача — восстановить эти названия и в общих чертах понять, что находится в каждой колонке.
Существуют специализированные системы подготовки и анализа данных. Большинство из них отлично справляются с определением атомарного типа колонки, такого как string, integer, boolean. Однако, с задачей определения семантического типа — собственно, того, что лежит в колонке (имя человека, название организации, город и пр.), не всё так хорошо. При этом, успешное определение семантического типа может дать гораздо больше, чем простое знание атомарного типа. Имея на руках семантические типы колонок можно скорее разобраться в незнакомой базе данных, и, например, быстро выделить все колонки, относящиеся к одной сущности реального мира.
Как фокусировались на работе Кнут, Фейнман, Юнг, Шокли
Под катом история Дональда Кнута о том, почему он отказался от электронной почты в 1990 году (за 7 до лет моего рождения); объяснения автора романа «Анафем» Нила Стивенсона, почему он не общается с фанатами; фишки из работы Билла Гейтса и Джоан Роулинг, а ещё проект идеального рабочего пространства Дэвида Девэйна.
Простите за такую тяжеленную гифку, не удержалась.
Природа музыкальных ощущений. Родство звуков
Этими статьями по теории музыки я ставлю задачу объяснить природу музыкальных ощущений человека. Как и в любом фундаментальном исследовании я начну с самого низкого уровня - физики звука и последовательно приду к известным музыкальным понятиям. В последней статье будет рассмотрено веб-приложение для гармонического анализа музыки разработанное на основе этого исследования.
Как я веду Zettelkasten в Notion уже год: стартовый набор и полезные трюки
Zettelkasten — крутой метод хранения идей и знаний — сейчас на слуху, его уже обсуждали на Хабре. Я веду такой в Notion уже год, потому что Notion лучше всех воплощает три главных принципа Zettelkasten: взаимосвязанность, категоризацию, актуальность. Метод улучшил качество моего обучения и исследований, и без него как-то уже не так.
Я почитал русскоязычные и англоязычные ресурсы и не нашел ни нормального шаблона для Notion, ни объяснения как реализовать главные преимущества метода Zettelkasten. Под катом и то, и другое.
UPD: На текущий момент, статья безбожно устарела, потому что за еще один год я набрался опыта, помогая другим людям организовать их Цеттели и наблюдая за чужим опытом. А еще Notion выпустил несколько фич, заточенных именно под Цеттель. И теперь мне совестно, как новички страдают, разбираясь в теме после меня.
Эту статью можно почитать для понимания основ, но актуальные источники информации тут:
- У меня в Психотронке можно следить за подготовкой обновленной версии, ну и написать мне за помощью. А можете не следить: версия 2.0 выйдет на Хабре.
- В русскоязычном сообществе Zettelkasten в Телеграме сидят люди, которые хорошо разбираются в теме. Мы обожаем помогать новичкам.
Дисклеймер: ни Notion, ни автор метода мне за статью не платили.
Отряд-731: как японцы создавали биологическое оружие
Персонал отряда 731
Совсем недавно, в 2018 году, Японский Национальный архив рассекретил личные данные всех 3607 членов так называемого отряда 731, который устраивал эксперименты на людях во время оккупации Китая. В японском общества давно имеется запрос на признание и обнародование всех материалов, касающихся военных преступлений Японии в ходе ВМВ. Японское же правительство по возможности избегает неудобных тем, давая комментарии в крайних ситуациях: так факт применения биологического оружия против Китая был официально признан лишь в 2002 году. Теперь имена преступников известны общественности, но понесли ли они хоть какое-нибудь наказание? 20 августа 1947 года завершился Нюрнбергский процесс над врачами. По итогу суда, из 23 подсудимых 7 были приговорены к смертной казни, 5 к пожизненному заключению, 4 к тюремному заключению от 10 до 20 лет и 7 человек были оправданы. В рамках процесса рассматривались преступления немецких врачей, а именно их участие в зверских медицинских экспериментах над пленниками концентрационных лагерей.
Так вот, Япония также проводила подобные бесчеловечные эксперименты. Одним из самых жестоких и крупных японских военных преступников являлся отряд 731 — подразделение, которое занималось разработкой биологического оружия и медицинскими экспериментами на людях. Эти опыты по своей бесчеловечности ничуть не уступали немецким. От рук отряда, по официальной версии, погибло порядка 3 тысяч человек, но большинство сотрудников не понесли никакого наказания за свои деяния. В этой статье рассмотрим, как создавался отряд «смерти», чем они занимались, как сложилась их судьба после окончания Второй мировой войны и повлияла ли их деятельность на международный контроль биологического оружия.
Интерпретируемость машинного обучения: состояние дел
Это эссе содержит обширный обзор весьма узкой темы: интерпретируемости машинного обучения. Пост не претендует на исчерпывающую полноту, я ставил своей целью рассмотреть концептуальные фреймворки, существующие исследования и направления их развития.
Я придерживаюсь категоризации, использованной в работе Lipton et al.'s Mythos of Model Interpretability, которую считаю наилучшей статьей, проясняющей различные дефиниции интерпретируемости. Мы рассмотрим множество способов формализовать значение «интерпретируемости». В широком смысле интерпретируемость отвечает на вопрос «как». Она призвана дать понятие о нашей модели и объяснить, каким образом эта модель принимает те или иные решения. Ниже каждый раздел концептуализируется на основе конкретного вопроса, который можно поставить к нашей модели машинного обучения, опираясь на конкретное определение интерпретируемости. Если все это для вас в новинку, объясню для начала, почему нас вообще должна волновать интерпретируемость.
Делаем простого бота в Telegram на Python. Интеграция с Excel
Друг предложил мне поработать над проектом для нашей кафедры. ТЗ пока не сформулировано, но точно известно, что это будет бот в телеге. Я хоть и питонист, но с ботами дел никогда не имел, поэтому пишу эту статью, как заметку, для себя и молодых перспективных ребят, чтоб у них было от чего оттолкнуться. Постараюсь писать максимально понятным и простым языком. Профессионалам тут особо делать не чего, хотя, может и придёт какая-нибудь идея.
5 приложений для изучающих английский, которые стоит установить
Сервисов и мобильных приложений для изучения языков сейчас много, но даже среди платных случаются продавцы «волшебных таблеток»: занимайся пять минут в день, и через три месяца три дня будешь свободно говорить на любые темы с любыми людьми! (с)
Поэтому мы отобрали 5 приложений, которые были проверены на людях и продемонстрировали свою эффективность. Примечание: испытуемые также проходили обучение в группах или индивидуально с преподавателем, но результаты обычно оказываются лучше у тех из них, кто пользовался приведенными здесь приложениями. Так что рассматривайте их в качестве полезных «витаминок», а не основного учебного «рациона».
Растения I класса опасности. Памятка по идентификации
Вторая часть — Токсины растений. User Stories
Третья часть — Ядовитые декоративные растения в саду и огороде. Справочник
Четвертая часть — Опасные «вкусняшки». Ядовитые лесные ягоды. Памятка для детей и взрослых
Как выглядят наиболее доступные проигрыватели винила — пять «вертушек» начального уровня
В серии из нескольких тематических хабрапостов мы рассмотрели примеры напольной акустики — от наиболее доступных моделей до колонок в районе ста тысяч рублей. Сегодня открываем цикл о примечательных проигрывателях винила — на этот раз речь пойдет о базовых «вертушках» — до пятнадцати тысяч рублей.
Увидеть невидимое. Несколько способов сделать недорогой микроскоп своими руками
Микроскоп — надежный и нужный инструмент не только для ученых, медиков, но и представителей других специальностей. Это еще и отличный способ познакомить ребенка с невидимыми тайнами и секретами окружающего мира. Да и кто сказал, что рассматривать микроскопические объекты в свое удовольствие — это не для взрослых.
Проблема только в том, что микроскопы довольно дорогие. Если даже деньги есть, не всегда хочется их тратить на вещь, которая, возможно, будет использоваться лишь пару раз. В этом случае приходят на помощь проекты по созданию микроскопов своими руками.
Экспериментальный вагон без плацкартов — только из капсул, без висящих ног
Расстановка вот такая:
Возможно, вы помните опыты ТМХ по тому, как должен выглядеть новый плацкартный вагон: сначала появились концепции капсульных плацкартов со шкафом посреди купе, потом в габарите Т — куча доработок по отзывам на первый вариант, уже длинные полки и модульная компоновка, когда можно делать часть блоков капсулой, а часть как обычно. Плюс занавески на каждом месте. Тогда же стало понятно, что в капсульный модуль не затащить велосипед или лыжи, плюс вы оставили ещё под полторы тысячи комментариев. На заводе опять получили обратную связь и показали следующий прототип.
Теперь это вагон, архитектура которого вообще не привязана к модулям плацкартов. А когда вы не ограничены прямоугольной компоновкой, можно делать диагональное расположение, ставить места в обе стороны от прохода и не выравнивать их друг по другу по сетке, а заполнять пространство в стиле биоформы.
В общем, заходите под кат смотреть новый вагон эконом-сегмента. Ну и можно посмотреть, что стало с вашей обратной связью и как опять поменялась эргономика после неё.
Космический лифт. Как, зачем, из чего
Узнать замечательное слово «ретрофутуризм» и даже прочесть эту статью мне довелось уже в бытность активного существования хаброблога, когда под моим последним январским постом развернулась дискуссия об осуществимости и целесообразности воздвижения сферы Дайсона. Немного разочаровавшись реакцией на тот пост, я отложил в долгий ящик обзорную статью о технологии и применении космического лифта, но вот и она дождалась своего часа. Во многом я нашел нужные мысли и слова, готовя материал о фуллеренах и, соответственно, освежив знания об углеродных нанотрубках. Поэтому вас ждет пост, категорически не относящийся к научной фантастике.
Погружаемся в статистику вместе с Python. Часть 3. Тестов много, принцип один
Доброго времени суток, уважаемые хабрадамы и хабрагоспода. В этой статье мы задраим люки нашего батискафа как можно плотнее, добавим оборотов нашему питоновскому движку и погрузимся в пучины статистики, на ту глубину, в которую уже практически не проникает солнечный свет. На этой глубине мы встретим очень много самых разных статистических тестов, проплывающих мимо нас в виде причудливых формул. Сначала нам покажется, что все они устроены по-разному, но мы попробуем докопаться до самой главной движущей силы всех этих странных существ.
О чем мне следует вас предупредить перед погружением на такую глубину? Во-первых, я предполагаю, что вы уже почитали книгу Сары Бослаф "Статистика для всех", а еще покопались в официальной документации модуля stats библиотеки SciPy. Уж простите меня за мое следующее предположение, но мне кажется, что вы скорее всего были немного ошарашены огромным количеством тестов, которые там имеются, и были ошарашены еще больше, когда поняли, что это на самом деле только верхушка айсберга. Ну, а если вы еще не столкнулись со всеми прелестями этого чудесного "пубертатного периода", то рекомендую раздобыть книгу Александра Ивановича Кобзаря "Прикладная математическая статистика. Для инженеров и научных работников". Ну, а если вы "в теме", то все равно загляните под кат, почему? Потому что изложение и интерпретация фактов порой важнее и интереснее самих фактов.
Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB
Как (и зачем?) написать голосовой дневник, используя open source инструменты.
Как добывают нефть
Недавно прочитал сообщение, что мэр Москвы Сергей Собянин открыл Музей нефти на Сретенском бульваре. «В Москве нет нефтяных вышек, нефтяных месторождений, но у нас есть огромные отряды людей, которые двигают академическую науку, прикладную, образование, которое работает в значительной части на нефтяную отрасль страны, делая ее передовой», — подчеркнул на открытии мэр Москвы Сергей Собянин.
Молодец, Сергей Семёнович. И дело хорошее сделал – музей открыл, и слова хорошие сказал, вот только несмотря на то, что долгое время проработал на руководящих должностях в нефтедобывающих регионах, немного ошибся с терминологией. «Нефтяных вышек» нет не только в Москве, их нет нигде в мире. Есть буровые вышки (см. фото вверху), являющиеся частью буровых установок, а нефтяных нет. А что же тогда есть?
А вот о том, какими способами и с помощью какого оборудования добывают нефть в России и мире я и постараюсь максимально доступным языком рассказать и наглядно показать в своей статье. (На фотографии вверху — буровая площадка в окрестностях Нарьян-Мара. Снимок не очень качественный, поскольку сделан автором через иллюминатор вертолёта).
Стаи рыб следуют алгоритмам композиционного обучения
Группа животных — это больше, чем сумма всех членов группы. Поведение одинокого муравья трудно назвать осмысленным, но их колония способна построить прочную и хорошо вентилируемую муравьиную кучу. Одинокий журавль может легко заблудиться в небе, но стая журавлей безошибочно выбирает правильный путь миграции. Во многих сложных когнитивных процессах мы регулярно наблюдаем отличия в поведении группы от поведения её отдельных членов. Как это возможно? Даже автор статьи, кандидат наук, не может понять, как примитивные рыбы — золотые нотемигонусы, абсолютно безмозглые существа, собираясь в стаи, способны эффективно уклоняться от хищников. Автор прочитал десятки статей и учебников, проводил эксперименты, анализировал данные и консультировался с теоретиками, пытаясь понять, почему, когда речь идёт о рыбах, 1 плюс 1 получается не 2, а 3.
К старту курса о машинном и глубоком обучении мы перевели материал о том, как групповое поведение связано с композиционным (ансамблевым) обучением, где вы найдёте как кратко изложенную теорию со ссылками, так и вопросы, которые сегодня стоят перед наукой о коллективном поведении.
Старинное искусство номографии
Впервые увидел этот странный график в лаборатории университета. Невзрачный листок, ксерокопированный из старой книги, был наклеен на стену рядом с роторным испарителем. Листок, очевидно, использовали часто, но берегли, словно в нём содержалось какое-то древнее могучее заклинание… Впоследствии, схожего рода графики попадались мне и в других лабораториях, словно составляли неотъемлемую часть перегонки с вакуумом. Затем похожие рисунки встречались на страницах разной технической литературы. Их называли номограммы. Научиться ими пользоваться оказалось до смешного просто, но кто и как их в своё время сделал — оставалось загадкой.
Как выглядят номограммы и как они работают
Номограмма, что часто используется при перегонке с вакуумом приведена на рисунке ниже.
Допустим, вы провели реакцию в растворителе, а теперь собираетесь его удалить (выпарить), чтобы собрать продукт реакции. Растворитель улетучивается изнурительно медленно, а чтобы ускорить процесс, вы решаете его нагреть, но вот беда — греть раствор нежелательно, так как продукт реакции от нагревания может испортиться. Создав пониженное давление, вы уменьшите температуру кипения растворителя и сумеете его отделить не причинив вреда растворенному в нем веществу. При нормальном атмосферном давлении 760 мм ртутного столба вода кипит при 100 С, однако, при давлении 40 мм кипит уже при 34 С.
Information
- Rating
- Does not participate
- Registered
- Activity