Long, long time ago… Нет, не так. 4 месяца назад я рассказал вам, как из клея и резиновых сапог создать с нуля свой стратостат с телеметрическим модулем и видеокамерой. Я так же описал наш опыт запуска и поиска этого метеозонда, обозначив несколько возникших проблем. Что ж. Мы анализировали, анализировали и доанализировались до четвертого шара. И сейчас я расскажу вам, что произошло за это время, почему он четвертый, и где пропавшие два. Эта часть будет менее технической, т.к. изменений конструкции почти не было, но те что были — имеют значение. Если вы вне контекста, то эту часть советую читать только после прочтения первой (хотя бы технических разделов). Ссылка на первую часть ниже. Будет много фото, видео и графиков. Поехали?
Data Scientist & Data Engineer
Как пилить стартап с хакатона в свободное время

Вы знаете, что такое линия Кармана? Я вот не знал, пока не вступил в команду с таким названием. Команду на финале хакатона Цифровой прорыв 2019, на котором нам удалось одержать победу по треку Минздрава. Про этот самый финал написано не менее десятка статей, а я хотел бы рассказать, что было с нами после, и поделиться парой лайвхаков, как не забросить проект и не растерять команду.
Яндекс открывает датасеты Беспилотных автомобилей, Погоды и Переводчика, чтобы помочь решить проблему сдвига данных в ML

В рамках конкурса Shifts Challenge мы выкладываем в открытый доступ крупнейший в мире датасет для обучения беспилотных автомобилей, а также данные Яндекс.Переводчика и Погоды. Приглашаем исследователей в области машинного обучения присоединиться к поиску решения проблемы сдвига распределения данных в реальном мире по отношению к тому, с чем моделям приходится иметь дело при обучении.
Меня зовут Андрей Малинин, я старший исследователь в Yandex Research. Сегодня я расскажу о проблеме, о наших датасетах, а также о конкурсе, который мы проводим в рамках международной конференции NeurIPS 2021 совместно с учеными из Оксфордского и Кембриджского университетов.
Практическое применение WebRTC Canvas стриминга

В этой статье поднимем несколько надоевшую тему вебинаров и инструментов для их проведения. Нет. Писать систему для проведения вебинара не будем. Их уже до нас написано превеликое множество. Обсудим возможность подключить к вебинару рисовалку, чтобы можно было делать пометки от руки и транслировать все это дело в поток.
Квантовые процессоры поступают в продажу: что они могут и для чего созданы?

В 2020 году специалист по квантовой физике Алессандро Бруно и выпускник технологического университета TU Delft Маттейс Райлаарсдам основали компанию QuantWare. Их партнерство не было случайным: специалисты познакомились во время реализации одного из проектов в компании QuTech при TU Delft.
В течение года компания активно развивалась, главная ее цель — создание доступных квантовых процессоров и сопутствующих систем. В целом, создание квантовых процессоров — далеко не новость. Google, IBM и прочие компании сообщали о создании собственных квантовых компьютеров несколько лет назад. Сейчас к некоторым из таких устройств можно получить доступ для оценки их возможностей. Правда, не напрямую, а через «облако». А вот QuantWare дает возможность заказать свои разработки всем желающим. Что это за системы и на что они способны?
Айтишный дауншифтинг, стремление к минимализму и простоте

Современные IT чрезвычайно сложные, если не сказать переусложнённые, по своему устройству. Особенно это касается web. Фреймворки, grpc, Python/Go/JS/TS/Web Assembly etc, HTML5, CSS, Docker, Kubernetes и далее в бесконечность. Плюс современные методологии разработки ПО, типа Agile и иже с ними, заставляют выкатывать продукты в прод как можно быстрее, да ещё и так чтобы продукт понравился пользователю (то есть это наличие всяческих bells & whistles, чтобы заманить пользователя и прочих «плюшек» которые красиво выглядят, но жрут ресурсы как не в себя). Большинство плюёт на оптимизацию и вполне нормальным считается когда веб страничка весит мегабайты. А браузеры, которые должны всё это отображать, являются самыми тяжёлыми приложениями в ОС.
Всё вышеописанное может быть не так заметно, точнее не так осознаваемо людьми далёкими от айти, но, как ни странно, это начало раздражать самих айтишников. Программистов, админов, девопсов, да и просто людей, для которых компьютеры, электроника это хобби. И в результате, особенно в последнее время, стали происходить странные, на первый взгляд, вещи. Айтишники начали уходить в «андеграунд». По крайней мере в своих личных проектах. Как?
Особенности создания синтаксического анализатора русского текста

В данной статье приводится краткое описание основных особенностей, проблем и сложностей, которые автору пришлось решать при реализации программы морфологической и синтаксической обработки текстов на русском языке.
Была поставлена задача создания программы морфологической и синтаксической обработки грамотно составленных текстов на русском языке с перспективой последующего объединения с семантическим анализатором. В связи с тем, что русский язык имеет некоторую логику построения, то виделось возможным обработать данную языковую логику классическим программным способом (без использования нейросетей), при этом учитывались следующие соображения. Классическая программа обладает максимальной гибкостью при создании изощренных алгоритмов обработки; сами алгоритмы ориентируются на формализованные конструкции словосочетаний, обрабатывают не конкретные слова, а типы слов, что позволяет легко справляться с новыми словами, возникающими в языке достаточно часто. Данный подход видится целесообразным и при дальнейшем развитии программы – включение семантического анализатора в общий сквозной процесс обработки текстов.
В результате данная задача была в целом выполнена (пока без семантической обработки). Резюмируя пройденный этап, важно отметить ключевые технические задачи в рамках синтаксического разбора, которые требовали решения: выделение из всего множества единственно верной (наиболее вероятной) связи главного и зависимого слова плюс параллельный с этим выбор единственной морфологической формы слова среди множества возможных омонимов.
Сговор и жульничество в академических кругах

«Он не публиковался» © Mischa Richter
На Хабре много говорилось о проблеме "publish or perish" (публикуйся или умри), фейковых журналах и конференциях, накрутке числа публикаций и индекса цитируемости, фальшивых «соавторах», даже о генераторах псевдонаучных текстов. Но в 2021 году выявилось ещё одно очень неприглядное явление: круговое голосование рецензентов. Когда статьи выбирают не по значимости, а по именам авторов, то это подрывает основы взаимного доверия и цельность всей научной области.
Конечно, тут ничего нового и «все всё знали». Просто нарыв наконец-то вскрылся…
На одной из конференций раскрыли попытку жульничества в системе отбора публикаций. К сожалению, «отличилась» наша отрасль — информатика (computer science).
Незаслуженно забытый ZooKeeper

В наш век распределенных микросервисов постоянно возникают распределенные проблемы. Это самые обычные computer science проблемы, но они распределены по разным серверам или даже разным датацентрам. Для их решения часто выдумывают много разного. Не делайте так, просто возьмите ZooKeeper. Он, несмотря на то что придуман бумерами, просто работает. Он решит немалую часть ваших проблем с распределенными системами.
О чем вы много думали, но боялись узнать #1 — аденовирусная векторная вакцина

Доброго дня, уважаемые хабровчане. Я решил освещать некоторые вопросы в сфере медицины в формате мини-текстов по определенным темам. В последнюю неделю самой горячей темой была вакцинация в России, а именно вакцина Спутник V (Gam-COVID-Vac). В этой части я популярно расскажу, что же это за вакцина, как она действует и чего от нее можно ожидать.
Spring MVC vs Spring WebFlux. Что лучше? Объясняем на пингвинах

Существует множество способов реализации REST-API. Большой популярностью пользуется Spring MVC на основе блокирующих вызовов, но все чаще попадаются проекты, использующие WebFlux на неблокирующих вызовах. В этой статье разберемся, какой из этих двух фреймворков работает лучше.
Школьник как стартап: интервью с Дарьей Николаевой

— В ноябре тебе исполнится 18, а ты вместо того чтобы 99% времени думать о ЕГЭ (героическом прошлом, борщах, тёплом месте в Газпроме) занимаешь какими-то стартапами? У тебя есть профиль в LinkedIn, Medium, Twitter и даже сайт, ты тусишь со студентами MIT, общаешься с людьми из ООН, что с тобой не так?
Дарья: Я живу в «своей норе» и не вижу «обычных» людей, даже в школу не хожу — на семейном обучении. Круг общения у меня другой. С детства хотелось чего-то вдохновляющего, значимого. Ещё хотелось свободы. Возможно я насмотрелась железного человека или начиталась Чехова, но мне кажется, что это все-таки чисто внутреннее желание делать что-то стоящее, а подобные произведения помогли его понять.
Я не могу качественно делать что-то, если от меня это требуют. Могу только то, что мне интересно. Я попробовала себя в разных ролях и направлениях, чтобы понять, что нравится. Откликается хайтек, стартапы. С 15 лет где-то я начала пытаться «изучать» предпринимательство любыми доступными способами. В 2020 развивала свой стартап и поступила в стартап-школу Y Combinator.
Как-то я прочитала, что есть 7 уровней развития цивилизации (шкала Кардашева). Мы на 0 уровне, не достигли даже уровня 1. Это прискорбно, но в тот день я увидела «данные», почему мне 100% нужно внести свой вклад в апгрейд человечества.
Я писала на все имейлы Роскосмоса, но меня проигнорили, поэтому я буду делать проект на «летней школе» в NASA.
ЕГЭ мне не важен, потому что не хочу поступать в университет в России. Вообще, хочу найти адекватный путь без университета — хочу изучить практическую инженерию, но не хочу сидеть на нудных лекциях.
— Как ты узнала про The Knowledge Society?
Из классической механики получили квантовую. Опять

Всем известно, что классическая механика является предельным случаем квантовой с одной стороны и теории относительности – с другой. Последние две наиболее точно описывают реальность, в то время как первая считается лишь удобным частным случаем. Из квантовой физики можно получить классическую, но не наоборот.
Еще один важный момент заключается в том, что многими по умолчанию подразумевается полнота волновой функции и фундаментальность уравнения Шредингера.
Но догмы имеют обыденность рушиться: теоремы о запрете признаются несостоятельными, скрытые переменные (как локальные так и не очень) имеют место быть, энтропия замкнутой системы может уменьшаться, а убеждения касательно кривизны вселенной регулярно обламываются новыми измерениями.
Введение в различные алгоритмы обучения с подкреплением (Q-Learning, SARSA, DQN, DDPG)

(Q-learning, SARSA, DQN, DDPG)
Обучение с подкреплением (RL далее ОП) относится к разновидности метода машинного обучения, при котором агент получает отложенное вознаграждение на следующем временном шаге, чтобы оценить свое предыдущее действие. Он в основном использовался в играх (например, Atari, Mario), с производительностью на уровне или даже превосходящей людей. В последнее время, когда алгоритм развивается в комбинации с нейронными сетями, он способен решать более сложные задачи.
В силу того, что существует большое количество алгоритмов ОП, не представляется возможным сравнить их все между собой. Поэтому в этой статье будут кратко рассмотрены лишь некоторые, хорошо известные алгоритмы.
1. Обучение с подкреплением
Типичное ОП состоит из двух компонентов, Агента и Окружения.
Разработка REST-серверов на Go. Часть 1: стандартная библиотека

Первый вопрос разработчиков, которые только начинают применять Go, часто выглядит так: «Какой фреймворк стоит использовать для решения задачи X». И хотя это — совершенно нормальный вопрос, если задавать его, имея в виду веб-приложения и серверы, написанные на многих других языках, в случае с Go при ответе на этот вопрос нужно принять во внимание множество тонкостей. Существуют серьёзные аргументы как «за», так и «против» использования фреймворков в Go-проектах. Я, работая над статьями из этой серии, вижу своей целью объективное разностороннее исследование этого вопроса.
Разработка REST-серверов на Go. Часть 2: применение маршрутизатора gorilla/mux
Разработка REST-серверов на Go. Часть 3: использование веб-фреймворка Gin
Разработка REST-серверов на Go. Часть 4: применение OpenAPI и Swagger
Разработка REST-серверов на Go. Часть 5: Middleware
Разработка REST-серверов на Go. Часть 6: аутентификация
Создание и балансировка инвестиционного портфеля с помощью ML

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.
Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.
Создание PDF-документа на Python с помощью pText

Один из самых гибких и привычных способов сгенерировать pdf — написать код на LaTeX и воспользоваться соответствующей программой. Но есть и другие способы, которые могут оказаться проще и понятнее, чем LaTeX. Специально к старту курса Fullstack-разработчик на Python представляем перевод статьи о том, как для генерации PDF можно воспользоваться библиотекой pText; эта статья написана Йорисом Схеллекенсом — разработчиком pText.
Особенности практического использования различных алгоритмов Многорукого бандита

Большинство статей про алгоритмы, используемые для решения задачи многорукого бандита, очень академичны. Они пестрят формулами, графиками и статистическими таблицами. При этом как будто подразумевается, что у нас есть неизменяемый набор ручек для дёргания и n→∞ попыток. В этой статье я постараюсь рассказать об этих алгоритмах с колокольни обычного разработчика применительно к реальным условиям, в которых работает наш продукт (но графики будут — с ними красивее).
Дисклеймер: эта статья написана обычным разработчиком, не дата-саентистом или аналитиком. Не стоит рассматривать её в качестве серьёзного научного труда и искать неточности, неполноту и крайности. Она не про это.
Так как это статья про конкретное практическое применение, то и термины буду использовать из нашего домена:
• просмотр(n) = попытка;
• смайл(s) = победа;
• смайлрейт(w, от worth) = количество смайлов/количество просмотров;
• контент = то, у чего есть эти самые просмотры и смайлы.
Классическая постановка задачи многорукого бандита, если совсем грубо, звучит так: не зная заранее, насколько хороший контент загружают нам в приложение, необходимо максимизировать итоговый смайлрейт. Но такая постановка задачи хороша только с точки зрения среднестатистического потребителя контента. На практике же всё несколько сложнее.
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Works in
- Date of birth
- Registered
- Activity