Articles / Bookmarks / Profile of SemyonSinchenko / Habr

Синченко Семён @SemyonSinchenko

Data Scientist & Data Engineer

ProfileArticles6PostsNews2Comments206

v0stok86 Sep 10 2021 at 03:08

Самодельный стратостат. Часть 2

20 min

18K

.NET*DIYDevelopment for Raspberry Pi*

Vostok-3b view

Long, long time ago… Нет, не так. 4 месяца назад я рассказал вам, как из клея и резиновых сапог создать с нуля свой стратостат с телеметрическим модулем и видеокамерой. Я так же описал наш опыт запуска и поиска этого метеозонда, обозначив несколько возникших проблем. Что ж. Мы анализировали, анализировали и доанализировались до четвертого шара. И сейчас я расскажу вам, что произошло за это время, почему он четвертый, и где пропавшие два. Эта часть будет менее технической, т.к. изменений конструкции почти не было, но те что были — имеют значение. Если вы вне контекста, то эту часть советую читать только после прочтения первой (хотя бы технических разделов). Ссылка на первую часть ниже. Будет много фото, видео и графиков. Поехали?

Читать дальше →

+70

JustNecros Jul 31 2021 at 11:16

Как пилить стартап с хакатона в свободное время

10 min

3.6K

Lifehacks for geeksStart-up developmentSoftwareDevelopment Management*Hackathon

From sandbox

Вы знаете, что такое линия Кармана? Я вот не знал, пока не вступил в команду с таким названием. Команду на финале хакатона Цифровой прорыв 2019, на котором нам удалось одержать победу по треку Минздрава. Про этот самый финал написано не менее десятка статей, а я хотел бы рассказать, что было с нами после, и поделиться парой лайвхаков, как не забросить проект и не растерять команду.

И как же?

KaosEngineer Jul 22 2021 at 11:03

Яндекс открывает датасеты Беспилотных автомобилей, Погоды и Переводчика, чтобы помочь решить проблему сдвига данных в ML

6 min

17K

Яндекс corporate blogOpen source*Artificial IntelligenceResearch and forecasts in IT*Machine learning*

В рамках конкурса Shifts Challenge мы выкладываем в открытый доступ крупнейший в мире датасет для обучения беспилотных автомобилей, а также данные Яндекс.Переводчика и Погоды. Приглашаем исследователей в области машинного обучения присоединиться к поиску решения проблемы сдвига распределения данных в реальном мире по отношению к тому, с чем моделям приходится иметь дело при обучении.

Меня зовут Андрей Малинин, я старший исследователь в Yandex Research. Сегодня я расскажу о проблеме, о наших датасетах, а также о конкурсе, который мы проводим в рамках международной конференции NeurIPS 2021 совместно с учеными из Оксфордского и Кембриджского университетов.

Читать дальше →

+46

fpn Jul 21 2021 at 04:39

Практическое применение WebRTC Canvas стриминга

7 min

3.1K

Flashphoner corporate blogVideo conferencingProgramming*Working with video*Website development*

В этой статье поднимем несколько надоевшую тему вебинаров и инструментов для их проведения. Нет. Писать систему для проведения вебинара не будем. Их уже до нас написано превеликое множество. Обсудим возможность подключить к вебинару рисовалку, чтобы можно было делать пометки от руки и транслировать все это дело в поток.

kkxen Jul 19 2021 at 21:16

Квантовые процессоры поступают в продажу: что они могут и для чего созданы?

3 min

36K

Selectel corporate blogQuantum technologiesManufacture and development of electronics*CPU

В 2020 году специалист по квантовой физике Алессандро Бруно и выпускник технологического университета TU Delft Маттейс Райлаарсдам основали компанию QuantWare. Их партнерство не было случайным: специалисты познакомились во время реализации одного из проектов в компании QuTech при TU Delft.

В течение года компания активно развивалась, главная ее цель — создание доступных квантовых процессоров и сопутствующих систем. В целом, создание квантовых процессоров — далеко не новость. Google, IBM и прочие компании сообщали о создании собственных квантовых компьютеров несколько лет назад. Сейчас к некоторым из таких устройств можно получить доступ для оценки их возможностей. Правда, не напрямую, а через «облако». А вот QuantWare дает возможность заказать свои разработки всем желающим. Что это за системы и на что они способны?

Читать дальше →

+38

Oxyd Jul 14 2021 at 09:01

Айтишный дауншифтинг, стремление к минимализму и простоте

9 min

37K

RUVDS.com corporate blogReading roomIT Standards*

Astrobotany

Современные IT чрезвычайно сложные, если не сказать переусложнённые, по своему устройству. Особенно это касается web. Фреймворки, grpc, Python/Go/JS/TS/Web Assembly etc, HTML5, CSS, Docker, Kubernetes и далее в бесконечность. Плюс современные методологии разработки ПО, типа Agile и иже с ними, заставляют выкатывать продукты в прод как можно быстрее, да ещё и так чтобы продукт понравился пользователю (то есть это наличие всяческих bells & whistles, чтобы заманить пользователя и прочих «плюшек» которые красиво выглядят, но жрут ресурсы как не в себя). Большинство плюёт на оптимизацию и вполне нормальным считается когда веб страничка весит мегабайты. А браузеры, которые должны всё это отображать, являются самыми тяжёлыми приложениями в ОС.

Всё вышеописанное может быть не так заметно, точнее не так осознаваемо людьми далёкими от айти, но, как ни странно, это начало раздражать самих айтишников. Программистов, админов, девопсов, да и просто людей, для которых компьютеры, электроника это хобби. И в результате, особенно в последнее время, стали происходить странные, на первый взгляд, вещи. Айтишники начали уходить в «андеграунд». По крайней мере в своих личных проектах. Как?

Сейчас посмотрим...

+75

alexivan3232 Jul 12 2021 at 10:08

Особенности создания синтаксического анализатора русского текста

9 min

3.1K

Natural Language Processing*

From sandbox

В данной статье приводится краткое описание основных особенностей, проблем и сложностей, которые автору пришлось решать при реализации программы морфологической и синтаксической обработки текстов на русском языке.

Была поставлена задача создания программы морфологической и синтаксической обработки грамотно составленных текстов на русском языке с перспективой последующего объединения с семантическим анализатором. В связи с тем, что русский язык имеет некоторую логику построения, то виделось возможным обработать данную языковую логику классическим программным способом (без использования нейросетей), при этом учитывались следующие соображения. Классическая программа обладает максимальной гибкостью при создании изощренных алгоритмов обработки; сами алгоритмы ориентируются на формализованные конструкции словосочетаний, обрабатывают не конкретные слова, а типы слов, что позволяет легко справляться с новыми словами, возникающими в языке достаточно часто. Данный подход видится целесообразным и при дальнейшем развитии программы – включение семантического анализатора в общий сквозной процесс обработки текстов.

В результате данная задача была в целом выполнена (пока без семантической обработки). Резюмируя пройденный этап, важно отметить ключевые технические задачи в рамках синтаксического разбора, которые требовали решения: выделение из всего множества единственно верной (наиболее вероятной) связи главного и зависимого слова плюс параллельный с этим выбор единственной морфологической формы слова среди множества возможных омонимов.

Bright_Translate Jul 10 2021 at 14:02

Собираем квантовый генератор случайных чисел

4 min

24K

RUVDS.com corporate blogPhysicsManufacture and development of electronics*Programming*DIY

Translation

Цель этого проекта – создать настоящий квантовый генератор случайных чисел, то есть устройство, производящее на основе квантовых эффектов случайные числа. За реализацию случайности в нем будет отвечать ионизационная камера из пожарного извещателя.

Читать дальше →

+36

alizar Jul 5 2021 at 08:29

Сговор и жульничество в академических кругах

7 min

34K

VDSina.ru corporate blogArtificial IntelligenceMachine learning*Popular science

Translation

«Он не публиковался» © Mischa Richter

На Хабре много говорилось о проблеме "publish or perish" (публикуйся или умри), фейковых журналах и конференциях, накрутке числа публикаций и индекса цитируемости, фальшивых «соавторах», даже о генераторах псевдонаучных текстов. Но в 2021 году выявилось ещё одно очень неприглядное явление: круговое голосование рецензентов. Когда статьи выбирают не по значимости, а по именам авторов, то это подрывает основы взаимного доверия и цельность всей научной области.

Конечно, тут ничего нового и «все всё знали». Просто нарыв наконец-то вскрылся…

На одной из конференций раскрыли попытку жульничества в системе отбора публикаций. К сожалению, «отличилась» наша отрасль — информатика (computer science).

Читать дальше →

+85

113

BugM Jul 5 2021 at 08:19

Незаслуженно забытый ZooKeeper

7 min

39K

Programming*Java*Distributed systems*

В наш век распределенных микросервисов постоянно возникают распределенные проблемы. Это самые обычные computer science проблемы, но они распределены по разным серверам или даже разным датацентрам. Для их решения часто выдумывают много разного. Не делайте так, просто возьмите ZooKeeper. Он, несмотря на то что придуман бумерами, просто работает. Он решит немалую часть ваших проблем с распределенными системами.

Alex_Mtrskn Jul 2 2021 at 11:05

О чем вы много думали, но боялись узнать #1 — аденовирусная векторная вакцина

8 min

79K

BiologyHealthBiotechnologiesPopular science

From sandbox

Technotext 2021

Доброго дня, уважаемые хабровчане. Я решил освещать некоторые вопросы в сфере медицины в формате мини-текстов по определенным темам. В последнюю неделю самой горячей темой была вакцинация в России, а именно вакцина Спутник V (Gam-COVID-Vac). В этой части я популярно расскажу, что же это за вакцина, как она действует и чего от нее можно ожидать.

Узнать

+113

877

technokratiya Jul 1 2021 at 12:30

Spring MVC vs Spring WebFlux. Что лучше? Объясняем на пингвинах

8 min

39K

Java*IT-companies

Существует множество способов реализации REST-API. Большой популярностью пользуется Spring MVC на основе блокирующих вызовов, но все чаще попадаются проекты, использующие WebFlux на неблокирующих вызовах. В этой статье разберемся, какой из этих двух фреймворков работает лучше.

+10

MagisterLudi Jun 18 2021 at 10:03

Школьник как стартап: интервью с Дарьей Николаевой

11 min

10K

Jet Hackers corporate blogIT careerPopular scienceStart-up developmentStudying in IT

Сегодня Дарья поделится тем, как каждый подросток 13-18 лет может (бесплатно) поступить в самую крутую в мире «не-школу» и вместе с такими же мотивированными сверстниками со всего мира учиться у Тони Старков и Илонов Масков, и проходить стажировки в ООН и NASA. (в конце статьи бонус для школьников)

— В ноябре тебе исполнится 18, а ты вместо того чтобы 99% времени думать о ЕГЭ (героическом прошлом, борщах, тёплом месте в Газпроме) занимаешь какими-то стартапами? У тебя есть профиль в LinkedIn, Medium, Twitter и даже сайт, ты тусишь со студентами MIT, общаешься с людьми из ООН, что с тобой не так?

Дарья: Я живу в «своей норе» и не вижу «обычных» людей, даже в школу не хожу — на семейном обучении. Круг общения у меня другой. С детства хотелось чего-то вдохновляющего, значимого. Ещё хотелось свободы. Возможно я насмотрелась железного человека или начиталась Чехова, но мне кажется, что это все-таки чисто внутреннее желание делать что-то стоящее, а подобные произведения помогли его понять.

Я не могу качественно делать что-то, если от меня это требуют. Могу только то, что мне интересно. Я попробовала себя в разных ролях и направлениях, чтобы понять, что нравится. Откликается хайтек, стартапы. С 15 лет где-то я начала пытаться «изучать» предпринимательство любыми доступными способами. В 2020 развивала свой стартап и поступила в стартап-школу Y Combinator.

Как-то я прочитала, что есть 7 уровней развития цивилизации (шкала Кардашева). Мы на 0 уровне, не достигли даже уровня 1. Это прискорбно, но в тот день я увидела «данные», почему мне 100% нужно внести свой вклад в апгрейд человечества.

Я писала на все имейлы Роскосмоса, но меня проигнорили, поэтому я буду делать проект на «летней школе» в NASA.

ЕГЭ мне не важен, потому что не хочу поступать в университет в России. Вообще, хочу найти адекватный путь без университета — хочу изучить практическую инженерию, но не хочу сидеть на нудных лекциях.

— Как ты узнала про The Knowledge Society?

-7

Yermack Jun 9 2021 at 09:22

Из классической механики получили квантовую. Опять

6 min

20K

Всем известно, что классическая механика является предельным случаем квантовой с одной стороны и теории относительности – с другой. Последние две наиболее точно описывают реальность, в то время как первая считается лишь удобным частным случаем. Из квантовой физики можно получить классическую, но не наоборот.

Еще один важный момент заключается в том, что многими по умолчанию подразумевается полнота волновой функции и фундаментальность уравнения Шредингера.

Но догмы имеют обыденность рушиться: теоремы о запрете признаются несостоятельными, скрытые переменные (как локальные так и не очень) имеют место быть, энтропия замкнутой системы может уменьшаться, а убеждения касательно кривизны вселенной регулярно обламываются новыми измерениями.

+34

Axe357 Jun 8 2021 at 14:36

Введение в различные алгоритмы обучения с подкреплением (Q-Learning, SARSA, DQN, DDPG)

8 min

32K

Machine learning*

Translation

(Q-learning, SARSA, DQN, DDPG)

Обучение с подкреплением (RL далее ОП) относится к разновидности метода машинного обучения, при котором агент получает отложенное вознаграждение на следующем временном шаге, чтобы оценить свое предыдущее действие. Он в основном использовался в играх (например, Atari, Mario), с производительностью на уровне или даже превосходящей людей. В последнее время, когда алгоритм развивается в комбинации с нейронными сетями, он способен решать более сложные задачи.

В силу того, что существует большое количество алгоритмов ОП, не представляется возможным сравнить их все между собой. Поэтому в этой статье будут кратко рассмотрены лишь некоторые, хорошо известные алгоритмы.

1. Обучение с подкреплением

Типичное ОП состоит из двух компонентов, Агента и Окружения.

programmerguru May 28 2021 at 13:02

Разработка REST-серверов на Go. Часть 1: стандартная библиотека

9 min

96K

RUVDS.com corporate blogServer Administration*Programming*Go*

Translation

Это — первый материал из серии статей, посвящённой разработке REST-серверов на Go. В этих статьях я планирую описать реализацию простого REST-сервера с использованием нескольких различных подходов. В результате эти подходы можно будет сравнить друг с другом, можно будет понять их относительные преимущества друг перед другом.

Первый вопрос разработчиков, которые только начинают применять Go, часто выглядит так: «Какой фреймворк стоит использовать для решения задачи X». И хотя это — совершенно нормальный вопрос, если задавать его, имея в виду веб-приложения и серверы, написанные на многих других языках, в случае с Go при ответе на этот вопрос нужно принять во внимание множество тонкостей. Существуют серьёзные аргументы как «за», так и «против» использования фреймворков в Go-проектах. Я, работая над статьями из этой серии, вижу своей целью объективное разностороннее исследование этого вопроса.

Предыдущие части:

Вы тут — Разработка REST-серверов на Go. Часть 1: стандартная библиотека
Разработка REST-серверов на Go. Часть 2: применение маршрутизатора gorilla/mux
Разработка REST-серверов на Go. Часть 3: использование веб-фреймворка Gin
Разработка REST-серверов на Go. Часть 4: применение OpenAPI и Swagger
Разработка REST-серверов на Go. Часть 5: Middleware
Разработка REST-серверов на Go. Часть 6: аутентификация

Читать дальше →

+37

fartuk Jun 3 2021 at 07:25

Создание и балансировка инвестиционного портфеля с помощью ML

12 min

25K

Open Data Science corporate blogFinance in ITArtificial IntelligenceMachine learning*Data Mining*

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

+19

Kiryl_Halozhyn Jun 1 2021 at 09:22

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

5 min

4.9K

Cloudera corporate blogApache*Big Data*Hadoop*Data Engineering*

Translation

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Hasselhoff May 19 2021 at 15:18

Создание PDF-документа на Python с помощью pText

9 min

36K

Skillfactory corporate blogPDFPython*Programming*Open source*

Tutorial

Translation

Один из самых гибких и привычных способов сгенерировать pdf — написать код на LaTeX и воспользоваться соответствующей программой. Но есть и другие способы, которые могут оказаться проще и понятнее, чем LaTeX. Специально к старту курса Fullstack-разработчик на Python представляем перевод статьи о том, как для генерации PDF можно воспользоваться библиотекой pText; эта статья написана Йорисом Схеллекенсом — разработчиком pText.

rjhdby May 18 2021 at 19:14

Особенности практического использования различных алгоритмов Многорукого бандита

7 min

5.7K

FUNCORP corporate blogAbnormal programming*Entertaining tasksProgramming*Algorithms*

Большинство статей про алгоритмы, используемые для решения задачи многорукого бандита, очень академичны. Они пестрят формулами, графиками и статистическими таблицами. При этом как будто подразумевается, что у нас есть неизменяемый набор ручек для дёргания и n→∞ попыток. В этой статье я постараюсь рассказать об этих алгоритмах с колокольни обычного разработчика применительно к реальным условиям, в которых работает наш продукт (но графики будут — с ними красивее).

Дисклеймер: эта статья написана обычным разработчиком, не дата-саентистом или аналитиком. Не стоит рассматривать её в качестве серьёзного научного труда и искать неточности, неполноту и крайности. Она не про это.

Так как это статья про конкретное практическое применение, то и термины буду использовать из нашего домена:

• просмотр(n) = попытка;
• смайл(s) = победа;
• смайлрейт(w, от worth) = количество смайлов/количество просмотров;
• контент = то, у чего есть эти самые просмотры и смайлы.

Классическая постановка задачи многорукого бандита, если совсем грубо, звучит так: не зная заранее, насколько хороший контент загружают нам в приложение, необходимо максимизировать итоговый смайлрейт. Но такая постановка задачи хороша только с точки зрения среднестатистического потребителя контента. На практике же всё несколько сложнее.

+48