Articles / Bookmarks / Profile of SemyonSinchenko / Habr

Синченко Семён @SemyonSinchenko

Data Scientist & Data Engineer

ProfileArticles6PostsNews2Comments206

averkij May 16 2021 at 18:33

Сам себе Гутенберг. Делаем параллельные книги

12 min

23K

Machine learning*Learning languagesPython*Open source*Natural Language Processing*

Tutorial

Lingtrain parallel books

Upd. 04.12.2021 — Наш телеграм канал

Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.

Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.

Из чего делаем

На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.

Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника

+106

witcherj Apr 12 2021 at 19:51

Модульный открытый «ноутбук для параноиков» начали рассылать заказчикам

4 min

57K

Selectel corporate blogManufacture and development of electronics*LaptopsComputer hardwareGadgets

Около года назад на Хабре появилась статья об открытом в плане железа и ПО модульном ноутбуке MNT Reform, который предназначается для пользователей, которым крайне важна сохранность персональных данных. Это устройство было даже названо «ноутбуком для параноиков», хотя, конечно, это не официальное название.

Тогда, в мае прошлого года, была запущена краудфандинговая кампания. Она собрала необходимые для производства устройства средства, и сейчас авторы объявили о старте отправки ноутбука заказчикам. Первые 25 устройств отгружены покупателям из ЕС, своей очереди ждут еще 450 ноутбуков — их отправят в ближайшее время. Что собой представляет это чудо техники?

Читать дальше →

+71

171

daniilgorbenko Apr 12 2021 at 06:00

Генетический алгоритм vs алгоритм роя частиц

11 min

16K

Python*Programming*Algorithms*Mathematics*

К задачам поиска лучшего варианта решения (объекта, параметров или других данных) сводятся многие из проблем математики, экономики, статистики и т.д. Эти проблемы возникают, когда приходится строить математическую модель ситуации. При обработке полученной математической модели не всегда является возможным перебрать все данные, предоставленные системой, поэтому возникает потребность в разработке таких алгоритмов, которые могли бы искать оптимальные данные с некоторыми погрешностями, чтобы ограничить зону обработки данных для поиска последующих лучших значений.

В данной статье под задачей оптимизации понимается нахождение экстремума (минимума) некоторой вещественной функции в заданной области. Будут рассмотрены два самых важных алгоритма в оптимизации: генетический алгоритм и алгоритм роя частиц.

Ознакомиться

+17

eaa Jan 22 2013 at 12:42

Как я пленки цифровал, и не только

8 min

229K

Image processing*

From sandbox

Немного предисловия

Сначала даже мысли не было писать статью, все казалось обыденным и малоинтересным. Но к своему удивлению, занимаясь на новогодних выходных приведением в порядок фотоальбомов, с интересом заметил, что не только я решил посвятить этому полезному делу праздничное время. Соответствующая по тематике статья «Опыт создания каталога и индексации семейного фото-архива. Индексация и оцифровка фотопленок» была и на хабре. Чуть позже появилась еще одна статья «Метаданные для организации хранения фото-архива». Посему решил поделиться каким-никаким опытом, может что по крупицам кому и пригодится.

В общем-то идея отсканировать и упорядочить старые фотографии, конечно же, вынашивалась давно, на такой объем работ по сканированию старых фотопленок (больше сотни) и фотографий (тысячи) решиться непросто. Вообще еще с детства хотел, чтобы у меня были оцифрованные старые фотографии прапрабабушек-прадедушек, и вот наконец спустя 20 лет решил сподвигнуться на это дело.

Читать дальше →

+20

Old_tutor Feb 22 2021 at 14:05

Стучимся в дверь к Тьюрингу: квантовые компьютеры и машинное обучение

18 min

11K

Skillfactory corporate blogReading roomMachine learning*Computer hardwareQuantum technologies

Translation

Нули, единицы, положительные и отрицательные значения. Переключатели, одни из которых включены, а другие выключены. Мы все привыкли видеть компьютеры и пользоваться ими. Каждый год гиганты индустрии – Intel, AMD, ARM и NVIDIA – выпускают следующее поколение своих топовых кремниевых соединений, расширяя возможности традиционных компьютеров, которые мы знаем сегодня. Но даже их вычислительным возможностям есть определенный предел. Пробить этот «стеклянный потолок» возможно помогут квантовые технологии, детальный обзор которых и представлен в этой статье.

Приятного чтения!

AloneCoder Jan 22 2021 at 13:31

Трассировка Python GIL

18 min

7.6K

VK corporate blogProgramming*Debugging*High performance*Python*

Translation

Есть много статей, объясняющих, для чего нужен Python GIL (The Global Interpreter Lock) (я подразумеваю CPython). Если вкратце, то GIL не даёт многопоточному чистому коду на Python использовать несколько ядер процессора.

Однако мы в Vaex исполняем большинство задач с интенсивными вычислениями на С++ с отключением GIL. Это нормальная практика для высокопроизводительных Python—библиотек, в которых Python всего лишь выступает в роли высокоуровневого связующего звена.

GIL нужно отключать явно, и это ответственность программиста, о которой он может забыть, что приведёт к неэффективному использованию мощностей. Недавно я сам побывал в роли забывшего, и нашёл подобную проблему в Apache Arrow (это зависимость Vaex, так что когда GIL не отключается в Arrow, мы (и все остальные) сталкиваемся с падением производительности).

Кроме того, при исполнении на 64 ядрах производительность Vaex иногда далека от идеала. Возможно, он использует 4000 % процессора вместо 6400 %, что меня не устраивает. Вместо того, чтобы наугад вставлять выключатели для изучения этого эффекта, я хочу разобраться в происходящем, и если проблема в GIL, то хочу понять, почему и как он тормозит Vaex.

Читать дальше →

+23

dyakimov Jan 14 2021 at 07:11

Лучшие практики при написании безопасного Dockerfile

9 min

32K

Swordfish Security corporate blogInformation Security*System administration*DevOps*

В данной статье мы рассмотрим небезопасные варианты написания собственного Dockerfile, а также лучшие практики, включая работу с секретами и встраивание инструментов статического анализа. Тем не менее для написания безопасного Dockerfile наличия документа с лучшими практиками мало. В первую очередь требуется организовать культуру написания кода. К ней, например, относятся формализация и контроль процесса использования сторонних компонентов, организация собственных Software Bill-of-Materials (SBOM), выстраивание принципов при написании собственных базовых образов, согласованное использование безопасных функций, и так далее. В данном случае отправной точкой для организации процессов может служить модель оценки зрелости BSIMM. Однако в этой статьей пойдет речь именно о технических аспектах.

+73

mirniypirojok Jul 10 2020 at 11:15

Java-модель памяти (часть 1)

5 min

87K

Java*

From sandbox

Привет, Хабр! Представляю вашему вниманию перевод первой части статьи «Java Memory Model» автора Jakob Jenkov.

Прохожу обучение по Java и понадобилось изучить статью Java Memory Model. Перевёл её для лучшего понимания, ну а чтоб добро не пропадало решил поделиться с сообществом. Думаю, для новичков будет полезно, и если кому-то понравится, то переведу остальное.

Первоначальная Java-модель памяти была недостаточно хороша, поэтому она была пересмотрена в Java 1.5. Эта версия модели все ещё используется сегодня (Java 14+).

Читать дальше →

+10

MaxRokatansky Sep 20 2019 at 12:19

Внутренности JVM, Часть 1 — Загрузчик классов

5 min

44K

OTUS corporate blogJava*Programming*

Translation

Перевод статьи подготовлен специально для студентов курса «Разработчик Java».

В этой серии статей я расскажу о том, как работает Java Virtual Machine. Сегодня мы рассмотрим механизм загрузки классов в JVM.

Читать дальше →

+16

ph_piter Sep 6 2019 at 17:19

Виды компиляции в JVM: сеанс черной магии с разоблачением

11 min

19K

Издательский дом «Питер» corporate blogJava*Compilers*Programming*

Translation

Всем привет!

Сегодня вашему вниманию предлагается перевод статьи, в котором на примерах разобраны варианты компиляции в JVM. Особое внимание уделено AOT-компиляции, поддерживаемой в Java 9 и выше.

Приятного чтения!

Читать дальше →

+17

iggisv9t Sep 4 2019 at 11:04

Визуализация больших графов для самых маленьких

12 min

60K

Open Data Science corporate blogMachine learning*Artificial IntelligenceData visualization*Data Mining*

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

ph_piter Dec 15 2017 at 14:36

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

12 min

15K

Издательский дом «Питер» corporate blogApache*Big Data*Hadoop*Professional literature*

Translation

Здравствуйте, уважаемые читатели!

Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь предлагаем поговорить о высшей лиге глубокого обучения — то есть, о решении этих задач на языке Java при помощи библиотеки Deeplearning4j. Мы перевели для вас июньскую статью из блога компании Cloudera, где в интереснейших подробностях рассказано о специфике этой библиотеки и о глубоком обучении в Hadoop и Spark.

Приятного чтения.

Читать дальше →

+14

1 2