Как стать автором
Обновить

Рип сетевых словарей при помощи Node.js, ч. 1: статические страницы; CLI; DSL -> TXT, PDF, DjVu; сопутствующие задачи

Время на прочтение 20 мин
Количество просмотров 12K
Поисковые технологии *JavaScript *Data Mining *HTML *Node.JS *
Туториал
Компания ABBYY создала хорошую программную оболочку для работы со словарями, однако не меньшим её вкладом в цифровую лексикографию стал побочный продукт разработки ABBYY Lingvo — язык словарной разметки DSL. Он давно уже вышел за границы Lingvo, стал самостоятельным стандартом и форматом для других словарных оболочек, в том числе одной из самых известных в своём роде — GoldenDict.

Но сама по себе компания ABBYY не достигла бы таких успехов без помощи многочисленной армии энтузиастов-лексикографов, маниакально год за годом оцифровывавших бумажные словари и конвертировавших словари цифровые — от миниатюрных специальных до огромных общего назначения.

Одна из самых известных и плодотворных групп давно уже работает на сайте forum.ru-board.com. Со временем там накопилась как обширнейшая коллекция словарей, так и основательнейшая база знаний и инструментов в помощь их создателям и редакторам. Было написано множество скриптов и программ, набор которых отражает историю и изменения популярности языков программирования, более или менее приспособленных для обработки текста. Тут и Perl с Python, и языки пакетных файлов для оболочек, и макросы MS Word и Excel, и компилируемые программы на языках общего назначения.

Однако до последнего времени один из языков почти не был представлен в данной сфере. Хотелось бы восполнить этот пробел и отдать должное стремительному росту мощности, функциональности и популярности языка JavaScript. Думается, он может оказать большую помощь современным программистам-лексикографам, особенно на границе сетевой и локальной лексикографии.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 11

Рип сетевых словарей при помощи Node.js, ч. 2: динамические страницы; подключение NW.js

Время на прочтение 16 мин
Количество просмотров 8K
Поисковые технологии *JavaScript *Data Mining *HTML *Node.JS *
Туториал
В предыдущей части были описаны базовые операции и сопутствующие задачи при копировании сетевых словарей при помощи Node.js. В этой части описывается использование важного дополнительного инструмента для конвертирования веб-источников особого уровня сложности.

I. Зачем нам NW.js?


1. Чем сложнее структура веб-страниц словаря, тем больше оснований опереться на весь спектр возможностей, предоставляемый отточенным браузерным движком. JSDOM — довольно развитая библиотека, но даже она не сравнится с полным набором средств из Chromium.

2. Люди, занимающиеся созданием и конвертированием цифровых словарей, — в значительной мере гуманитарии, которых волей судьбы занесло в сферу IT. Иногда им комфортнее работать с GUI, чем с интерфейсом командной строки, особенно если они не пишут утилиты сами, а пользуются готовыми разработками коллег. NW.js предоставляет простые способы создания GUI к тривиальным приложениям для анализа, обработки и конвертирования веб-страниц.

Как пример для краткого описания этого инструмента я выбрал сайт www.wordspy.com.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

Badoo открывает исходные коды Live Streaming Daemon

Время на прочтение 7 мин
Количество просмотров 15K
Блог компании Badoo Разработка веб-сайтов *Программирование *Go *Разработка под Linux *


Для того чтобы мы могли считать статистику, наш сайт в своей работе генерирует огромное количество событий. Например, при отправке сообщения другому пользователю, при заходе пользователя на сайт, при смене местоположения и т.д. События представляют из себя строку в формате JSON или GPB (Google Protocol Buffers) и содержат время отправки, идентификатор пользователя, тип события, а также поля, относящиеся непосредственно к самому событию (например, координаты пользователя).

Каждую секунду генерируются сотни тысяч событий, и нам нужны инструменты, чтобы их собирать и анализировать эффективно и с минимальной задержкой. Мы рассматривали несколько существующих решений для этой задачи и до недавнего времени использовали демон под названием Scribe от Facebook. Он в целом нас устраивал и позволял делать все, что нам нужно. Однако в какой-то момент Facebook забросил свою разработку, и при некоторых условиях Scribe начал у нас падать (например, при перегрузке upstream-серверов). Самостоятельно устранить причину падений демона у нас не получилось, поэтому мы начали искать альтернативу.
Читать дальше →
Всего голосов 54: ↑49 и ↓5 +44
Комментарии 33

Тестирование аккумуляторов: первые выводы

Время на прочтение 3 мин
Количество просмотров 44K
Блог компании Madrobots Энергия и элементы питания
После моего Грандиозного тестирования батареек многие просили меня заняться таким же подробным тестированием аккумуляторов.

Уже две недели практически круглосуточно идёт процесс тестирования. За это время я успел протестировать 22 вида аккумуляторов АА десяти брендов: IKEA, Ansmann, GP, Duracell, Energizer, Robiton, Panasonic, Panasonic Eneloop, Varta. На подходе аккумуляторы Turnigy, Космос, Camelion.



Пока не протестированы все аккумуляторы, я не буду приводить подробные результаты, но некоторыми интересными выводами уже могу поделиться.

Читать дальше →
Всего голосов 48: ↑47 и ↓1 +46
Комментарии 67

Учёные собирают деньги на изучение действия LSD

Время на прочтение 2 мин
Количество просмотров 26K
Научно-популярное


Британские учёные из имперского колледжа Лондона и фонда Бекли вчера запустили краудфандинговую компанию. Сбор средств направлен на продолжение их исследования работы мозга – в частности, того, как на его работу влияет LSD. Кампания продлится 45 дней, за которые учёные надеются собрать £25'000 (порядка 2'400'000 руб).

Работа человеческого сознания – один из интереснейших аспектов науки. Учёные давно пытаются разобраться в том, как работает мозг, и в частности, как на работу сознания влияют различные вещества. LSD – одно из самых мощных психоактивных веществ, и его влияние на мозг настолько же интересно учёным, насколько оно слабо изучено.
Читать дальше →
Всего голосов 40: ↑37 и ↓3 +34
Комментарии 75

Учёные установили, что волшебные грибочки меняют сознание с первого раза — и, похоже, навсегда

Время на прочтение 3 мин
Количество просмотров 142K
Научно-популярное Мозг Здоровье
image

Медики из Университетской медицинской школы им. Джонса Хопкинса (США) выяснили, что после первого приёма на сознание влияют не только LSD, но и «волшебные грибочки», действующее вещество у которых – псилоцибин. Это открытие стало для учёных неожиданным по нескольким причинам.

Кроме того, что ранее не было известно о таком сильном и мгновенном влиянии псилоцибина на психику человека, само заметное изменение психологического портрета – для взрослого человека вещь довольно редкая. У психологов принято считать, что характер человека заканчивает формироваться в 25-30 лет, после чего остаётся практически неизменным. Одно недавнее исследование даже утверждает, что основные персональные черты обнаруживаются уже у первоклассников.

«Это одно из первых исследований, доказывающих, что характер взрослого человека можно сильно изменить»,- утверждает Кэтрин Маклин [Katherine MacLean], кандидат наук из указанного университета.

При этом учёные склонны полагать, что характер меняет не сам наркотик, а ощущения и мистические переживания, которые он вызывает. Сильные, трансцендентные ощущения не кажутся людям менее яркими оттого, что они вызываются химическим раздражителем. Опрошенные учёными люди утверждают, что приём упомянутых препаратов стал одним из самых сильных ощущений в их жизни.
Читать дальше →
Всего голосов 46: ↑42 и ↓4 +38
Комментарии 300

Разгоняем обработку событий до 1,6 миллионов в секунду

Время на прочтение 17 мин
Количество просмотров 26K
Блог компании Badoo Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *Разработка веб-сайтов *Big Data *
Когда участники HighLoad++ пришли на доклад Александра Крашенинникова, они надеялись услышать про обработку 1 600 000 событий в секунду. Ожидания не оправдались… Потому что во время подготовки к выступлению эта цифра улетела до 1 800 000 — так, на HighLoad++ реальность превосходит ожидания.

3 года назад Александр рассказывал, как в Badoo построили масштабируемую систему near-realtime обработки событий. С тех пор она эволюционировала, в процессе росли объёмы, приходилось решать задачи масштабирования и отказоустойчивости, а в определённый момент потребовались радикальные меры — смена технологического стека.



Из расшифровки вы узнаете, как в Badoo заменили связку Spark + Hadoop на ClickHouse, в 3 раза сэкономили железо и увеличили нагрузку в 6 раз, зачем и какими средствами собирать статистику в проекте, и что с этими данными потом делать.



О спикере: Александр Крашенинников (alexkrash) — Head of Data Engineering в Badoo. Занимается BI-инфраструктурой, масштабированием под нагрузки, руководит командами, которые строят инфраструктуру обработки данных. Обожает всё распределённое: Hadoop, Spark, ClickHouse. Уверен, что классные распределенные системы можно готовить из OpenSource.
Всего голосов 63: ↑60 и ↓3 +57
Комментарии 14

HighLoad++, Юрий Насретдинов (ВКонтакте): как VK вставляет данные в ClickHouse с десятков тысяч серверов

Время на прочтение 18 мин
Количество просмотров 8K
Блог компании ua-hosting.company IT-инфраструктура *Серверная оптимизация *Администрирование баз данных *Big Data *
Туториал
HighLoad++ Moscow 2018, зал «Конгресс-холл». 9 ноября, 15:00

Тезисы и презентация: http://www.highload.ru/moscow/2018/abstracts/4066

Юрий Насретдинов (ВКонтакте): в докладе будет рассказано об опыте внедрения ClickHouse в нашей компании – для чего он нам нужен, сколько мы храним данных, как их пишем и так далее.



Дополнительные материалы: использование Clickhouse в качестве замены ELK, Big Query и TimescaleDB
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 6

Поразрядная сортировка LSD (Radix Sort)

Время на прочтение 3 мин
Количество просмотров 25K
Delphi *Алгоритмы *


В последнее время публикуется множество статей посвященных различным алгоритмам сортировки и их сравнению, решил внести и свои пять копеек.

Хочу рассказать про свой излюбленный алгоритм для поразрядной сортировки LSD (least significant digit — сначала младший разряд) с подсчётом (Radix Sort). Классический алгоритм был несколько переосмыслен автором в сторону некоторых оптимизаций в пользу ускорения и простоты.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 11