Этот материал может быть полезен для COO, бизнес-аналитиков и топ-менеджеров компаний. Хотя в тексте присутствуют некоторые технические детали, надеюсь, они не будут слишком сложными. Цель материала: показать общую логику, которую мы использовали для извлечения и анализа данных.
User
Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex
Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).
Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:
- Добавилось много валидационных сетов из разных реальных доменов;
- На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
- Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
- Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
- Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов
Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта.
Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг. Приступим.
Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим.
DIY. Книги для всех, даром
Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.
Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.
Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.
Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.
Краткая история животных на обложках книг O’Reilly
Многоязыковая проверка орфографии для программ, использующих Hunspell
Не желая мириться с подобным неудобством для программ, использующих Hunspell словари (FireFox, Seamonkey, Miranda и др.) было принято решение создать автоматическую графическую утилиту для склейки нескольких языков, с возможностью дальнейшего использования полученных словарей.
Как я использовал BitTorrent Sync между офисами в РФ и Китае
Начало
Однажды в нашей компании наступил момент, когда встала необходимость обмениваться довольно тяжёлыми файлами — макетами продукции и упаковки (100-500 мегабайт) между офисами в Москве, Екатеринбурге и офисом в провинции Чжэцзян, КНР. Сложность была в катастрофически низкой скорости и надёжности связи РФ — Китай.
Когда я обратил внимание на проблему, царил полный разброд и шатание:
Подключение Multipath LUN СХД к Windows Server 2008 и Windows Server 2012
Подключение Multipath LUN СХД к Windows Server 2012
Multipath Input Output — это система многопутевого подключения блочных устройств. Требуется она для дублирования каналов подключения в целях повышения отказоустойчивости и производительности за счет того, что сервер может обращаться к устройству по нескольким каналам.
Вот так система видит LUN'ы без поддержки MPIO:
Если MPIO по какой-либо причине отключен, требуется включить. Для этого в «панели мониторинга» выбираем меню «управление» и пункт «добавить роли и компоненты».
В «мастере добавления ролей и компонентов» переходим к пункту «компоненты» и выбираем в списке «Multipath I/O», после чего нажимаем виртуальную кнопку «установить».
Бесплатный интернет для планшета от Билайн и МТС
Тариф Билайн «Интернет навсегда» даёт каждый месяц 200 мегабайт по всей России бесплатно и без абонентской платы.
Опция «МТС Планшет Mini» даёт бесплатно и без абонентской платы 17 мегабайт в день по всей России.
Защита подъезда методом организации разумного видеонаблюдения без консьержа
Вот только двери легко открываются при малейшей ошибке их производства, многие домофоны подвержены ключам-«вездеходам», консьержки часто спят и ничего не делают, а видеонаблюдение за которым никто не наблюдает превращается в бесполезную трату денег. В результате, почти все попытки улучшить общественную ситуацию зарезаются соседями методом слонёнка: «а нафига они нам нужны».
Однако, если включить мозги и подумать, на самом деле можно весьма небольшими вложениями получить очень эффективный результат.
Исконно русский вопрос, или «сервер для себя»
Или сравнение панелей управления хостингом, Вступление
В этой статье преследуется цель представить результаты объективного тестирования и анализа возможностей новой версии панели управления хостингом ISPmanager 5 Lite, о которой был объявлено 19 ноября 2013 года и сравнить ее возможности и удобство с двумя конкурентами (cPanel 11.44 и Plesk 12). Анализ панелей выполнен с точки зрения пользователя хостинга и удобства управления отдельным аккаунтом веб-хостинга. Я не считаю официальный релиз ISPmanager 5 Business ответом на мои насушные потребоности и решил собрать известные факты воедино. Я работаю с хостинговами компаниями (именно не как пользователь) с 2008 г. и у меня есть с чем сравнить.
Закат эры иконок от FatCow (выборка по цветам, топ 30 и прочая арифметика)
Итоговый выпуск иконок
Пять лет тому назад мы начали рисовать набор пиксельных иконок. Мода была на Vista. К концу 2013 года набор FatCow дорос до 3926 иконок. Это на 356 иконок больше, чем у Fugue, который весной того же года остановился на цифре 3570 (размер: 16х16). 352 иконки из бонуса Fugue (32х32 и 24х24) не в счет (как повторы). Но дальнейшее развитие иконок FatCow заморожено. Увы, мы не увидим круглой цифры из 4000 иконок (работы осталось на месяц), не увидим выпуска для ретины дополнительных размеров уже существующих иконок, разработки прекращены из-за отсутствия бюджета. Успели сделать пробу для retina и только.
Да, это не мега-фото-реалистичные-3D еще-одни-никому-не-нужные-иконки, это старая пиксельная школа. Где в почете был маленький размер и ограничение цветовой гаммы. Пройдут еще 10 лет… и, мы искренне верим, пиксельные иконки так и останутся в ходу. И если Вы ценитель древних видов искусства, дней зарождения компьютерной графики, пожалуйста за ширмой!
Построение кроссвордов с помощью языка Wolfram Language (Mathematica)
Перевод поста Майкла Тротта (Michael Trott), «Constructing Crossword Arrays Faster».
Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь.
В главе 6 моей книги Mathematica GuideBook for Programming, в качестве примера работы со списками я обсудил то, как построить массив, представляющий собой кроссворд. Хотя этот пример был хорош для демонстрации продвинутой работы со списками, тем не менее, использование списков не является оптимальным путем построения массива кроссворда. Сложность добавления нового слова в массив с уже размещенными n-1 словами составляла для этого алгоритма , таким образом общая сложность составления массива кроссворда из n слов становилась равной .
На протяжении последних нескольких лет, некоторые пользователи Mathematica спрашивали меня о том, можно ли построить более быстрый алгоритм. Ответ — да, можно. Если мы будем применять методы хеширования, то мы сможем быстро и за одно и тоже время проверять, можно ли использовать некоторый элемент массива и, следовательно, мы сможем снизить общую сложность алгоритма с до , что для кроссвордов из тысяч слов даст большую разницу во времени, затрачиваемом на вычисления. Этот алгоритм реализован в данной статье. Когда мы размещаем отдельные буквы слова в некоторой прямоугольной таблице необходимо рассматривать множество различных ситуаций. В результате в статье содержится большее, чем обычно, количество процедурного кода. Хотя некоторые определения функций несколько длинные, благодаря комментариям между шагами вычислений и ветками решений код должен быть довольно простым для чтения и понимания.
Как я покупал 3D-принтер
Данный пост является своеобразным предостережением тем, кто задумал купить 3D-принтер. Этот, казалось бы, простой процесс для цивилизованных стран, может вдребезги разлететься о суровые Российские реалии. Я, сам того не ожидая, сумел пройтись по всем возможным граблям, и на собственной шкуре убедился, как же в действительности обстоят дела по «ту сторону экрана». Итак, приглашаю Вас поучиться на чужих ошибках.
Запуск облачной печати
Еще в апреле 2010 года мы анонсировали бета версию службы Google Cloud Print, которая позволяет печатать из любого приложения, на любом устройстве, операционной системе или браузере. Сегодня мы очень рады объявить о запуске бета-версии службы Google Cloud Print для мобильных устройств, которую мы будем постепенно развертывать в течение нескольких дней.
Исследование факторов ранжирования в Яндексе
Начнем с внешних факторов. Критерии выбора внешних ссылок:
Джентльменский набор интернет шоппера: Shipito + ProfitBid + TrackChecker
Однако много препятствий чинит православным Россиянам виртуальный шоппинг, самое трудное из которых — страна проживания. К сожалению наша отчизна классифицируется большинством онлайн магазинов как страна третьего мира, не иначе, а поэтому и прямой доставки туда нам не видать.
Выходом из этого казуса, очевидно, является mail forwarding сервис.
Итак в данной статье речь пойдет о
- нововведениях в сервисе-посреднике — Shipito
- Сервисе, который возвращает процент с покупок на ebay.com/ca/uk, Amazon, Skype, GoDaddy — Profitbid
- Наконец-то созданном юзером MetalFan отличном софте (полностью бесплатном) для отслеживания почтовых отправлений всех почтовый сервисов TrackChecker
- Небольшом списке интересных магазинов
PS. В топике присутствуют мои реферральные ссылки.
PS2. Трафик.
Скорость имеет значение. Теперь официально
Битва за трудочасы. Как надо считать зарплату?
История «успеха».
Не столь давно я работал в одной крупной компании, где было принято расчитывать заработную плату сотрудников, исходя из отработанных ими трудочасов. Данная схема применялась ко всем без исключения: к программистам, инженерам, аналитикам, менеджерам по рекламе, техническим писателям, юристам и т.п. Для учета трудочасов даже применялся специальный (и довольно-таки неудобный) проджект-сервер.
Казалось бы — простая и хорошая схема: рассчитать примерный фонд зарплаты (а это расходная статья) можно на год вперёд.
Но, как и следовало ожидать, в отчетах все сотрудники исправно отрабатывали 40 часов в неделю. Всегда. Все.
Было несколько «партизан», которые иногда забывали там отмечаться, но, в целом, в отчетах царила райская идиллия.
Наконец кому-то из руководства пришла в голову долгожданная мысль, что так быть не может…
С днем рождения, Джулиан Ассанж
В детстве он сменил 37 школ, а первый компьютер ему подарила мама в 16 лет.
Он вел несколько передач на канале Russia Today.
Некоторый малоизвестные выходки/достижения/события из жизни Ассанжа:
1) Джулиан изучал математику, физику и программирование в Central Queensland University, в 1994 и в Университете Мельбурна (2003-2006), но степень так и не получил.
2) Ассанжу не нравилось, то что студентов привлекают к работе над компьютерными проектами для военных и выступал против этого.
3) В 1987 году Джулиан начал «хакать» под ником Mendax, что означает «благородно неправдивый».
4) Он организовал хакерскую группу «International Subversives», вместе с двумя хакерами под псевдонимами «Trax» и «Prime Suspect».
5) Он и его группа взламывали Пентагон, ВМС США, правительственные организации, такие как NASA, MILNET и Australia’s Overseas Telecommunications Commission; частные компании Citibank, Lockheed Martin, Motorola, Panasonic и Xerox; и учебные заведения, такие как Australian National University, La Trobe University и Stanford Research Institute.
Information
- Rating
- Does not participate
- Location
- Новосибирск, Новосибирская обл., Россия
- Date of birth
- Registered
- Activity