Articles / Bookmarks / Profile of Zoolander / Habr

@Zoolander

Пользователь

ProfileArticles13PostsNewsComments809

alexanderkuk Aug 24 2020 at 18:07

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

34 min

108K

Data Mining*Natural Language Processing*Python*Artificial IntelligenceMachine learning*

Technotext 2020

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

+53

tehnoteh Aug 20 2020 at 08:29

Юмор для конструкторов

1 min

8.6K

Lumber room

Вот такую Микросхемку, проводницу в мир радиоэлектроники, придумали у нас на заводе. Получился забавный, но познавательный, комикс о том, как делается печатная плата.

Прошу всерьез не воспринимать, ничьи чувства оскорбить не хотели. Сделали, чтобы немного отвлечься от серьезных рабочих процессов.

-8

PatientZero Aug 19 2020 at 12:29

Стартап, который помог Microsoft в создании мира Flight Simulator

6 min

21K

Game development*Machine learning*Games and game consolesGeoinformation services*

Translation

Новый Flight Simulator компании Microsoft — это чудо технологий, задающее новую планку стандартов в жанре. Для воссоздания мира, кажущегося реальным и живым, содержащим миллиарды зданий, расположенных в правильных местах, Microsoft и Asobo Studios использовали труд многих партнёров.

Один из них — небольшой австрийский стартап Blackshark.ai из города Граца, который силами всего около 50 сотрудников смог воссоздать каждый город мира при помощи искусственного интеллекта и огромных облачных вычислительных ресурсов.

Перед выпуском нового Flight Simulator мы встретились с одним из основателей и генеральным директором Blackshark Майклом Патцем, чтобы обсудить сотрудничество с Microsoft и дальнейшие перспективы развития его компании.

+60

frontwise Aug 19 2020 at 14:24

Как мы делали дрон, который не боится упасть, и что общего между архитектурой, роботом-манипулятором и коптером

8 min

16K

Город Иннополис corporate blogRoboticsPopular scienceMulticopters

Technotext 2020

У нас было десять разбитых дронов за год, тестовые полеты два раза в день, три кандидата технических наук в команде, прототип из палочек для суши и желание найти способ больше не бить дроны.

Очень спорно, очень необычно, очень странно, но работает! На стыке архитектуры, коллаборативной робототехники и беспилотных летательных аппаратов. Представляем: Tensodrone™.

Tensodrone (Тенсодрон) — беспилотный летательный аппарат (БПЛА) мультироторного типа новой конструкции с защитой от столкновений, сделанный по принципу тенсегрити. Такой подход позволяет повысить устойчивость к ударам при меньшей массе, совместив защитную клетку и конструкцию несущей рамы.

Проект является ярким примером взаимодействия различных команд Центра компетенций НТИ по направлению «Технологии компонентов робототехники и мехатроники» на базе Университета Иннополис.

+33

eduard_abdulkin Aug 18 2020 at 11:03

Как мы первыми в мире роботизируем кормоуборочные комбайны

5 min

26K

Cognitive Pilot corporate blogImage processing*RoboticsProject management*

Недавно мой коллега рассказал как мы роботизируем зерноуборочные комбайны и чему научились за этот сезон.

Начинается уборка кормовых культур и мы активно осваиваем кормоуборочную технику.
Кормоуборочный комбайн – технически более сложная и мощная машина. В связке с ним идут сразу несколько транспортных средств для сбора урожая (трактора с прицепом, грузовики, силосовозы). К работе на такой технике допускаются только опытные механизаторы, у которых за спиной несколько лет работы.

Работа на комбайне во время уборки кормовой кукурузы похожа на езду в машине в густом тумане, только вместо тумана на протяжении всего пути высокая зеленая стена из растений, из которой может выскочить кабан, столб или человек. Перемолов человека (история есть в моей прошлой статье), комбайнеры седеют и больше не могут работать. Кроме этого, в этом «зеленом тумане» надо суметь не врезаться в рядом едущий силосовоз, следить за точностью загрузки силоса с хоботом длиной до 7 метров, из которого вылетает по 50-60 кг силоса в секунду, и равномерно заполнять фургон, чтобы он не гонял полупустым туда сюда.

Фактически один комбайнёр работает за троих, следит за процессом уборки кукурузы (одно рабочее место), ведёт технику (второе рабочее место), загружает силосовоз (третье рабочее место). В итоге что-то страдает. Если плохо вести, можно сломать дорогую технику (минимальная цена кормоуборочного комбайна 16 млн рублей, есть модели и по 50 миллионов), поэтому обычно ухудшается качество уборки и загрузки.

Большую часть работы мы автоматизируем, сейчас расскажу какие сложности мы преодолеваем и что делаем.

+190

124

Seleditor Aug 16 2020 at 12:12

Создатели Pocket P.C. перевели аппаратное обеспечение девайса в open source

2 min

9.5K

Selectel corporate blogOpen source*GadgetsComputer hardware

Разработчики мини-компьютера Pocket Popcorn Computer (Pocket P.C.) заявили, что после поступления девайса в продажу под лицензией Creative Commons Attribution-ShareAlike 3.0 они опубликуют в открытом доступе файлы с дизайном печатных плат в формате PCB, схемы, модели для 3D-печати и сборочные инструкции.

Средства на разработку Pocket P.C получены благодаря успешной кампании по сбору средств на Kickstarter. В общей сложности было собрано $83 966, хотя организаторы поставили цель $50 000.

Читать дальше →

+15

DataArt Aug 13 2020 at 18:16

Рафаел Саргсян: «В лаборатории значились 23 человека, но все работы делали три–четыре сотрудника»

16 min

64K

DataArt corporate blogOld hardwareHistory of ITInterview

Инженер Рафаел Саргсян в советские годы работал в Ереванском НИИ математических машин и занимался созданием мобильных автоматизированных систем управления для военных объектов. В интервью музейному проекту DataArt он объясняет, почему в 1970-х технари котировались выше программистов, как работал режим секретности, зачем в институтах держали бездельников и ради чего он сам был готов месяцами пропадать в командировках.

Читать дальше →

+70

Kouki_RUS Aug 14 2020 at 16:31

GPT-3 в картинках: краткий обзор

3 min

34K

Machine learning*

Translation

Технологический мир охватил новый хайп — GPT-3.

Огромные языковые модели (вроде GPT-3) все больше удивляют нас своими возможностями. И хотя пока доверие к ним со стороны бизнеса недостаточно для того, чтобы представить их своим клиентам, эти модели демонстрируют те зачатки разума, которые позволят ускорить развитие автоматизации и возможностей «умных» компьютерных систем. Давайте снимем ауру таинственности с GPT-3 и узнаем, как она обучается и как работает.

Обученная языковая модель генерирует текст. Мы можем также отправить на вход модели какой-то текст и посмотреть, как изменится выход. Последний генерируется из того, что модель «выучила» во время периода обучения путем анализа больших объемов текста.

Читать дальше →

chernogorov_andrey Aug 11 2020 at 11:03

Наша огромная гордость: мирные советские роботы-комбайны убрали первый урожай в южных регионах

10 min

79K

Cognitive Pilot corporate blogImage processing*RoboticsProject management*

А ведь в прошлом году это делали senior-разработчики.

Возможно, вы помните, что мы говорили про то, как можно сильно улучшить работу обычного сельскохозяйственного комбайна, если использовать нейросетки для распознавания культур и препятствий и робота для автопилотирования. Всё это (кроме процессоров Nvidia и ещё части железа) — наша разработка. А радость в том, что в некоторых южных регионах страны закончилась уборочная страда, и наши комбайны показали себя лучше, чем ожидалось. Слава роботам!

В этом году мы поставили несколько сотен блоков из мощного графического ядра (для нейросетей), камер, гидравлических насосов или CAN-модулей для подруливания. Если в прошлом году агропилоты были в опытной эксплуатации, то сейчас речь идёт уже про серийные модели. И они справились.

Более того, они справились лучше, чем мы ждали. Кроме того, в релиз вошли далеко не все фичи. В релизе осталось, по сути, ядро, но одно только это позволило получить очень заметный экономический эффект.

Конечно, обошлось не без сюрпризов. Но давайте расскажу более конкретно, с числами и примерами.

+440

525

ru_vds Aug 6 2020 at 13:16

Не стоит пользоваться OFFSET и LIMIT в запросах с разбиением на страницы

5 min

56K

RUVDS.com corporate blogDatabase Administration*Website development*

Translation

Прошли те дни, когда не надо было беспокоиться об оптимизации производительности баз данных. Время не стоит на месте. Каждый новый бизнесмен из сферы высоких технологий хочет создать очередной Facebook, стремясь при этом собирать все данные, до которых может дотянуться. Эти данные нужны бизнесу для более качественного обучения моделей, которые помогают зарабатывать. В таких условиях программистам необходимо создавать такие API, которые позволяют быстро и надёжно работать с огромными объёмами информации.

Читать дальше →

+23

m1rko Jul 15 2020 at 09:53

Ты добавил всего две строчки. Почему на это ушло два дня?

3 min

64K

Programming*Designing and refactoring*IT systems testing*

Translation

На первый взгляд вопрос кажется разумным, но он делает некоторые ужасные предположения:

строки кода = усилие
строки кода = значение
все строки кода равны

Ничто из этого не является истинным.

Почему исправление, которое кажется таким простым, заняло два дня?

Читать дальше →

+147

225

NikolayZolotarev Jul 24 2020 at 05:51

Проблемы научных публикаций

16 min

46K

Popular scienceProfessional literature*

Technotext 2020

Для людей, не знакомых близко с научным процессом, может быть не очень понятна важность научных статей. Публикация — это не только распространение информации, но и верификация результатов исследований, а еще самая главная мера эффективности научной работы.

Важность публикаций для ученых описывается выражением «Publish or perish» — «Публикуйся или сдохни». Именно всевозможные библиометрические показатели являются основой для получения грантов, подъема по карьерной лестнице и, в конечном итоге, научного успеха. И поэтому проблемы научных публикаций негативно влияют на всю науку в целом.

Читать дальше →

+118

309

olegchir Jul 9 2020 at 11:02

Работаем в IntelliJ IDEA на слабом железе

7 min

51K

Programming*Usability*JavaScript*Java*C++*

Обнаружил секретный репозиторий на гитхабе JetBrains под названием Projector. Благодаря нему написал кусок кода в IntelliJ IDEA, запущенной на Android-планшете. Рассказываю, как это повторить.

Читать дальше →

+92

147

ru_vds Jul 3 2020 at 13:16

Стилизация контейнеров для содержимого веб-страниц

14 min

130K

RUVDS.com corporate blogCSS*Website development*

Translation

Содержимое веб-страниц должно быть размещено в некоем элементе, ширина которого, ограничивающая ширину содержимого, позволяет пользователям удобно работать с материалами сайта. Такие элементы называют «обёртками» (wrapper) или «контейнерами» (container). Стилизовать контейнеры средствами CSS можно по-разному. Некоторые способы работы с контейнерами ставят дизайнера перед необходимостью решать достаточно сложные задачи.

В этом материале я расскажу о контейнерах для содержимого веб-страниц: о том, как они работают, о том, как ими пользоваться, и о тех случаях, когда лучше обойтись без них. Обратите внимание на то, что я буду использовать здесь термины «обёртка» и «контейнер» как равнозначные.

Читать дальше →

+33

arasskosov Jul 9 2020 at 07:05

Майки, деньги, два торта: как мы разучились оценивать задачи

5 min

18K

Skyeng corporate blogAgile*Remote workProject management*Development Management*

Привет, Хабр! Меня зовут Артём и я тимлид в Skyeng. У моей команды разработки есть заказчик, он же продуктовый менеджер, он же просто Ваня. Ваня считает, что наша схема с оценкой задач не идеальна. Например, оценка в 2 дня ничего ему не даёт. Свою задачу на проде он увидит через неделю или дней 10. Или больше. Или меньше.

Читать дальше →

+34

ruvds Jul 9 2020 at 09:13

Гениальный алгоритм создания лабиринтов в игре Entombed, который до сих пор не могут разгадать

5 min

81K

RUVDS.com corporate blogGame development*Logic gamesGame design*Algorithms*

В 2017 двое ученых, канадец John Aycock и британка Tara Copplestone, опубликовали анализ классической игры Entombed для игровой приставки Atari 2600. Механика этой игры, выпущенной в 1982, крайне проста: археолог, управляемый игроком, должен пробраться по прокручивающимся снизу вверх катакомбам, уворачиваясь от зомби.

У Atari 2600 было всего 128 байт ОЗУ; тем не менее, кажущийся бесконечным лабиринт при каждом запуске был новым, т.е. генерировался в памяти. Как же программистам это удалось? Вот комментарий Стивена Сидли — программиста, 38 лет назад создавшего эту игру:

Основную часть генератора лабиринтов написал какой-то уволившийся торчок. Я связался с ним, чтобы выяснить, как его алгоритм работал. Он ответил, что придумал этот алгоритм, когда был вусмерть накурен и вдобавок пьян, что написал его сразу на ассемблере прежде чем вырубился, а потом даже близко не мог вспомнить, в чем его алгоритм состоял.

Читать дальше →

+106

ruvds Jun 26 2020 at 09:12

Как клеить по 13 девушек в час, используя машинное обучение и Tinder

7 min

153K

RUVDS.com corporate blogPython*Lifehacks for geeksMachine learning*Hosting

*Исключительно ради изучения Machine Learning, разумеется. Под немного недовольным взглядом любимой жены.

Наверное, нет столь простого до уровня спинно-мозговых рефлексов приложений, как Tinder. Для того чтобы им пользоваться достаточно одного пальца, чтобы свайпать и немного нейронов, чтобы выбирать девушек или мужчин, которые тебе больше нравятся. Идеальная реализация брутфорса в выборе пары.

Я решил, что это неплохой способ немного пощупать машинное обучение на новой видеокарте. Останется только объяснить жене, что мне не нужна новая женщина потолще, а я просто тренирую нейросети.

Читать дальше →

+134

139

Molechka Jun 25 2020 at 12:31

Что такое CI (Continuous Integration)

10 min

156K

DevOps*Website development*IT systems testing*Web services testing*

CI (Continuous Integration) — в дословном переводе «непрерывная интеграция». Имеется в виду интеграция отдельных кусочков кода приложения между собой. Чем чаще мы собираем код воедино и проверяем:

Собирается ли он?
Проходят ли автотесты?

Тем лучше! CI позволяет делать такие проверки автоматически. Он используется в продвинутых командах разработки, которые пишут не только код, но и автотесты. Его спрашивают на собеседованиях — хотя бы понимание того, что это такое. Да, даже у тестировщиков.

Поэтому я расскажу в статье о том, что это такое. Как CI устроен и чем он пригодится вашему проекту. Если вы больше любите видео-формат, можно посмотреть мой ролик на youtube на ту же тему.

Читать дальше →

+29

sveekey Jun 17 2020 at 09:22

Основы медитации, или как научиться ничего не делать с пользой

10 min

79K

EPAM corporate blogBiotechnologiesHealthLifehacks for geeksBrain

«Опять те же грабли», — сказала мне жена, когда я в очередной раз задерживался с работы. «Проект интересный, надо доделать», «Сейчас поднажму, потом будет легче», — мой типичный набор ответов на переработки.

С удалённой работой перегрузить себя ещё проще — ходить никуда не надо, никто не зовёт попить кофе, а список вариантов отдохнуть «снаружи» сократился.

В онлайне только и разговоров, как работать эффективно и сохранять баланс с отдыхом, но ведь гораздо проще включить YouTube, заесть чем-то сладеньким. Через час устать ещё больше: «Какого чёрта, я хотел посмотреть полезное видео, а смотрю как УАЗ наматывается на столб»?!

Я работаю гейм-дизайнером в EPAM и часто перерабатываю: вписываюсь в несколько проектов сразу, делаю домашний проект и пишу эту статью. Бывает, от количества задач голова начинает идти кругом, когда перечисление дел занимает больше времени, чем их решение. Чтобы оставаться на позитиве, YouTube с сахаром уже мало, и нужно что-то помощнее.

В этой статье я расскажу, почему медитация — лучшее средство от стресса и перегрузок.