В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.
User
Инструменты для решения NER-задач для русского языка
Зачастую приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Какие инструменты могут помочь нам в решении данной задачи для русского языка?
Пожалуй, первое что приходит в голову Data Scientist’у, когда речь идет о NLP или конкретно NER-задачах — это проекты DeepPavlov. Немного углубимся в данную тему, разберем все по порядку.
DeepPavlov — это фреймворк (open source), который помогает в разработке различных голосовых ботов, соответственно, решая различные NLP задачи.
На вход подается непредобработанный (регистры, знаки и т.д. сохранены) текст, а на выходе мы хотим увидеть, так называемые, спаны — фрагменты текста, с которыми уже можно работать (например, отнести к определенной категории).
Регрессия к среднему: введение с примерами
Регрессия к среднему – это распространенный статистический феномен, который может наводить нас на ошибочные выводы, когда мы наблюдаем, что происходит в мире. Умение распознавать, в каких случаях мы имеем дело именно с регрессией к среднему, помогает избежать ложной интерпретации данных и не замечать паттернов там, где их нет.
Автопроверка, крепкий «Эрл Грей» и 120 скриптов на Python
Знакомьтесь, это господин Вопросов. Он носит очки-половинки, как Дамблдор из книг о Гарри Поттере. Каждый день ровно в пять вечера пьёт крепкий чай — предпочитает «Эрл Грей». А ещё читает эссе Бродского в оригинале.
Господин Вопросов узнал, как в видеокурсе Слёрма «CI/CD на примере Gitlab CI» работает автопроверка, и собирается нам об этом рассказать. Зачем нам это знать? Ну во-первых, господину Вопросову не терпится рассказать — у него уже загорелись глаза и вспотели ладони. Он очень хочет поделиться этими невероятными знаниями. Во-вторых, там довольно интересная история, в которой замешаны 120 скриптов на Python и парочка функциональностей на Ruby. В-третьих, всегда приятно послушать умного человека и узнать что-то новое.
Так что просим вас, досточтимый господин Вопросов. Расскажите нам, пожалуйста, всё об автопроверке в мельчайших подробностях.
Парсинг исторических данных с Google Scholar используя Python
Как спарсить исторические данные 2017-2021 годов с Google Scholar и сохранить их в CSV, SQLite используя Python и SerpApi.
Автоматизация бизнеса с помощью AI: разбираем по шагам
В этой статье мы расскажем, как промышленный интернет вещей и искусственный интеллект (Industrial IoT + AI) позволяют автоматизировать традиционный бизнес — торговлю, сельское хозяйство, деревообработку, логистику, строительство, производство и другие предприятия, которые обычно не связаны с приставкой tech. Рассмотрим такие проекты изнутри, чтобы показать, какие проблемы они решают и каких результатов позволяют добиться.
Вышел Git 2.35. Самые важные подробности
Git и владение им — неотъемлемая часть профессионального программирования. К старту курса по Fullstack-разработке на Python делимся самыми важными деталями о новом релизе Git прямо из блога его разработчиков.
Я толерантен. Извините
Я восхищаюсь людьми, которые знают, как надо делать. Искренне завидую тем, кто без колебаний называет правильное решение. Очень хочу быть похожим на менеджеров, знающих лучшую систему мотивации. Не говоря уже о нормальных системах управления, принятых во всём мире подходах к разработке, и очевидно лучших методах управления проектами.
Но предел моих мечтаний, конечно – менеджер, который Всё Унифицировал. Тот, у которого Единый Процесс. Самый Лучший, разумеется. Или даже Единственно Верный.
Я тоже хотел стать таким, честно. Придумаю, бывало, какую-нибудь методику, или в книжке вычитаю – и леплю без разбора на всех. Начитаюсь или наслушаюсь, как надо проекты делать – и поскакали. Но со временем я понял, что не прав.
Не прав именно я, не дорос ещё. Рано мне уверенно утверждать, что правильно, а что нет. Я должен пройти Путь, который, наверняка, прошли программисты, тимлиды, проджекты и менеджеры моей мечты.
Пусть и поздновато, но я встал на этот Путь. Эволюции, экспериментов, разнообразия и конкуренции. Вряд ли ведь кто-то станет спорить, что только конкуренция способна выявить лучшие методы, подходы, стратегии и практики.
Ключевая проблема конкуренции – сравнение результатов в сопоставимых системах координат. Бывает ведь смотришь на людей – ну прям молодцы. Но стоит их выдернуть из привычного контекста, как вся «молодцеватость» куда-то исчезает. Программист, который был звездой на одном проекте, оказывается худшим звеном на другом. Тимлид, получивший престижную премию «Проект года», садится в лужу на следующем проекте. Контекст разный.
Думал-думал я, и придумал. Не надо притягивать за уши контекст. Надо устроить конкуренцию внутри одного контекста. Внутри одной компании. Даже – внутри одного отдела. Благо, у меня есть отдел.
Так я решил, что у меня будет Толерантность. Я хочу увидеть в максимально достоверном сравнении, какие методы, подходы, системы, мотивация, отношение дают наилучший результат.
Единственное, чего не хватает в традиционном понятии толерантности – это скорости. Как ни крути, толерантность – синоним терпимости, категории весьма пассивной. Чтобы сравнить два любых подхода в условиях толерантности, надо дождаться, пока эти подходы сами, эволюционно созреют внутри среды. Это хорошо и правильно, но никакой жизни не хватит, чтобы дождаться.
Поэтому я стал эволюцию подпинывать. Как? Ну, как учёные в лабораториях с крысами. Проактивно, по собственному желанию.
«Cynic Solutions Ltd» или как удержать разработчика в компании
Хотите, чтобы ваши разработчики не валили с работы? Хотите научиться их суперски удерживать?
Вот вам циничное мнение разработчика.
Удаление GIL из Python: заметки со встречи Python Core и Сэма Гросса
Во время ежегодного спринта разработчиков ядра Python мы встретились с Сэмом Гроссом, автором nogil — fork в Python 3.9, который удаляет GIL. В статье — итоги встречи.
Среди вопросов, на которые ответил Сэм:
— Какова вероятность того, что nogil в итоге окажется нежизнеспособным для включения в CPython?
— Как вы планируете синхронизировать свою работу с main? Есть ли какие-то советы по порядку коммитов?
— Включение nogil во время запуска — это долгосрочная опция, или только на переходное время?
— В финале предполагается исключительно nogil, без вариантов вернуть GIL обратно?
— Что вы думаете о параллельном запуске нескольких интерпретаторов Python с одним GIL для каждого?
И многие другие. Полный список приведен в начале статьи.
Нейросети (на примере трансформеров) на фондовом рынке. Коды, «граали», финансовый результат
Пост в помощь тем кто интересуется практической пользой от применения нейросетей на фондовом рынке.
MS SQL + Telegram =?
Привет, Хабр!
Мы с моим приятелем fedoref занимаемся разработкой и поддержкой решений на MS SQL.
Одной из наших проблем при работе с MS SQL было то, что без MS SQL Management Studio невозможно что-то сделать или проверить. А значит — всегда нужен под рукой компьютер и VPN в сеть клиента (или что посложнее). Нас это не устраивало — мы не всегда сидим перед монитором, а ситуации ингода требуют оперативности, особенно когда дело касается высоких нагрузок в real-time системах. Поэтому мы решили сделать телеграм-бота SQL. (Поискали готовые варианты на Github, но, увы, не нашли того, что нам подошло бы).
Приглашаем на mini ai cups
Вот уже пять лет мы проводим russian ai cup, крупнейший в СНГ ежегодный чемпионат по искусственному интеллекту (а если проще — по написанию ботов для игр). И вот уже семь лет участники этого чемпионата просят либо оставлять песочницу работать весь год, либо запустить площадку, где можно было бы весь год играться в подобные же конкурсы, только чуть меньше размером.
Мы подумали и решили опробовать второй вариант — открыли новую площадку с мини-конкурсами, связанными с искусственным интеллектом и написанием ботов для игр. Встречайте новый для нас класс чемпионатов — http://aicups.ru/.
Многоликие функции Swift
Хотя у Objective-C синтаксис выглядит несколько странно, по сравнению с другими языками программирования, синтаксис метода — прост и понятен. Вот небольшой экскурс в прошлое:
+ (void)mySimpleMethod
{
// метод "класса"
// нет параметров
// нет возвращаемых значений
}
- (NSString *)myMethodNameWithParameter1:(NSString *)param1 parameter2:(NSNumber *)param2
{
// метод "экземпляра"
// первый параметр - типа NSString указатель,
// второй параметр - типа NSNumber указатель
// должен вернуть значение типа NSString указатель
return @"hello, world!";
}
В противоположность этому, синтаксис Swift выглядит в большинстве случаев также, как и в других языках программирования, но временами он может быть более сложным и запутанным, чем в Objective-C.
Прежде чем я продолжу, я хочу прояснить разницу между «методами» и «функциями» в Swift, так как я повсеместно буду использовать оба этих термина в этой статье. Вот определение «методов», данное в книге Apple «Swift Programming Language»:
Пара слов о работе на дому
Много воды лить не буду и перейду сразу к советам.
Эквализация гистограмм для повышения качества изображений
Дзен-мани и Яндекс.Деньги — автоматический учет финансов
Дзен-мани — онлайн-сервис, который позволяет вести учет наличных, карт, вкладов, кредитов и ПИФов, cоставлять финансовый план, планировать цели и получать рекомендации по их достижению.
Под катом скринкаст (как это работает в Дзен-мани) и наша PHP библиотека для интеграции с Яндекс.Деньгами.
Многослойный перцептрон (с примером на PHP)
Управление запасами для небольших интернет-магазинов
Вопрос управления запасами торгового предприятия является одним из базовых для повышения эффективности его работы. Обычно этот термин ассоциируется со сложными аналитическими моделями, которые составной частью входят в крупные компьютерные системы управления предприятием (ERP). Легко представить себе заумных аналитиков, работающих с гигабайтами накопленной статистики с какой-то отдаленной целью «повысить эффективность».
На самом деле, это так и есть. Но это не вся правда.
Руководство Эпл по проектированию интерфейсов
Внимание! Новая информация о переводе!
Здравствуй, подхабр переводов. Я хочу обратиться к тебе с просьбой. Суть просьбы, как все уже догадались, в том, что нужна помощь в переводе. Переводим руководство Эпл по проектированию интерфейсов.1 Это полезный и важный документ для всех разработчиков и дизайнеров ПО. Да и не только ПО. В нём описываются как общеизвестные, так и не очень распространённые принципы, следование которым сделает дизайн, окружающий нас, на порядок лучше.
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity