Привет! Меня зовут Лариса Дансарунова, я бизнес-аналитик с 9-летним опытом и наставница на курсе «Бизнес-аналитик» в Яндекс Практикуме. Сегодня расскажу, какие есть варианты развития карьеры, а также — с чего начать путь в профессию.
Ведущий разработчик.
Язык твой — друг твой. Дообучаем языковые модели, собираем корпуса, делаем книги на малых языках
Всем привет. Хочу поделиться с сообществом небольшим опытом и наработками для исследования и развития языков, в особенности малых. Для большинства таких языков нет ни систем машинного перевода, ни виртуальных ассистентов, ни других языковых моделей. Основная проблема тут в недостатке данных и отсутствии большого интереса у крупных компаний в их развитии. Однако есть достаточно большое число людей, которым дорог их язык, и которые прикладывают усилия по их сохранению и развитию. Предлагаю обсудить это и познакомиться с инструментами, которые помогут не только собирать данные, но и делать на их основе полезные вещи, типа паралельных книг для изучения языка и систем машинного перевода.
Мы научимся:
1. Дообучать мультиязычные языковые модели, переводящие текст в векторное представление (эмбеддинги).
2. Использовать их для выравнивания текстов библиотекой lingtrain-aligner, извлекая из текстов параллельные корпуса.
3. Загружать датасеты и модели на HuggingFace, чтобы это было доступно всем.
4. Создавать из выравнивания параллельные книги для изучения языков.
5. Начнем собирать датасет инструкций на малых языках, чтобы языковые модели и виртуальные смогли понимать и общаться на чувашском, якутском, башкирском и других языках.
Все это в делается в виде открытых проектов и сообществ, поэтому приглашаю всех интересующихся изучением и поддержкой языков подключаться к нам, будет интересно.
Flowise: доступ к AI без кода
Привет, Хабр!
Как без единой строчки кода сделать чат-бот с доступом в сеть, или сервис для генерации изображений, анализа файлов, как встроить это всё в свой проект... Об этом и не только в обзоре Flowise.
Отец искусственного интеллекта. Марвин Мински
На свете не так много ученых, оставивших след не только в области компьютерных технологий, но также в массовой культуре и искусстве. Один из них — американский специалист по искусственному интеллекту, основоположник теории нейросетей, лауреат премии Тьюринга Марвин Ли Мински. Человек, который в 1963 году изобрел наголовный графический дисплей — прообраз Google Glass и Apple Vision Pro, сооснователь лаборатории искусственного интеллекта Массачусетского технологического института, автор нескольких книг и уникальных изобретений.
Как шашки изменили мир и позволили зародиться искусственному интеллекту
Когда человек играет в компьютерные игры, объясняя это саморазвитием, его снисходительно называют геймером. Когда в игры играет сам компьютер с той же самой целью, это называют машинным обучением и искусственным интеллектом. Логические настольные игры — действительно один из лучших способов «прокачки» самообучающихся систем. О том, кто придумал эту технологию, и причем здесь шашки, мы расскажем в сегодняшней статье.
Gemini ➜ OpenAI API прокси. Serverless
API Gemini бесплатен, но существует множество инструментов, которые работают исключительно с API OpenAI.
Проект openai-gemini даёт позволяет с лёгкостью создать персональный Gemini API-endpoint, совместимый с OpenAI, бесплатно.
Из науки в системный анализ
Вы тоже хотите в IT? В этой статье я поделюсь, как можно поменять сферу деятельности (или обрести новую сферу вдобавок к уже имеющейся) с науки на аналитику и присоединиться к увлекательному миру IT. Я расскажу про знания и навыки, которые пригодятся начинающему аналитику в первую очередь, а также ключевые ошибки.
Как подготовиться к публичному выступлению: работа с голосом
Чем больше ты становишься экспертом, тем чаще HR видят в тебе не просто коллегу… а спикера на конференциях и митапах. Ну потому что нельзя скрывать такое сокровище!
Одно дело — подготовить доклад, другое — с ним выступить (тяжкий вздох). Словить атаческую панику за 5 минут до триумфального появления перед публикой может даже самый титулованный специалист. И это ок.
Чтобы не переживать и с удовольствием делиться опытом с аудиторией, нужно просто настроиться на выступление: привести в порядок голос и нервы.
Накануне Митапа в Уфе 28 марта собрали в статье лайфхаки, которые помогут чувствовать себя перед аудиторией комфортнее, а звучать — увереннее.
Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python
Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.
GIL в Python: как его будут отключать
Python-разработчики, как правило, хорошо знают, что такое и для чего нужен GIL, вопросы по нему встречаются на большинстве собеседований, я и сам люблю их задавать. Но в CPython его скоро не будет. Да, core-разработчики CPython взяли курс на его удаление.
Разберём основные концепции того, как это будет произведено, с обзором соответствующего PEP 703.
«Душа молчит, хоть слышит всё вокруг»: как мы отучаем генеративные модели галлюцинировать
Вот так когда-то отвечала языковая модель, когда её просили привести пример стихотворения Бальмонта. Стихотворение с таким названием действительно есть, но начинается оно совсем не так.
К сожалению, генеративные модели могут галлюцинировать и выдумывать ответ. С таким мы боремся с помощью внешней информации.
Мы, Александр Кайгородов и Светлана Маргасова, обучаем генеративные модели в Яндексе. В этой статье мы расскажем, как заставить генеративные модели перестать придумывать несуществующие факты и как научиться находить эти ошибки, если они всё же случаются. Вы узнаете о том, как использовать внешнюю информацию, опираясь на которую мы можем выполнять как обусловленную генерацию (Retrieval Augmented Generation), так и фактологическую оценку имеющихся генераций (Fact-Check).
Что такое бизнес-требования и как с ними (не) бороться
Самые первые бизнес-требования были оставлены нашими предками в виде наскальной живописи, некоторые из которых добрались и до наших дней.
О том, как поменять подходы к написанию и пониманию бизнес-требований, чтобы результат от их реализации не был первобытным, расскажем в статье.
Бизнес-аналитик — мастер переговоров или как не сойти с ума, работая с требованиями
Друзья аналитики и ценители данных!
Меня зовут Виктория и я считаю, что аналитика - это не просто работа, а образ жизни. 10 лет погружения в мир данных научили меня выжимать инсайты из сухих цифр и видеть скрытые закономерности.
Сейчас я также руковожу отделом аналитики в IT-компании и выступаю в роли PM по внедрению BI-систем и построению DWH. Хочу начать делиться своим опытом, фактами и советами о том, как аналитику выстроить карьеру в этой сфере. В будущих статьях смогу подробно рассказать про Data Governance, поделиться опытом внедрения аналитических систем в различных компаниях и о том, как избежать типичных ошибок в аналитике.
Поехали разбираться вместе! Это моя первая статья на Хабре, и я рада поделиться своими знаниями и опытом с этим замечательным сообществом.
Бизнес-аналитик - мастер переговоров или как не сойти с ума, работая с требованиями
Представьте, что вы - бизнес-аналитик в консалтинговой компании, и перед вами стоит задача внедрить систему бизнес-аналитики (BI) для клиента, чей проект продаж страдает от разобщенности и несогласованности. Каждый отдел в этой компании считает ключевые показатели по-своему, используя свои методики и инструменты. Отдел продаж фокусируется на выручке и конверсиях, финансисты - на марже и затратах, а маркетологи оперируют такими метриками, как ROI, CAC и LTV.
И вот вы, вооруженный знаниями и опытом, приходите в эту компанию, чтобы навести порядок и создать единую версию правды с помощью BI-системы. Но это не просто техническая задача - вам предстоит стать дипломатом, переговорщиком и психологом в одном лице, чтобы найти общий язык со всеми заинтересованными сторонами и преодолеть их разногласия.
Нейросети в авторитете: вы не угадаете, сколько статей про нейронки и ML было в 2013 году на Хабре
Человечество не умеет жить без мечты. Глобальной, размашистой, такой — чтобы всё или ничего. Люди мечтали летать, как птицы, видеть, как звери, обгонять самых быстрых, создавать золото из олова, не болеть, лечить рак, чинить гены, жить вечно, летать в космос, дотронуться до Луны… Что-то получается, что-то не сразу, что-то — и вовсе нет. Вторую половину XX и пока весь XXI век человечество мечтает…научиться думать. Только не головами, которые как раз мечтают и воплощают мечты в конкретные решения, а железными мозгами: создать компьютеры, обрабатывающие информацию по тому же принципу, что и люди, а то и способные к абстракции и воображению, — обучить машину думать. Это весьма практичная мечта, которая по задумке должна сделать мир лучше и перевернуть медицину, психологию, культуру, искусство, инженерию и почти всё, где мы используем мысль и речь. Догадались, о чём речь?
Есть ли жизнь после Microsoft Teams и OneDrive?
Неизбежность отключения корпоративных пользователей от «облачных» продуктов Microsoft (и не только) стала очевидной последние два года. В текущий известный список продуктов, которые точно будут отключены, входят корпоративный мессенджер Teams, Office 365, облачное хранилище OneDrive и облако Azure.
Что делать? Можно перейти на отечественные облачные платформы и сервисы. Можно развернуть аналоги «уходящих» решений на собственной инфраструктуре. А можно арендовать выделенные сервера и создать инфраструктуру на них, или арендовать виртуальные сервера у хостинг-провайдеров с решениями быстрого развертывания. И об этом мы хотим поговорить с вами на примере Microsoft Teams и OneDrive.
Предварительная обработка данных для машинного обучения
В данной статье рассмотрим пример предобработки данных для дальнейшего исследования, например, использование метода кластеризации. Но для начала проясним, что из себя представляет машинное обучение и из каких этапов оно состоит.
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В данной статье разберемся что такое live coding интервью и как к нему готовиться.
Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.
Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение
Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).
В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.
В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.
Общее описание и реализация Word2Vec с помощью PyTorch
В данной статье даётся общее описание векторного представления вложений слов - модель word2vec
. Также рассматривается пример реализации модели word2vec
с использованием библиотеки PyTorch
. Приведена реализация как архитектуры skip-gram
так и CBOW
.
Две новых книги по Python от американского и российского авторов с промокодом
Привет, Хабр! Мы с почином — в блоге SSP SOFT стартует новая рубрика с анонсами выхода книг по программированию и операционным системам от издательства «БХВ-Петербург». Узнав об этой инициативе, издатель подарил всем читателям Хабра специальную скидку по промокоду, который вы найдете в тексте. Начнем рубрику, пожалуй, с пары новых книг про Python, которые вышли за последний месяц. Ревью книг — не копия текста с сайта издательства, а сугубо наше мнение, после прочтения.
Information
- Rating
- 3,080-th
- Location
- Минск, Минская обл., Беларусь
- Date of birth
- Registered
- Activity