Все потоки

Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

@dmitrifriend 24 авг в 20:55

Новый модуль Grammarly, AI Grader, использует открытые данные о преподавателе для предсказания оценки

2 мин

4.5K

Блог компании BotHubСофтИскусственный интеллектIT-компанииОткрытые данные *

Те времена, когда Grammarly был всего лишь безобидным проверяльщиком орфографии, давно канули в Лету. Теперь у Grammarly есть «агент‑оценщик» AI Grader, который обещает не только давать персонализированные комментарии к студенческим работам, но и предсказывать итоговую оценку. А делает он это, как гордо заявляет компания, в том числе за счёт «сбора общедоступной информации о преподавателе».

Читать далее

+1

@dmitrifriend 24 авг в 16:55

Маск пообещал релиз Grok 3 в опенсорсе через полгода

2 мин

6.2K

Блог компании BotHubИскусственный интеллектМашинное обучение * IT-компанииОткрытые данные *

Илон Маск подтвердил, что Grok 3 — предпоследняя версия генеративного чат‑бота его компании xAI — будет выложена в открытый доступ примерно через шесть месяцев. Несколькими днями ранее xAI сделал открытым исходный код Grok 2.5.

Читать далее

+1

@dmitrifriend 24 авг в 14:10

Фреймворк BeyondWeb (Datology AI) перестраивает веб-документы для лучшего обучения моделей

3 мин

4.7K

Блог компании BotHubИскусственный интеллектМашинное обучение * Открытые данные * Исследования и прогнозы в IT *

Сегодня бюджеты на обучение больших языковых моделей измеряются уже триллионами токенов, а достойные веб‑данные становятся всё труднее добыть. В Datology AI называют эту «стену данных» одним из главных вызовов и предлагают BeyondWeb как решение. Система заново структурирует уже существующие веб‑документы, делая их более ёмкими по содержанию, придаёт текстам обучающий тон и перестраивает их так, чтобы они лучше подходили для тренировок.

Читать далее

+1

@dmitrifriend 21 авг в 20:43

Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов

5 мин

5.6K

Блог компании BotHubИскусственный интеллектМашинное обучение * Открытые данные *

Исследовательская команда Seed Team (ByteDance) выпустила Seed‑OSS-36B на платформе Hugging Face.

Seed‑OSS-36B — это новая линейка открытых больших языковых моделей (LLM), созданных для сложных рассуждений и удобства работы разработчиков. Главное их отличие — удлинённый контекст, то есть объём информации, который модель способна воспринять и обработать за один сеанс.

Читать далее

+9

@dmitrifriend 18 авг в 19:06

Nvidia и Национальный научный фонд США создают открытые ИИ-модели для исследователей

2 мин

4.6K

Блог компании BotHubИскусственный интеллектIT-инфраструктура * Открытые данные * IT-компании

Национальный научный фонд США (ННФ) привлёк значительные инвестиции от государства и частного сектора для реализации проекта Open Multimodal AI Infrastructure (OMAI).

Ведёт его Институт Аллена по искусственному интеллекту (Ai2), а конечная цель — дать в распоряжение американских учёных передовые модели ИИ. Главная особенность OMAI — открытость создаваемых языковых моделей (LLM).

Читать далее

+1

@dmitrifriend 16 авг в 23:40

Самообучающаяся DINOv3✶ от Meta✶ обгоняет конкурентов в анализе изображений

3 мин

6.4K

Блог компании BotHubИскусственный интеллектМашинное обучение * Обработка изображений * Открытые данные *

Обычно обучение систем искусственного интеллекта для генерации или анализа изображений требует колоссальных объемов данных: фотографии, скажем, котов вручную снабжаются ярлыками — «кот», «идет», «полосатый». Но DINOv3✶ от Meta✶ пошла иным путем: она обучалась на 1,7 млрд изображений без каких‑либо меток и теперь умеет решать множество задач без человеческого вмешательства, нередко опережая специализированные модели.

Читать далее

+1

@dmitrifriend 15 авг в 18:38

Датасет Granary от Nvidia: миллион часов речи для обучения нового поколения ИИ

3 мин

5.7K

Блог компании BotHubИскусственный интеллектМашинное обучение * IT-компанииОткрытые данные *

Nvidia представила мощный набор открытых инструментов, который позволит разработчикам создавать высококачественные системы распознавания и синтеза речи для 25 европейских языков. Сердцем этой инициативы стала Granary — гигантская библиотека человеческой речи. В ней около миллиона часов аудиозаписей.

Чтобы извлечь максимум из этих данных, Nvidia предлагает две новые языковые AI‑модели: Canary-1b‑v2 и Parakeet‑tdt-0.6b‑v3.

Читать далее

+2

@Cloud4Y 19 мая в 14:07

Компания Proton готова покинуть Швейцарию в связи с возможными поправками в закон о правилах слежки

2 мин

5.7K

Блог компании Cloud4YОткрытые данные * Законодательство в ITХранение данных *

Генеральный директор Proton выступил против принятия поправок в закон о слежке. Он заявил о планах компании покинуть страну, если VPN-сервисы и приложения для обмена сообщениями будут вынуждены идентифицировать и хранить данные пользователей. Его позицию разделяют и другие участники рынка.

Читать далее

+27

@Innna_07 17 апр в 07:06

На вебинаре расскажем про управление данными юрлиц

2 мин

106

Блог компании HFLabsОткрытые данные * Управление продажами *

22 апреля в 18.00 на вебинаре поговорим о системе класса MDM, которая работает с данными юрлиц.

Почему это важно? Бизнес годами пестует корпоративных клиентов, но со временем данные неизбежно портятся — компании переезжают, меняют название, закрываются. Контактные лица увольняются, телефоны не отвечают, а письма не доходят. Из-за этого банки, страховые и телеком-операторы делают нецелевые предложения, упускают клиентов и теряют деньги. А самое главное — не понимают, кого так и не охватили и почему.

Как работает MDM для корпоративного бизнеса? Она уже содержит данные о юрлицах, ИП, связанных с ними физлицах, лицензиях, истории компании, структуре владения. Это сведения из 13 проверенных источников, включая ЕГРЮЛ, Росстат, основные государственные реестры и собственные справочники HFLabs.

Клиентские данные, которые уже есть в компании, MDM стандартизирует, обогащает и обновляет каждый день. Так система обеспечивает полный набор информации по юрлицам — это особенно важно для продаж, аналитики, комплаенса.

На вебинаре разберем, как MDM помогает:

— Сегментировать клиентов по сути, а не по ОКВЭД,
— Понимать, куда движется клиент: видеть все его данные и «среднюю температуру» по отрасли или региону,
— Отслеживать изменения в данных юрлиц,
— Разбираться в сложных структурах владения.

Покажем сценарии из практики — как данные из MDM-системы помогают находить прибыльные сегменты, не терять клиентов и просто лучше понимать ваш B2B-рынок.

Кому будет полезно? Тем, кто работает с клиентскими данными в крупных компаниях, B2B-маркетологам, владельцам продуктов, которые ищут сегменты роста, сейлам, работающим с юрлицами, аналитикам, специалистам по комплаенсу и риск-оценке.

Вебинар бесплатный, но для участия нужно зарегистрироваться. Начинаем ровно в 18.00, с рассказом без воды и ответами на вопросы уложимся за час.

Читать далее

0

@kos_ste 10 апр в 07:03

Что поменялось в клиентских данных за 20 лет? Смотрите в проекте HFLabs

1 мин

147

Блог компании HFLabsIT-компанииОткрытые данные *

11 апреля HFLabs отмечает 20 лет. В честь такой даты запустили проект c главными событиями в сфере персональных данных, которые случились за это время.

Вместе с Валерой — это наш маскот и по совместительству внутренний чат-бот —предлагаем вспомнить, как за два десятилетия изменились законодательство, работа с клиентскими данными и технологии.

Что есть на сайте проекта:

• Главные изменения в сфере персональных данных за 20 лет, которые коснулись каждого,

• Важные вехи, которые позволили трансформировать клиентский сервис,

• Тренды в управлении клиентскими данными в IT, на законодательном уровне и в бизнесе.

Заходите смотреть, вспоминать и ностальгировать;)

Кстати, о том, как и чем живет HFLabs, мы пишем в телеграм-канале «Лабсовая», а о новости в сфере клиентских данных рассказываем вот тут.

Читать далее

+2

@Innna_07 27 фев в 07:05

На вебинаре расскажем, как страховая компания автоматизировала комплаенс и процессы ПОД/ФТ

1 мин

179

Блог компании HFLabsОткрытые данные *

6 марта в 18.00 проведем онлайн-разбор кейса и расскажем, как компания «Сбербанк страхование жизни» автоматизировала проверки контрагентов, создание анкет физ- и юрлиц, авторасчет уровней риска, отчетность.

Пройдёмся по шагам:
— С какими вызовами в работе с ПОД/ФТ столкнулась команда одной из крупнейших российских страховых,
— Как выбирали вендора,
— Какие результаты принесло внедрение продукта от отечественного вендора,
— Как подготовиться ко внедрению и избежать типичных ошибок.

Кому будет интересно? Руководителям направлений комплаенса и ПОД/ФТ, CIO, IT-специалистам, аналитикам.

Чтобы принять участие в вебинаре, нужно зарегистрироваться по ссылке. Надоедать напоминаниями не будем, один раз пришлем ссылку на подключение. Вебинар продлится час.

Читать далее

0

@RSHB_tsyfra 13 фев в 14:45

RSHB DA Meetup: Качество данных и Data Vault 2.0 в действии

2 мин

249

Блог компании РСХБ.Цифра (Россельхозбанк)Big Data * Открытые данные * Базы данных *

27 февраля в 18:00 онлайн и офлайн в Москве состоится митап от РСХБ.цифра для дата-аналитиков и инженеров данных RSHB DA Meetup: Качество данных и Data Vault 2.0 в действии. Приглашаем на новый митап всех, кто занимается большими данными и следит за их качеством. Вас ждут три доклада от руководителей дата-направлений в разных компаниях — про песочницу данных, методологию Data Vault 2.0 и качество данных в Self-Service.

Зарегистрироваться на митап

+1

@denis-19 6 янв в 07:06

Разработчик представил проект Killed by LLM, где опубликованы бенчмарки, которые были побеждены прогрессом ИИ

1 мин

4.2K

Искусственный интеллектМашинное обучение * Открытые данные * Open source * Тестирование веб-сервисов *

Разработчик Роб Копель представил проект Killed by LLM. Это мемориал бенчмаркам, коллекциям задач и наборам данных, которые были побеждены прогрессом ИИ. Исходный код этого решения написан на HTML и TypeScript и опубликован на GitHub под лицензией MIT.

Читать далее

+7

@Travis_Macrif 13 дек 2024 в 08:46

Microsoft и OpenAI объявили о поддержке Инициативы по институциональным данным

2 мин

552

Открытые данные * Open source * Big Data * Искусственный интеллектМашинное обучение *

Microsoft и OpenAI объявили о поддержке Инициативы по институциональным данным (Institutional Data Initiative, IDI), запущенной Библиотекой Гарвардского университета. В рамках исследовательской инициативы американский университет будет работать с библиотеками и музеями, правительственными учреждениями и другими организациями для публикации их коллекций в виде данных.

Читать далее

+3

@kr23_ka 25 ноя 2024 в 18:15

Anthropic предлагает новый способ подключения данных к чат-ботам с ИИ

2 мин

2.4K

Блог компании BotHubИскусственный интеллектМашинное обучение * Открытые данные * Хранение данных *

Anthropic представила Model Context Protocol (MCP) — новый стандарт, призванный упростить подключение ИИ-ассистентов к различным системам данных. Этот стандарт, открытый для использования, обещает помочь ИИ-моделям предоставлять более точные и релевантные ответы, благодаря доступу к данным из различных источников.

Читать далее

+5

@maybe_elf 14 ноя 2024 в 08:37

OpenAI, Google и Anthropic столкнулись с проблемами при создании более сложных моделей

1 мин

4.1K

Искусственный интеллектМашинное обучение * Открытые данные *

По данным Bloomberg, три ведущих разработчика моделей искусственного интеллекта, в том числе OpenAI, Google и Anthropic, пытаются решить проблемы производительности, из-за которых нельзя создавать всё более сложные ИИ-модели.

Читать далее

+8

@kr23_ka 28 окт 2024 в 22:57

OSI выпустила официальное определение «открытого» ИИ, и некоторые модели не соответствуют этому определению

3 мин

986

Блог компании BotHubИскусственный интеллектМашинное обучение * Открытые данные * IT-компании

Инициатива открытого исходного кода (OSI) выпустила официальное определение «открытого» искусственного интеллекта, что может привести к конфликту с технологическими гигантами, такими как Meta*, чьи модели не соответствуют новым требованиям.

Читать далее

0

@kr23_ka 23 окт 2024 в 16:56

Google представила технологию SynthID Text, которая позволяет добавлять водяные знаки и распознавать текст, созданный ИИ

2 мин

899

Блог компании BotHubИскусственный интеллектМашинное обучение * Открытые данные *

Google открыла доступ к технологии SynthID Text, которая позволяет добавлять водяные знаки в текст, сгенерированный ИИ, и распознавать его. Инструмент доступен для скачивания на платформе Hugging Face, а также через обновлённый Responsible GenAI Toolkit. Компания объявила, что исходный код SynthID Text теперь открыт для всех разработчиков и компаний, чтобы они могли лучше идентифицировать ИИ-контент.

Читать далее

0

@maybe_elf 14 окт 2024 в 05:47

На восстановление Internet Archive уйдёт несколько дней

1 мин

5.6K

Информационная безопасность * Открытые данные *

На прошлой неделе хакеры взломали сервис Wayback Machine, принадлежащий некоммерческой организации Internet Archive. Он позволяет пользователям просматривать сохранённые страницы веб-сайтов. Сервис до сих пор недоступен.

Читать далее

+12

@Travis_Macrif 10 окт 2024 в 09:49

Злоумышленник украл базу данных аутентификации пользователей Internet Archive с 31 млн уникальных записей

2 мин

3K

Информационная безопасность * Открытые данные *

Internet Archive пострадал от утечки данных — злоумышленник взломал сайт Wayback Machine (archive.org) и украл базу данных аутентификации пользователей, содержащую 31 млн уникальных записей.

Читать далее

+3

1