Разблокируйте мощь DataGemma AI от Google: Ваш идеальный статистический помощник

Home Новости ИИ Разблокируйте мощь DataGemma AI от Google: Ваш идеальный статистический помощник

Updated on сентябрь 12 2024

Google расширяет свою линейку моделей искусственного интеллекта, чтобы решать важные задачи в этой области. Сегодня компания представила DataGemma — набор открытых моделей с настройкой на инструкции, предназначенный для снижения количества галлюцинаций, когда большие языковые модели (LLM) генерируют неточные ответы, особенно в статистических запросах.

Эти новые модели, доступные на платформе Hugging Face для исследований и учебных целей, расширяют существующую семью Gemma, используя обширные данные из реального мира с платформы Data Commons Google. Эта публичная платформа содержит открытый граф знаний, состоящий более чем из 240 миллиардов точек данных, собранных из надежных организаций в различных отраслях, включая экономику, науку и здоровье.

Иссечение фактических галлюцинаций

LLM произвели революцию в технологиях, управляя такими приложениями, как генерация кода и поддержка клиентов, а также оптимизируя использование ресурсов для предприятий. Несмотря на достижения, проблема галлюцинаций — особенно связанных с числовыми и статистическими данными — продолжает сохраняться.

По мнению исследователей Google, факторы, способствующие этому явлению, включают вероятностную природу выходных данных LLM и недостаточное фактическое покрытие в обучающих данных. Традиционные методы сопоставления сталкиваются с трудностями при обработке статистических запросов из-за разнообразных схем и форматов в публичных данных, что требует значительного контекста для точной интерпретации.

Чтобы устранить эти пробелы, исследователи интегрировали Data Commons, одну из крупнейших репозиторий нормализованных публичных статистических данных, с семейством языковых моделей Gemma, создав DataGemma.

Инновационные подходы для повышения точности

DataGemma использует два различных метода для улучшения фактической точности:

1. Генерация с параллельным извлечением (RIG): Этот подход интегрирует фактическую точность, сравнивая исходный вывод LLM с релевантной статистикой из Data Commons. Уточненная LLM генерирует описательные естественные языковые запросы, которые преобразуются в структурированные запросы данных, получая статистически значимые ответы с указанием источников.

2. Генерация с добавленным извлечением (RAG): Этот метод улучшает модели, используя оригинальные статистические вопросы для извлечения релевантных переменных и формирования естественных языковых запросов, направленных на Data Commons. Извлеченные данные, вместе с оригинальным вопросом, затем используются для запроса долгосрочной контекстной LLM (в данном случае, Gemini 1.5 Pro) для точной генерации ответов.

Обнадеживающие результаты тестирования

В предварительных тестах с 101 запросом модели DataGemma, дополненные RIG, улучшили фактическую точность от базового уровня на 5-17%, достигнув около 58% точности. Хотя RAG показала несколько худшие результаты, она все равно превзошла базовые модели.

DataGemma успешно ответила на 24-29% запросов с использованием статистических ответов из Data Commons, сохранив 99% точности с числовыми значениями. Тем не менее, она столкнулась с трудностями в проведении точных выводов из чисел в 6-20% случаев.

Обе техники RIG и RAG демонстрируют эффективность в повышении точности моделей для статистических запросов, особенно в контексте исследований и принятия решений. RIG предлагает скорость, в то время как RAG предоставляет более обширные данные, но зависит от доступности информации и способности обрабатывать большой контекст.

Google нацелена на продвижение исследований в этих методах через публичный релиз DataGemma с использованием RIG и RAG. Компания заявила: "Наши исследования продолжаются, и мы привержены усовершенствованию этих методологий, расширяя эту работу, обеспечивая строгие испытания и интеграция этой улучшенной функциональности в модели Gemma и Gemini поэтапно и ограниченно."

Понимание новых моделей OpenAI o1-Preview и o1-Mini: ключевые инсайты для разработчиков

Забудьте о GPT-5! OpenAI представляет новое семейство ИИ-моделей o1 с производительностью на уровне PhD.

Most people like

CleverSpinner

24.9K

В цифровую эпоху создание уникального и увлекательного контента является важным условием для того, чтобы выделиться в интернете. Инструменты для переписывания, рерайтинга и «очеловечивания» контента на базе ИИ могут преобразовать существующие статьи в новые, захватывающие материалы. Улучшая читаемость и добавляя человеческий аспект, эти инструменты не только повышают оригинальность вашего контента, но и улучшают его видимость в поисковых системах (SEO). Будь вы блогером, маркетологом или владельцем бизнеса, использование решений, основанных на ИИ, может облегчить процесс написания и эффективно привлечь внимание вашей аудитории.

Переписывание статей с помощью ИИ AI Content Detector

SubtitleBee

57.7K

Быстро и без усилий добавляйте подписи и субтитры к вашим видео онлайн всего за несколько минут. Идеально подходит для улучшения доступности и вовлеченности, наш инструмент позволяет легко охватить более широкую аудиторию.

видео субтитры Captions or Subtitle

Summarize.ing

580.6K

Узнайте, как максимально использовать свои знания и инсайты, сокращая время перед экраном. Освойте эффективные стратегии для быстрого усвоения информации из длинных видео, чтобы смотреть меньше и учиться более эффективно.

Инструмент YouTube AI YouTube Assistant

Storytell.ai

139.4K

Представляем платформу для повышения продуктивности на основе ИИ, специально разработанную для команд, которая революционизирует способ сотрудничества и управления проектами. Это инновационное решение повышает эффективность, упрощает рабочие процессы и способствует бесшовной коммуникации, позволяя вашей команде достичь большего вместе. Узнайте, как наша платформа трансформирует продуктивность с помощью интеллектуальной автоматизации и проницательной аналитики.

Платформа для повышения продуктивности на базе ИИ Other

Find AI tools in YBX