Разблокируйте мощь DataGemma AI от Google: Ваш идеальный статистический помощник

Home Новости ИИ Разблокируйте мощь DataGemma AI от Google: Ваш идеальный статистический помощник

Updated on сентябрь 12 2024

Google расширяет свою линейку моделей искусственного интеллекта, чтобы решать важные задачи в этой области. Сегодня компания представила DataGemma — набор открытых моделей с настройкой на инструкции, предназначенный для снижения количества галлюцинаций, когда большие языковые модели (LLM) генерируют неточные ответы, особенно в статистических запросах.

Эти новые модели, доступные на платформе Hugging Face для исследований и учебных целей, расширяют существующую семью Gemma, используя обширные данные из реального мира с платформы Data Commons Google. Эта публичная платформа содержит открытый граф знаний, состоящий более чем из 240 миллиардов точек данных, собранных из надежных организаций в различных отраслях, включая экономику, науку и здоровье.

Иссечение фактических галлюцинаций

LLM произвели революцию в технологиях, управляя такими приложениями, как генерация кода и поддержка клиентов, а также оптимизируя использование ресурсов для предприятий. Несмотря на достижения, проблема галлюцинаций — особенно связанных с числовыми и статистическими данными — продолжает сохраняться.

По мнению исследователей Google, факторы, способствующие этому явлению, включают вероятностную природу выходных данных LLM и недостаточное фактическое покрытие в обучающих данных. Традиционные методы сопоставления сталкиваются с трудностями при обработке статистических запросов из-за разнообразных схем и форматов в публичных данных, что требует значительного контекста для точной интерпретации.

Чтобы устранить эти пробелы, исследователи интегрировали Data Commons, одну из крупнейших репозиторий нормализованных публичных статистических данных, с семейством языковых моделей Gemma, создав DataGemma.

Инновационные подходы для повышения точности

DataGemma использует два различных метода для улучшения фактической точности:

1. Генерация с параллельным извлечением (RIG): Этот подход интегрирует фактическую точность, сравнивая исходный вывод LLM с релевантной статистикой из Data Commons. Уточненная LLM генерирует описательные естественные языковые запросы, которые преобразуются в структурированные запросы данных, получая статистически значимые ответы с указанием источников.

2. Генерация с добавленным извлечением (RAG): Этот метод улучшает модели, используя оригинальные статистические вопросы для извлечения релевантных переменных и формирования естественных языковых запросов, направленных на Data Commons. Извлеченные данные, вместе с оригинальным вопросом, затем используются для запроса долгосрочной контекстной LLM (в данном случае, Gemini 1.5 Pro) для точной генерации ответов.

Обнадеживающие результаты тестирования

В предварительных тестах с 101 запросом модели DataGemma, дополненные RIG, улучшили фактическую точность от базового уровня на 5-17%, достигнув около 58% точности. Хотя RAG показала несколько худшие результаты, она все равно превзошла базовые модели.

DataGemma успешно ответила на 24-29% запросов с использованием статистических ответов из Data Commons, сохранив 99% точности с числовыми значениями. Тем не менее, она столкнулась с трудностями в проведении точных выводов из чисел в 6-20% случаев.

Обе техники RIG и RAG демонстрируют эффективность в повышении точности моделей для статистических запросов, особенно в контексте исследований и принятия решений. RIG предлагает скорость, в то время как RAG предоставляет более обширные данные, но зависит от доступности информации и способности обрабатывать большой контекст.

Google нацелена на продвижение исследований в этих методах через публичный релиз DataGemma с использованием RIG и RAG. Компания заявила: "Наши исследования продолжаются, и мы привержены усовершенствованию этих методологий, расширяя эту работу, обеспечивая строгие испытания и интеграция этой улучшенной функциональности в модели Gemma и Gemini поэтапно и ограниченно."

Понимание новых моделей OpenAI o1-Preview и o1-Mini: ключевые инсайты для разработчиков

Забудьте о GPT-5! OpenAI представляет новое семейство ИИ-моделей o1 с производительностью на уровне PhD.

Most people like

Concerty

390K

Исследуйте яркий мир живой музыки с нашим полным гидом по билетам, фестивалям и сетлистам. Узнайте, как забронировать место на самых горячих мероприятиях, насладиться новейшими выступлениями и следить за сетлистами ваших любимых исполнителей. Присоединяйтесь к нам, чтобы отпраздновать электрифицирующую атмосферу живых концертов и незабываемые переживания, которые они приносят!

концерты Other

ImagetoCartoon

56.3K

Превратите свои фотографии в яркие мультяшные аватары с помощью ImagetoCartoon легко и без усилий!

изображение в мультфильм AI Anime & Cartoon Generator

AI Signals

106K

AI-Signals — это продвинутый индикатор торговли на основе ИИ, предназначенный для предоставления торговых сигналов в реальном времени для акций, валютного рынка и криптовалют. Благодаря передовым технологиям AI-Signals позволяет трейдерам принимать обоснованные инвестиционные решения с уверенностью.

Индикатор на базе ИИ AI Trading Bot Assistant

zhida.ai

zhida.ai - это поисковый продукт с искусственным интеллектом, запущенный компанией Zhihu, цель которого - помочь пользователям «познавать мир через вопросы». Пользователи могут задавать любые вопросы в режиме онлайн и получать сгенерированные ответы.

Ответы на вопросы AI Search Engine

Find AI tools in YBX