Google расширяет свою линейку моделей искусственного интеллекта, чтобы решать важные задачи в этой области. Сегодня компания представила DataGemma — набор открытых моделей с настройкой на инструкции, предназначенный для снижения количества галлюцинаций, когда большие языковые модели (LLM) генерируют неточные ответы, особенно в статистических запросах.
Эти новые модели, доступные на платформе Hugging Face для исследований и учебных целей, расширяют существующую семью Gemma, используя обширные данные из реального мира с платформы Data Commons Google. Эта публичная платформа содержит открытый граф знаний, состоящий более чем из 240 миллиардов точек данных, собранных из надежных организаций в различных отраслях, включая экономику, науку и здоровье.
Иссечение фактических галлюцинаций
LLM произвели революцию в технологиях, управляя такими приложениями, как генерация кода и поддержка клиентов, а также оптимизируя использование ресурсов для предприятий. Несмотря на достижения, проблема галлюцинаций — особенно связанных с числовыми и статистическими данными — продолжает сохраняться.
По мнению исследователей Google, факторы, способствующие этому явлению, включают вероятностную природу выходных данных LLM и недостаточное фактическое покрытие в обучающих данных. Традиционные методы сопоставления сталкиваются с трудностями при обработке статистических запросов из-за разнообразных схем и форматов в публичных данных, что требует значительного контекста для точной интерпретации.
Чтобы устранить эти пробелы, исследователи интегрировали Data Commons, одну из крупнейших репозиторий нормализованных публичных статистических данных, с семейством языковых моделей Gemma, создав DataGemma.
Инновационные подходы для повышения точности
DataGemma использует два различных метода для улучшения фактической точности:
1. Генерация с параллельным извлечением (RIG): Этот подход интегрирует фактическую точность, сравнивая исходный вывод LLM с релевантной статистикой из Data Commons. Уточненная LLM генерирует описательные естественные языковые запросы, которые преобразуются в структурированные запросы данных, получая статистически значимые ответы с указанием источников.
2. Генерация с добавленным извлечением (RAG): Этот метод улучшает модели, используя оригинальные статистические вопросы для извлечения релевантных переменных и формирования естественных языковых запросов, направленных на Data Commons. Извлеченные данные, вместе с оригинальным вопросом, затем используются для запроса долгосрочной контекстной LLM (в данном случае, Gemini 1.5 Pro) для точной генерации ответов.
Обнадеживающие результаты тестирования
В предварительных тестах с 101 запросом модели DataGemma, дополненные RIG, улучшили фактическую точность от базового уровня на 5-17%, достигнув около 58% точности. Хотя RAG показала несколько худшие результаты, она все равно превзошла базовые модели.
DataGemma успешно ответила на 24-29% запросов с использованием статистических ответов из Data Commons, сохранив 99% точности с числовыми значениями. Тем не менее, она столкнулась с трудностями в проведении точных выводов из чисел в 6-20% случаев.
Обе техники RIG и RAG демонстрируют эффективность в повышении точности моделей для статистических запросов, особенно в контексте исследований и принятия решений. RIG предлагает скорость, в то время как RAG предоставляет более обширные данные, но зависит от доступности информации и способности обрабатывать большой контекст.
Google нацелена на продвижение исследований в этих методах через публичный релиз DataGemma с использованием RIG и RAG. Компания заявила: "Наши исследования продолжаются, и мы привержены усовершенствованию этих методологий, расширяя эту работу, обеспечивая строгие испытания и интеграция этой улучшенной функциональности в модели Gemma и Gemini поэтапно и ограниченно."