アバカスAIは、AI駆動のエンドツーエンドの機械学習(ML)およびLLMOpsプラットフォームを開発するスタートアップで、無検閲のオープンソースの大規模言語モデル(LLM)「Liberated-Qwen1.5-72B」を発表しました。このモデルは特にシステムプロンプトに応じて調整されており、実際のアプリケーションでの使いやすさが向上しています。
Liberated-Qwen1.5-72Bの特徴とメリット
Liberated-Qwen1.5-72Bは、アリババグループの研究者によって開発されたトランスフォーマー型のデコーダ専用言語モデル「Qwen1.5-72B」に基づいています。このモデルは、システムプロンプトに従う最適化された能力を持つため、他のオープンソースLLMと大きく異なり、顧客向けのチャットボットなどのさまざまな使用例に適しています。
アバカスのCEOであるビンダ・レディは、このモデルを性能とシステム指示への遵守において世界で最も優れた無検閲LLMと位置付けています。
システムプロンプトの重要性
企業がカスタマーサポートなどの向上にLLMを統合する中で、AIとのインタラクションを適切に管理することが不可欠です。ユーザーはしばしば複数のターンで会話を行い、適切な制限がないとAIは本来の役割から逸脱する可能性があります。例えば、過去にはユーザーがチャットボットを誤導し、2024年モデルのシボレー・タホを1ドルで契約すると言わせてしまった事例もあります。
このような望ましくないシナリオを防ぐために、システムプロンプトへの厳格な遵守を保証することが重要です。しかし、多くの市場に存在するオープンソースモデルは、このレベルの遵守を維持することが難しいのが実情です。アバカスは、Liberated-Qwen1.5-72Bを通じてこの課題を解決しようとしています。
開発チームは、Mistral-MediumとDolphin-2.7-mixtral-8x7bを使用して生成された7,000の合成会話から成る新しいオープンソースデータセット「SystemChat」を用いてモデルを微調整しました。このトレーニングにより、モデルは会話中にユーザーのリクエストと矛盾する場合でも、システムメッセージに従うことができます。
レディはXで「このデータセットを用いてモデルを微調整することで、より使いやすく、ハッキングが難しくなります!」と述べています。
パフォーマンスの洞察
MT-BenchおよびHumanEvalベンチマークのテストによると、Liberated-Qwen1.5-72Bは、従来の最優秀オープンソースモデルであるQwen1.5-72Bチャットをわずかに上回り、スコアは8.45000と8.44375でした。また、世界知識と問題解決能力を評価するMMLUベンチマークでは77.13点を記録し、Qwen1.5-72BやアバカスのSmaug-72Bと同等の成果を上げています。
Liberated-Qwen1.5-72Bは効果的ですが、完全に無検閲であり、内部のガードレールがありません。つまり、敏感なトピックを含むすべての質問に対して回答を行いながら、システムメッセージにも従うことができます。アバカスは、モデルをサービスコンテキストで展開する前に独自の整合性層を実装するようユーザーに推奨しています。
現在、Liberated-Qwen1.5-72Bは、MITライセンスにほぼ相当するトンギー・チャンウェンライセンスの下で提供されています。レディはさらにHumanEvalの向上や、SystemChatデータセットとSmaugのデータセットを統合してより高度なモデルを開発する計画を持っています。
今後数週間内にアバカスはMT-Benchのスコアを洗練し、HumanEvalダッシュボードでのトップポジションを目指す予定です。