開発者がBox Extract APIの使用時に構造化エンドポイントを使用して信頼度スコアを含める機能をリリースしました。 信頼度スコアは、抽出結果が正しいという実際の確率を概算したもので、小数点形式を使用したパーセンテージの数値スコアとして表示されます。 スコアはフィールドごとに構成可能です (つまり、0.875の場合は、エージェントがフィールドごとの抽出値を87.5%信頼していることを意味します)。また、開発者は、抽出結果の信頼度レベルを表現するために信頼度ラベル (低、中、高) を含めることができます。 このスコアは、実際の正確さの確率に近似するよう調整されており、複数のLLMの応答を集約して一貫性を測定することで生成されます。これにより、推定される抽出精度に基づいた、自動化された意思決定とヒューマンインザループワークフローが実現します。
信頼度スコア、信頼度レベル、推奨される対応は、リスク許容度、ユースケースの致命度、および抽出結果のテストと検証の程度に基づいて解釈する必要があります。 Boxでは、特定のドキュメントタイプおよび精度要件に対して信頼度スコアのしきい値を検証することをお勧めします。開発者は、抽出された特定の値が特定の数値しきい値を下回る場合に、信頼度スコアを使用して、人間によるレビューの対象になるようその値にフラグを設定できます。
信頼度スコアは、LLMに送信された同じリクエストに対する複数の応答から信頼度を推定することで算出されます。 応答に一貫性がある場合は、信頼度が高くなります。 以下のように、応答に多様性を取り入れる方法はいくつかあります。
- モデルのtemperatureを設定する
- 応答で複数の候補をリクエストする
- 以下に例を示すように、異なるプロンプトを使用した複数の独立したリクエストを作成する
- システムプロンプトまたはテンプレートを言い換える
- リクエストされたフィールドを入れ替えて、場合によっては、リクエストでフィールドの一部のみ送信する
その後、複数の応答は、各フィールドに返される固有値の頻度に応じて1つの結果に集約されます。 信頼度スコアは、その頻度に基づいて推定されます。
信頼度スコアは、以下のGoogle Gemini LLMをサポートします。
gemini-2.5-flashgemini-2.5-pro