注:
- Box抽出エージェントのAPIは、Business以上のプランで利用できます。
- カスタム抽出エージェントを作成および構成する機能と抽出エージェント (標準/強化) を使用してメタデータテンプレートを自動入力する機能は、Enterprise Advancedプランでのみ利用可能で、Enterprise Plusプランではアドオンとして提供されます。
Box Extractは、コンテンツから自動的かつ正確に情報を抽出し、Boxにメタデータとして保存することを目的に、最新のLLMを使用したエージェント型データ抽出と高度なデータサイエンス手法 (統合されたOCR、抽出に特化したRAGなど) を組み合わせたものです。 プロセスの所有者は、専用のUIを使用してデータ抽出プロセスを設定、カスタマイズ、展開、および管理できます。 入力されたメタデータを活用することで、より高速な検索と迅速な意思決定を実現し、チームがコンテンツ駆動のプロセスに効果的、効率的、かつ大規模に取り組むことが可能になります。 これにより、お客様は、価値の高いコンテンツ駆動のユースケースを実装する際、安全でコンプライアンスに対応した、インテリジェントな単一のプラットフォームを使用できるうえ、コラボレーション、ワークフローの自動化、サードパーティ製の統合、カスタム統合にも対応できるようになります。
主な機能
- カスタム抽出エージェント:
- ユーザーはカスタム抽出エージェントを作成できます。これにより、組織はコンテンツから構造化データを大規模かつ正確に抽出し、そのデータを自動的にBox内のファイルにメタデータとして適用できるようになります。 カスタム抽出エージェントを使用すると、ユーザーはあらかじめ定義されたメタデータテンプレート、Box抽出エージェント (標準/強化)、既存のメタデータ値を維持するか上書きするかを選択したり、抽出フィールドや抽出フィールドのプロパティ (結果の精度を高めるためのAIを活用した指示やプロンプトを含む) を設定したりできます。 一度設定したら、ユーザーは最大10個のソースフォルダをカスタム抽出エージェントに割り当て、構造化データを抽出して、そのデータをメタデータとして任意のファイルに適用できます。
- 選択できるテンプレートはエージェントあたり1つのみで、抽出するには、カスタム抽出エージェントの設定で少なくとも1つのフィールドを有効にする必要があります。
- AIエージェントの種類:
- 抽出エージェント (標準):
- 構造化PDFまたは半構造化PDFを大量に扱えるよう最適化されています。 一貫したレイアウト (請求書など) と可変構造 (メールなど) をどちらもサポートします。 50ページ以内、抽出フィールド20未満の構造化ドキュメントまたは半構造化ドキュメントを大量に扱う場合に推奨されます。
- 抽出エージェント (強化):
- 契約書や臨床レポートなどの、複雑なドキュメント、非構造化ドキュメント、長いドキュメント向けに設計されています。 高度な推論を使用して、精度と透明性をさらに高めます。 思考連鎖推論が必要な高度なユースケースで使用される、50ページ以上、抽出フィールド20以上の、複雑なドキュメント、大規模なドキュメント、非構造化ドキュメントに推奨されます。
- 抽出エージェント (標準):
- 柔軟な設定:
- データを抽出してマッピングするメタデータテンプレートを選択します。
- 抽出に使用する個々のメタデータフィールドを選択または選択解除します。
- 抽出の精度を高めるために、必要に応じてAIへの指示を追加します (データの場所の指定や想定する形式など)。
- AIエージェントの種類を決定します (標準/強化)。
- 抽出中に既存のメタデータ値を保持するか、上書きするかを選択します。
- ソース管理:
- 抽出エージェントごとに最大10フォルダを割り当てることができます。 現在、Box ExtractはPDFファイルのみをサポートしています。 抽出ソースは各カスタム抽出エージェントの [抽出ソース] タブから直接管理できます。
- 現在、Box Extractはサブフォルダまたはカスケードしているフォルダの抽出をサポートしていません。
- 実行履歴と監視:
- ステータス、ソースフォルダ、日付、タイムスタンプ、ファイル名を含め、すべての抽出プロセスは記録されます。 抽出されたメタデータは、[実行履歴] でファイル名をクリックすると、ファイルのプレビューで確認できます。 抽出に失敗すると、抽出が失敗した理由を説明するツールチップが表示されます。
- 手動による編集:
- ユーザーは、抽出されたメタデータをBoxプレビューまたはBox Apps内で表示し、手動で編集できます。
- ライフサイクル管理:
- 抽出エージェントは簡単に無効化、編集、削除できます。 エージェントを削除しても、以前に抽出されたメタデータは保持されます。
制限事項
- 現在、Box ExtractはPDFからの抽出をサポートしています。
- 各ユーザーは、最大100個の抽出エージェントを作成できます。
- 抽出は、カスタム抽出エージェントに関連付けられたフォルダ内の最上位のファイルのみに対して実行できます。 抽出は入れ子になったフォルダ内を再帰的に処理しないため、サブフォルダ内にあるファイルは含まれません。
- メタデータを上書きすると、既存のすべてのメタデータ値が置き換えられます。
- カスタム抽出エージェントを無効化または削除しても、一部の抽出プロセスは実行される場合があります。
- カスタム抽出エージェント内のメタデータテンプレートを置き換えると、AIへの指示やプロンプトなど、既存の設定がすべてリセットされます。
- Box RelayやBoxプレビューの自動入力機能を使用するなど、複数のBox製品を同時に使用してメタデータを適用すると、予測できない順序で抽出が行われ、競合が発生することがあります。
- 選択したメタデータテンプレートや有効にしたフィールドが削除されるか、ユーザーがソースフォルダ/ファイルへのアクセス権限を失った場合は、抽出プロセスが失敗します。
- メタデータテンプレートが削除されているか、すべてのメタデータテンプレートフィールドが無効になっている場合は、不足している情報が復元されるまで、カスタム抽出エージェントをアクティブ化できません。
- 管理者が作成したメタデータテンプレートに非表示のメタデータフィールドが含まれる場合、ユーザーがカスタム抽出エージェント内でそのメタデータテンプレートを利用したときに、不一致や誤りが生じる可能性があります。 管理者が各自のメタデータテンプレートを十分に監査し、精度と一貫性を高めることをお勧めします。
- 現在、Box Extractは、英語、日本語、韓国語、中国語、キリル文字のPDFからの抽出をサポートしています。
- 現在、Box Extractでは、カスタム抽出エージェントごとに最大10個のソースフォルダを割り当てることができます。各Box抽出エージェントは、各フォルダ内で最近変更されたファイルから順に、最大1,000ファイルからデータを抽出できます。
- 注: PDF以外のファイルはサポートされていません。 ただし、各ソースフォルダのしきい値である1,000ファイルの対象となります。
- 企業で作成されるアクティブなカスタム抽出エージェントの数に制限はありません。
- 最大処理速度/スループットは、ユーザーあたり1分間に500件の抽出/企業あたり1分間に700件の抽出です (1日あたり250万ページ)。
- 削除したカスタム抽出エージェントはごみ箱に移動します (企業全体で有効になっている場合)。このエージェントは、ごみ箱から復元することもできます。
- 有効なカスタム抽出エージェントの削除はサポートされていますが、それを復元してメタデータを再度抽出できるようにするには、無効化して再有効化する必要があります。
- フォルダアクセス/権限: 現在、大規模な自動抽出のためには、カスタム抽出エージェントからのみフォルダを割り当てることができます。 カスタム抽出エージェントは、エージェントの所有者が所有者、共同所有者、編集者、ビューアー/アップローダーのいずれかのアクセス権限を持っているフォルダにのみ割り当てることができます。
- カスタム抽出エージェントの実行履歴に表示されるフォルダ名とファイル名は、抽出の実行時に表示された名前とまったく同じになります。
- エンドユーザーが作成したカスタム抽出エージェントは、そのユーザー専用となります。 作成者だけが表示およびアクセス可能です。 現時点では、Box Extractは、他のユーザーとのカスタム抽出エージェントの共有をサポートしていません。
- カスタム抽出エージェントの実行履歴の記録は一時的に保管されますが、現時点ではアクセスできない可能性があります。
- [実行履歴] では、メタデータのないファイルが見つかった場合もステータスは [成功] と表示されます。 抽出結果は実行ステータスに影響しません。
- フォルダを抽出エージェントに割り当てた後にユーザーのフォルダの権限がビューアーまたはプレビューアーに変更された場合でも、抽出は実行されます。 ただし、メタデータは更新できず、抽出は実行履歴に記録されません。 ユーザーはエージェントから手動でフォルダの割り当てを解除し、この制限を回避する必要があります。
- カスタム抽出エージェントでは、抽出完了後の再実行をサポートしていません。そのため、抽出を再実行するには、ユーザーが手動でフォルダの割り当てを解除し、エージェントに再度割り当てる必要があります。
- [実行履歴] で参照されているファイルが削除されると、それに対応するログも削除されます。