Box Extractは、選択したユーザーまたはグループがカスタム抽出エージェントを作成、構成してBoxに適用できるようにすることで、PDFファイルからのデータ抽出を大規模に自動化します。 コンテンツをアップロードすると抽出プロセスが開始されます。このプロセスでは、アップロードしたファイルからデータが抽出されて、Box内でメタデータとして適用されます。Box Extractを使用すると、構造化データ (例: 請求書番号、日付、サプライヤID) を大規模に取得することができます。
- サポートされているファイル: PDFのみ
- 有効化: Box Extractを使用する前に、Enterprise管理者によるBox AIの有効化が必要
- エージェントのタイプ: 抽出エージェント (標準) と抽出エージェント (強化)
-
エージェントあたりのソース数: 最大10フォルダ
- 現在、Box Extractはフォルダのルートでのファイル抽出のみをサポートしています。 サブフォルダは処理されません。
- ユーザーあたりのエージェント数の制限: 100
- Box Extractは現在、他のユーザーとのカスタム抽出エージェントの共有をサポートしていません。 カスタム抽出エージェントにアクセスしてそれらを大規模に実行できるのは、作成者であるユーザーだけです。
所属する組織でBox AIとBox Extractが有効になっていることを確認してください。 管理者による有効化については、Box AIの設定を参照してください。
- メタデータテンプレートは管理者または共同管理者が管理コンソールで構成します。 詳細については、メタデータテンプレートのカスタマイズを参照してください。
カスタム抽出エージェントの作成
- [Relay] に移動して、Relay内の [Extract] タブを選択します。
- [新規+] をクリックし、[カスタム抽出エージェント] を選択します。
- 新しいカスタム抽出エージェントが、デフォルトの名前 (Untitled Extract Agent (無題の抽出エージェント) +日付およびタイムスタンプ) で作成、保存されます。
- カスタム抽出エージェントの構成ページで、利用可能なテンプレートのリストからメタデータテンプレートを選択します。 デフォルトでは、すべてのフィールドが選択されていますが、 選択したメタデータテンプレートから、データの抽出先となるフィールドの選択または選択解除が可能です。
- [選択項目を追加] をクリックして、カスタム抽出エージェントの構成を続行します。
エージェントの構成
- 抽出先となるメタデータテンプレートとフィールドの選択が完了したら、カスタム抽出エージェントの名前を変更できます。それには、省略記号 (...) をクリックして [名前を変更] を選択します。 カスタム抽出エージェントの名前を変更する際の文字数上限は255文字です。
-
AIエージェントを選択します。
- [Box AI抽出エージェント (標準)]: 50ページ以内、抽出フィールド20未満の構造化ドキュメントまたは半構造化ドキュメントを大量に扱う場合に推奨されます。
- [Box AI抽出エージェント (強化)]: 詳細なインサイトと精度を必要とする高度なユースケースで使用される、50ページ以上、抽出フィールド20以上の、複雑なドキュメント、大規模なドキュメント、非構造化ドキュメントに推奨されます。
- 抽出するメタデータフィールドを有効にします。 カスタム抽出エージェントを保存するには、少なくとも1つのフィールドを有効にする必要があります。また、ユーザーは抽出を行う際に、すべてのメタデータフィールドをオンに切り替えることもできます。
- 抽出結果の正確性と精度を高めるために、AIへの指示を追加します (推奨)。 フィールドごとに簡潔な構造化プロンプトを指定します。プロンプトには、フィールドの位置、想定される書式、検証ルール、エッジケースなど、詳細な情報を含めます。 現在、プロンプトには1,500文字の制限があります。
- 抽出プロセスで既存のメタデータを保持するか、全体的に上書きするかを選んで、抽出ポリシーを選択します。
| 注: カスタム抽出エージェント内のメタデータテンプレートを置き換えると、AIへの指示やプロンプトなど、既存の設定がすべてリセットされます。 |
有効化とソースフォルダの割り当て
-
カスタム抽出エージェントを保存したら、それを有効化または無効化して、最大10個のソースフォルダにそのエージェントの適用を開始できます。それには、省略記号 (...)、[ソースフォルダを追加] の順に選択します。
- フォルダは無効なカスタム抽出エージェントに追加できます。
- ソースフォルダのルートに追加されたPDFファイルのみが処理されます。 必要な場合は、ソースフォルダ内のサブフォルダに移動して、そのサブフォルダを選択することもできます。
-
カスタム抽出エージェントを有効にしてソースフォルダを選択すると、Box Extractは、ソースフォルダにアップロードされたファイルからデータを自動的に抽出し、そのデータをメタデータとしてそれらのファイルに適用します。
- 新しくアップロードされたファイルや新しく作成されたファイルの場合は、フォルダへのアクセスを待つアクティブなエンドユーザーが抽出プロセスを監視する必要があります。
- エージェントを無効にすると、新しい抽出プロセスは停止します。 以前に抽出したデータは、関連付けられたファイルのメタデータとして残ります。
トラブルシューティング
- テンプレートが削除された場合やテンプレートにアクセスできなくなった場合は、別のテンプレートを選択するか、管理者に問い合わせてサポートを依頼する必要があります。
- 有効なテンプレートフィールドが削除された場合は、エージェントの構成を更新して保存する必要があります。
- ソースフォルダやファイルが削除された場合、または権限が失われた場合は、コンテンツやソースを手動で復元する必要があります。
- 構成が十分でないために有効化が失敗する場合は、少なくとも1つのフィールドが有効になっていることとテンプレートが有効であることを確認してください。
ベストプラクティス
- カスタム抽出エージェントの名前を作成または変更する際は、大規模な管理が容易になるように、一貫していてわかりやすい命名規則を使用してください。
- AIへの指示には抽出対象のドキュメントに関する詳細をできるだけ多く含めて、説明を充実させてください。そうすることで、結果の正確性と精度が向上します。
- 望ましい抽出結果が得られない場合は、期待どおりの結果が得られるまで、AIへの指示を調整したり、プロンプトを見直したりしてみてください。
- 一貫性のある大規模な抽出プロセスにはBox AI抽出エージェント (標準)、より高い精度が求められる複雑なドキュメントにはBox AI抽出エージェント (強化) を選択してください。
- エージェントを有効にする前に、管理者または共同管理者と一緒にフォルダの権限とテンプレートの可視性を確認してください。