Box抽出エージェントAPIによる表およびグループ化されたフィールドの抽出 – Box Support

Box抽出エージェントAPIのextract_structuredエンドポイント用に、structおよびtableという2つの強力なフィールドタイプを新しく導入する予定です。開発者は、個々のデータポイントだけでなく、全面的に構造化され、グループ化された、繰り返し出現するデータを、ドキュメントから直接、簡潔なJSON形式で抽出できるようになるため、どの下流システムにもすぐに組み込むことができるようになります。

現在、Box Extractでは、単一の日付、名前、数値など、単純なスカラー値しか取得できず、関連するフィールドを単一の名前付きオブジェクトにグループ化したり、繰り返し出現するデータ行を抽出したり、表形式データの正確性を保証したりする方法はありません。

structフィールドタイプを使用すると、関連するサブフィールドの名前付きコンテナを定義し、それらを単一のグループ化されたJSONオブジェクトとして受け取ることができます。住所 (番地、市区町村、郵便番号)、当事者の連絡先の詳細、または関連する属性のセットをすべて、1つの整った出力として抽出できます。

tableフィールドタイプは、構造化データの繰り返し出現する行をJSONオブジェクトの配列として抽出します。説明、数量、単価、税金などの必要な列を定義すると、Box Extractは、ソースドキュメントでのデータの配置に関係なく、一致するすべての行を返します。

表の抽出は、視覚的なグリッド、キーと値のペア、フォームレイアウト、平易な文など、すべてのドキュメント形式に対応します。お客様が自身のデータの構造を把握している必要はなく、必要な情報を定義するだけで済みます。

これらの新しいフィールドタイプにより、Box Extractは、ドキュメントの処理における最も根深いボトルネックの1つ、ドキュメントからデータを取得してから実際にそのデータを使用できるようになるまでの時間差を解消できるようになります。

Box Docs

アップデート

関連記事