ShieldのAI分類は、Shield Proアドオンの一部としてのみ利用可能です。
AI分類は、コンテンツを評価して分類し、適切な分類ラベルを自動的に適用するのに役立ちます。このガイドでは、コンテンツを迅速かつ簡単に分類するために効果的なラベルプロンプトを作成する方法を説明します。 主に以下を説明します。
設定と機能の詳細については、AI分類を参照してください。
AI分類の仕組み
セキュリティ分類エージェントは、以下の処理を行います。
- ラベル定義 (プロンプト) を読み取る
- ポリシー内のすべてのラベルに対して各ファイルを評価する
- 単一の最適なラベルを適用するか、確実に一致する定義がない場合は適用しない
- 適用されたラベルと推論をファイルのサイドバーの [追加情報] でエンドユーザーに表示する
構成に関する推奨事項
ほとんどの状況で以下の設定が機能します。
- 分類の変更権限を使用して分類の変更をエンドユーザーに許可することを検討する
- 特にユーザーがラベルを適用または変更できる場合に [競合の処理] を [スキップ] に設定する
- AI分類が最適なパフォーマンスを発揮するためにラベル数を1~3個に設定する
- 人間のレビュー担当者の視点で考えた場合と同様、ラベルが多すぎると分類の不一致が生じる可能性が高くなります
- すべてのラベルをAIによって適用したくない場合もあります。例えば、公開というラベルは、人間だけが適用できるようにしたいかもしれません。
AI分類ポリシーのベストプラクティス
効果的なラベル条件の定義
正確なAI分類を確実にするために、ラベル定義は以下のようにしてください。
- 明確に区別する: 各ラベルには、独自のドキュメントの特性を対象とした、重複のない明確に区別された条件を設定する必要があります。
-
わかりやすくする: わかりやすい言葉を使用して以下を指定します。
- ドキュメントタイプ (例: 契約書、戦略的なドキュメント、スプレッドシート)
- トピックまたは目的 (例: 製品ロードマップ、セキュリティ違反、取引条件)
- データの種類 (例: PII、ソースコード、財務情報)
- 対象者 (例: 社内チーム、法務)
以下を避けてください:
- あいまいな記述 (例: 「会社にとって高リスク」)
- ラベルの重複 (例: 「機密」と「極秘」)
- 定義されていない技術的な専門用語
トラブルシューティングのヒント
AI分類の結果が期待どおりにならなかった場合:
- 使用する明確に定義されたラベルの数を減らす: 例を追加したり、条件を厳しくしたりしてください
- 重複を確認する: ラベルが明確でわかりやすく、重複していないことを確認し、「すべてに該当する」ラベルを避けてください
- ファイルがサポートされているファイルの種類であることを確認する: サポートされているテキストファイルおよび画像ファイルの種類を確認してください
既知の制限事項
AI分類では、以下の条件やトピックを含む基準に対して、矛盾した情報や場合によっては不正確な情報が返されます。
- 計算、表の構造、数値
- 単語数またはフレーズ数のカウント
- ページ番号、作成者、ファイルサイズ、単語数、コラボレータなど、ドキュメントのメタデータ (AI分類では、このようなドキュメントの構成要素は考慮されません)
- テキストドキュメント内の画像、チャート、グラフなど (画像ファイルのみ直接分析できます)
AIを使用したプロンプトの改善
注: このセクションのガイダンスでは、プロンプトの設計および使用を支援することを目的とした一般的なベストプラクティスを紹介します。 結果は特定のユースケース、データ、および構成によって異なる場合があります。 これらの推奨事項は、あくまでガイダンスとして提供されており、すべてのシナリオにおいて一貫した結果または想定される結果となるとは限りません。
Box AIを使用して、既存の分類ラベルの定義をリファインし、LLMにわかりやすい条件にすることができます。
- 既存の定義が含まれている、Box内のドキュメントを開きます。
- 右側のサイドバーまたは上部のナビゲーションバーで [Box AI] を選択します。
- 以下のプロンプトの例を参考に、AIベースの分類に最適化された明確かつわかりやすい条件になるよう、各ラベル定義を書き直します。
- 関連する分類ラベルに出力をコピーします。
プロンプトの例
AIベースのコンテンツ分類システムにおけるラベル条件として使用するのに適したものになるよう、各データ分類ラベル定義を、LLMにわかりやすい、明確かつ意味的に正確な表現に書き直してください。
条件を書き直す際は、以下のようにします。
- 各ラベルに属すドキュメントやコンテンツの種類のみに重点を置きます。
- ドキュメントタイプ、トピック、データの機密性、および対象読者を考慮した、平易でわかりやすい言葉を使用します。
- 各ラベルを区別し、他のラベルとの違いを明確にします。
- 簡潔な段落または短い箇条書きを使用します。
以下は含めないでください。
- システム言語や指示的言語 (例:「分類すべきである」、「評価する」、「以下の場合にのみ適用する」)。
- 決定ロジック、優先順位付けのルール、または競合解決のガイダンス。
- AIモデルがとるべき挙動の説明。
出力形式:
- ラベル名
- リファインされたラベル条件
説明や追加コメントを含めないでください。
ヒントやコツ
除外基準/否定的な例
よくある誤検出を明示的に除外してください。
例: 「データが匿名化または集約化され、個人に紐付けることができない場合 (「年齢層別の顧客平均所得」など) は、制限の対象外とする。」
ラベルの優先順位付け (同順位時の決定要因)
複数の条件が満たされた場合に優先されるラベルを定義します。
例: 「内部と機密の両方の条件が満たされた場合は、機密として分類する。」
デフォルトのラベルロジック
フォールバックとして1つのラベルを使用します。
例: 「他のラベル条件が満たされない場合、内部専用を適用する。」
時間感度
日付が重要な場合は、本日の日付と照合して評価する必要があることを明示的に記述します。 明示しない場合にモデルが比較を推論することは想定しないでください。
例: 「ファイル内の日付が2023年1月1日以降の場合のみ、制限付きとして分類する。 本日の日付と比較してください。」
ラベルプロンプトの例
注: これらのプロンプトの例は、デモのみを目的として提供されており、法的な助言またはコンプライアンスに関する助言を構成するものではありません。 実際の要件や結果は、組織のポリシー、ユースケース、および規制の義務によって異なる場合があります。
機密データ
以下が該当します。
- 事業記録: 監査結果、経営陣および取締役会報告書、戦略的プレゼンテーション資料、インシデント対応資料、第三者リスクドキュメント (例: SOC報告書)
- 業務データ: KPIレポート、生産性指標、セキュリティログ、会議の記録または録音
- 従業員情報: 勤務評価、懲戒処分歴
- マスキングされたデータまたは匿名化されたデータ: マスキングされたPII (例: SSNの下4桁)、匿名化または集約されたNPI
制限付きデータ
以下が該当します。
- 企業情報: 非公開の戦略、発表前のM&Aデータ、法的または規制上の調査
- PII: SSN、運転免許証番号、パスポート番号、ペイメントカード番号、医療記録、生体認証データ (マスキング処理または切り詰め処理が施され、復元不可能な場合は制限されません)
-
NPI: 銀行口座番号、残高、生年月日、収入または給与データ、信用報告書、取引履歴、ローンまたは保険データ
(匿名化または集約されている場合は制限されません)
既知の制限事項
AI分類は、以下の条件が含まれる場合、矛盾した結果を返す可能性があります。
- 計算、数値的推論、または複雑な表
- 単語数またはフレーズ数のカウント
- ドキュメントのメタデータ (ページ番号、作成者、ファイルサイズ、単語数、コラボレータ)
- テキストドキュメントに埋め込まれた画像、チャート、グラフ (ファイル自体が画像の場合のみ、画像が分析されます)