話し手が多様な言語的背景を持つ場合、音声モデルが最も苦戦しますが、そのコストが最も大きいのはナビゲーションや緊急出動です。 Together Research Frontier Agentsチームからの新作:SF Streetsは、15の最先端モデルを用いた名前付きエンティティ認識のベンチマーク的なストレステストです。 → 通り名の平均誤り率は39%です → 非英語話者:18%低い精度 → 誤書きは目標から2.4マイルずれます 解決策はクロスリンガルスタイルの転送です。合成サンプルが1,000未満→Whisper-Largeに比べて相対的に60%の改善が見られます。 SF StreetsおよびUS Streetsのデータセットが公開されています。 詳細はこちらを読み、論文もご覧ください(以下のリンク)
ブログ: arXiv:
72