1. ホーム
  2. amazon-web-services

[解決済み] Amazon Redshift - CSVからのCOPY - 行に二重引用符が一つある - CSVの引用符の書式が無効である エラー

2022-02-19 16:05:29

質問

S3からRedshiftにCSVファイルを読み込んでいます。 このCSVファイルは、PageUrl(例えばクエリ文字列内のユーザー検索情報を含む場合があります)を含む分析データです。

例えば、14"のおもちゃのページがある場合、PageUrlは以下を含むでしょう。

http://www.mywebsite.com/a-14 1234.htmlをご覧ください。

Redshift は当然ながら、閉じるダブルクォート文字を期待しているので、これを処理することはできません。

私が考えるに、私の選択肢は

  1. 入力を前処理して、これらの文字を削除します。
  2. これらの文字を無視しても行を読み込むように、RedshiftのCOPYコマンドを設定します。
  3. MAXERRORSを高い値に設定し、別プロセスでエラーを一掃する。

オプション2が理想的なんだけど、見つからないんだよねー。

もし私が十分に探していないだけなら、他に何か提案はありますか?

ありがとうございます。

ダンカン

解決方法は?

残念ながら、これを修正する方法はありません。以下の作業が必要です。 プリプロセス を読み込む前に、そのファイルをAmazon Redshiftに読み込んでください。

最も近いオプションは CSV [ QUOTE [AS] 'quote_character' ] はフィールドを代替の引用符で囲みます。 ESCAPE は、引用符の前にスラッシュがある場合です。残念なことに、どちらも読み込み前にファイルが特定の形式であることが必要です。

ご覧ください。