1. ホーム
  2. tensorflow

[解決済み] tf.contrib.seq2seq.sequence_loss のパラメータ。

2022-02-28 12:01:34

質問

RNNモデルでtf.contrib.seq2seq.sequence_loss関数を使って、損失を計算しようとしています。 APIドキュメントによると、この関数は少なくとも3つのパラメータを必要とします:ロジット、ターゲット、ウェイト

sequence_loss(
    logits,
    targets,
    weights,
    average_across_timesteps=True,
    average_across_batch=True,
    softmax_loss_function=None,
    name=None
)

logits: A Tensor of shape [batch_size, sequence_length, num_decoder_symbols] and dtype float. The logits correspond to the prediction across all classes at each timestep.
targets: A Tensor of shape [batch_size, sequence_length] and dtype int. The target represents the true class at each timestep. 
weights: A Tensor of shape [batch_size, sequence_length] and dtype float. weights constitutes the weighting of each prediction in the sequence. When using weights as masking, set all valid timesteps to 1 and all padded timesteps to 0, e.g. a mask returned by tf.sequence_mask.
average_across_timesteps: If set, sum the cost across the sequence dimension and divide the cost by the total label weight across timesteps.
average_across_batch: If set, sum the cost across the batch dimension and divide the returned cost by the batch size.
softmax_loss_function: Function (labels, logits) -> loss-batch to be used instead of the standard softmax (the default if this is None). Note that to avoid confusion, it is required for the function to accept named arguments.
name: Optional name for this operation, defaults to "sequence_loss".

私の理解では、logitsはXw+bを使った後の予測なので、その形状は[batch_size, sequence_length, output size]であるべきだと思います。そして、targetは私のラベルですが、その形状は[batch_size, sequence_length]であることが必要です。ラベルはロジットと同じ形であるべきなのだろう。

では、3次元のラベルを2次元に変換するにはどうすればよいのでしょうか?よろしくお願いします。

どのように解決するのですか?

ラベルは [batch_size, sequence_length] 形式の2次元行列、ロジットは [batch_size, sequence_length, output_size] 形式の3次元テンソルであるべきである。したがって、ラベル変数が既に [batch_size, sequence_length] の形状であれば、ラベルの次元を拡張する必要はない。

次元を拡張したい場合は、次のようにします。 expended_variable = tf.expand_dims(the_variable_you_wanna_expand, axis = -1)