1. ホーム
  2. r

[解決済み] 文字ベクトルをPOSIXct/POSIXltに変換するためのas.POSIXct/as.POSIXltとstrptimeの相違点

2022-10-28 07:06:13

質問

ここで、文字ベクトルをdatetimeクラスに変換する方法について尋ねる質問をいくつか追ってきました。strptimeとas.POSIXct/as.POSIXltの2つのメソッドをよく見かけます。私は2つの関数を見ましたが、何が違うのかが不明です。

strptime

function (x, format, tz = "") 
{
    y <- .Internal(strptime(as.character(x), format, tz))
    names(y$year) <- names(x)
    y
}
<bytecode: 0x045fcea8>
<environment: namespace:base>

as.POSIXct

function (x, tz = "", ...) 
UseMethod("as.POSIXct")
<bytecode: 0x069efeb8>
<environment: namespace:base>

as.POSIXlt

function (x, tz = "", ...) 
UseMethod("as.POSIXlt")
<bytecode: 0x03ac029c>
<environment: namespace:base>

マイクロベンチマークを行い、性能差があるかどうかを確認する。

library(microbenchmark)
Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d-%m-%Y')), 5000, replace = TRUE)
df <- microbenchmark(strptime(Dates, "%d-%m-%Y"), as.POSIXlt(Dates, format = "%d-%m-%Y"), times = 1000)

Unit: milliseconds
                                    expr      min       lq   median       uq      max
1 as.POSIXlt(Dates, format = "%d-%m-%Y") 32.38596 33.81324 34.78487 35.52183 61.80171
2            strptime(Dates, "%d-%m-%Y") 31.73224 33.22964 34.20407 34.88167 52.12422

strptimeは少し速いようです。では、なぜ似たような関数が2つあるのでしょうか?それとも私が見落としている違いがあるのでしょうか?

どのように解決するのですか?

さて、関数によってできることが違います。

まず、日付/時刻の内部実装は2つあります。 POSIXct これは UNIX のエポックからの秒数 (+他のデータ) を格納します。 POSIXlt は、日、月、年、時、分、秒などのリストを格納します。

strptime は、(様々な形式の)文字ベクトルを直接 POSIXlt 形式に変換する関数です。

as.POSIXlt は、様々なデータ型を POSIXlt . これは、知的で、賢明なことを行おうとします - 文字の場合、それは strptime .

as.POSIXct は、様々なデータ型を POSIXct . これはまた、知的で、賢明なことを行おうとします - 文字の場合、それは実行されます strptime を最初に実行し、次に POSIXlt から POSIXct .

というのは意味があります。 strptime の方が速いのは理にかなっています。 strptime は文字入力のみを処理し、他のものは入力の種類から使用するメソッドを決定しようとするからです。また、予期しないデータが渡された場合、望んだものでないかもしれない知的なことをしようとするのではなく、単にエラーが発生するだけなので、少し安全であるはずです。