1. ホーム
  2. python

[解決済み] NLTKで文字列文をトークン化する方法を教えてください。

2022-03-02 20:20:24

質問

nltkを使っているので、nltk.booksにあるデフォルトのテキストと同じように、独自のカスタムテキストを作りたいのですが、どうすればいいですか?しかし、次のようなメソッドまでたどり着きました。

my_text = ['This', 'is', 'my', 'text']

テキストを入力する方法を教えてください。

my_text = "This is my text, this is a nice way to input text."

pythonのメソッドとnltkのメソッド、どちらがこれを可能にするのでしょうか。さらに重要なのは、句読点記号をどうすれば無効にできるのか、ということです。

解決方法は?

これは、実は nltk.orgのメインページ :

>>> import nltk
>>> sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']