Add text preprocessing

37bbde7b · Babali · 6a849f5e · 37bbde7b
Commit 37bbde7b authored 3 weeks ago by Babali
--- a/preprocess.py
+++ b/preprocess.py
+import pandas as pd
+import re
+import nltk
+from nltk.corpus import stopwords
+from nltk.stem import PorterStemmer
+
+# Download required NLTK resources
+nltk.download('punkt')
+nltk.download('stopwords')
+
+
+def preprocess_text(text):
+    # Lowercasing
+    text = str(text).lower()
+
+    # Removing special characters
+    text = re.sub(r'[^\w\s]', '', text)
+
+    # Tokenization
+    tokens = nltk.word_tokenize(text)
+
+    # Removing stop words
+    stop_words = set(stopwords.words('english'))
+    filtered_tokens = [token for token in tokens if token not in stop_words]
+
+    # Stemming
+    stemmer = PorterStemmer()
+    stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]
+
+    # Joining tokens back into a sentence
+    preprocessed_text = ' '.join(stemmed_tokens)
+
+    return preprocessed_text