jrtechs
/
jrtechs-RandomScripts
mirror of https://github.com/jrtechs/RandomScripts.git


								import shutil


								from shutil import copyfile


								copyfile(src = "../input/cleantext/cleantext.py", dst = "../working/cleantext.py")


								# import all our functions

								from cleantext import *


								#!pylint cleantext


								import pandas as pd

								from sklearn.feature_extraction.text import CountVectorizer


								training = [

								    " I am master of all",

								    "I am a absolute learner"

								]


								generalization = [

								    "I am absolute learner learner"

								]


								vectorization = CountVectorizer(

								    stop_words = "english",

								    preprocessor = process.master_clean_text)


								vectorization.fit(training)


								build_vocab = {

								     value:key

								     for key , value in vectorization.vocabulary_.items()

								}


								vocab = [build_vocab[i] for i in range(len(build_vocab))]


								pd.DataFrame(

								data = vectorization.transform(generalization).toarray(),

								    index=["generalization"],

								    columns=vocab

								)