V tej vadnici boste izvedeli -
- Namestitev NLTK v sistem Windows
- Namestitev Pythona v sistem Windows
- Namestitev NLTK v Mac / Linux
- Namestitev NLTK prek Anaconde
- Nabor podatkov NLTK
- Kako prenesti vse pakete NLTK
- Zagon skripta NLP
- Kako zagnati skript NLTK
Namestitev NLTK v sistem Windows
V tem delu bomo izvedeli, kako narediti NLTK prek terminala (ukazni poziv v oknih).
Spodnja navodila temeljijo na predpostavki, da python ni nameščen. Torej, prvi korak je namestitev pythona.
Namestitev Pythona v sistem Windows:
Korak 1) Pojdite na povezavo https://www.python.org/downloads/ , in izberite najnovejšo različico za okna.
Opomba : Če ne želite prenesti najnovejše različice, lahko obiščete zavihek za prenos in si ogledate vse izdaje.
Korak 2) Kliknite preneseno datoteko
Korak 3) Izberite Prilagodi namestitev
Korak 4) Kliknite NAPREJ
Korak 5) Na naslednjem zaslonu
- Izberite napredne možnosti
- Navedite mesto namestitve po meri. V mojem primeru je mapa na pogonu C izbrana zaradi lažjega upravljanja
- Kliknite Namesti
Korak 6) Ko je namestitev končana, kliknite gumb Zapri.
Korak 7) Kopirajte pot do mape Scripts.
Korak 8) V ukaznem pozivu sistema Windows
- Pomaknite se do lokacije mape pip
- Vnesite ukaz za namestitev NLTK
pip3 install nltk
- Namestitev mora biti uspešno izvedena
OPOMBA : Za Python2 uporabite ukaz pip2 install nltk
Korak 9) V meniju Start sistema Windows poiščite in odprite PythonShell
Korak 10) S spodnjim ukazom lahko preverite, ali je namestitev točna
import nltk
Če ne vidite napake, je namestitev končana.
Namestitev NLTK v Mac / Linux
Namestitev NLTK v Mac / Unix zahteva namestitev nltk pip upravitelja paketov pip. Če pip ni nameščen, sledite spodnjim navodilom za dokončanje postopka
Korak1) Posodobite indeks paketov, tako da vnesete spodnji ukaz
sudo apt update
2. korak) Namestitev pipa za Python 3:
sudo apt install python3-pip
Pip lahko namestite tudi s pomočjo easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Zdaj je nameščen easy_install. Za namestitev pipa zaženite spodnji ukaz
sudo easy_install pip
Korak 3) Za namestitev NLTK uporabite naslednji ukaz
sudo pip install -U nltksudo pip3 install -U nltk
Namestitev NLTK prek Anaconde
1. korak: Namestite anacondo (ki jo lahko uporabite tudi za namestitev različnih paketov), tako da obiščete https://www.anaconda.com/products/individual in izberete, katero različico pythona morate namestiti za anacondo.
Opomba: Podrobne korake za namestitev anaconde najdete v tej vadnici
2. korak) V pozivu Anaconda
- Vnesite ukaz
conda install -c anaconda nltk
- Preglejte nadgradnjo paketa, znižanje, namestitev informacij in vnesite da
- NLTK se prenese in namesti
Nabor podatkov NLTK
Modul NLTK ima na voljo veliko naborov podatkov, ki jih morate prenesti za uporabo. Bolj tehnično se imenuje korpus . Nekateri primeri so vstopne besede , gutenberg , framenet_v15 , large_grammars itd.
Kako prenesti vse pakete NLTK
Korak 1) Zaženite tolmač Python v sistemu Windows ali Linux
2. korak)
- Vnesite ukaze
import nltknltk.download ()
- Odpre se preneseno okno NLTK. Za prenos nabora podatkov kliknite gumb Prenos. Ta postopek bo trajal nekaj časa glede na vašo internetno povezavo
OPOMBA: Mesto prenosa lahko spremenite s klikom na File> Change Download Directory
Korak 3) Za preizkus nameščenih podatkov uporabite naslednjo kodo
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Zagon skripta NLP
Razpravljali bomo o tem, kako se bo skript NLP izvedel na našem lokalnem računalniku. Na trgu je prisotnih veliko knjižnic za obdelavo naravnih jezikov. Izbira knjižnice je torej odvisna od vaših potreb. Tu je seznam knjižnic NLP.
Kako zagnati skript NLTK
1. korak) V svojem najljubšem urejevalniku kode kopirajte kodo in datoteko shranite kot " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Razlaga kode:
- V tem programu je bil cilj odstraniti vsa ločila iz danega besedila. Uvozili smo "RegexpTokenizer", ki je modul NLTK. Odstrani vse izraze, simbole, znake, številke ali vse, karkoli želite.
- Pravkar ste predali običajni izraz modulu "RegexpTokenizer".
- Nadalje smo besedo označili z modulom "tokenize". Izhod je shranjen v spremenljivki "filterdText".
- In jih natisnili s pomočjo "print ()."
Korak2) V ukaznem pozivu
- Pomaknite se do mesta, kamor ste shranili datoteko
- Zaženite ukaz Python NLTKsample.py
Izpis bo prikazan kot:
['Pozdravljeni', 'Guru99', 'Vi', 'imate', 'zgradite', 'a', 'zelo', 'dobro', 'spletno mesto', 'in', 'I', 'ljubim', ' obisk ',' your ',' site ']