Označevanje stavkov
Označevanje stavka v širšem pomenu se nanaša na dodajanje oznak glagola, samostalnika itd. V kontekst stavka. Identifikacija oznak POS je zapleten postopek. Tako generično označevanje POS ni mogoče ročno, saj imajo lahko nekatere besede različne (dvoumne) pomene glede na strukturo stavka. Pretvorba besedila v obliki seznama je pomemben korak pred označevanjem, saj se vsaka beseda na seznamu zaviha in šteje za določeno oznako. Za boljše razumevanje si oglejte spodnjo kodo
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
IZHOD
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Razlaga kode
- Koda za uvoz nltk (zbirka orodij za naravni jezik, ki vsebuje podmodule, kot sta stavek tokenize in word tokenize.)
- Besedilo, katerega oznake je treba natisniti.
- Tokenizacija stavkov
- Izvedena je zanka For, kjer so besede označene iz stavka, oznaka vsake besede pa je natisnjena kot izhod.
V Corpusu obstajata dve vrsti označevalnikov POS:
- Na podlagi pravil
- Stohastični POS označevalniki
1. Oznaka POS na podlagi pravil : Za besede z dvoumnim pomenom se uporablja pristop, ki temelji na pravilih na podlagi kontekstualnih informacij. To se naredi tako, da se preveri ali analizira pomen prejšnje ali naslednje besede. Informacije se analizirajo iz okolice besede ali znotraj nje same. Zato so besede označene s slovničnimi pravili določenega jezika, kot so velika in velika ločila. npr. Brillov tagger.
2. Stohastični označevalec POS: Pri tej metodi se uporabljajo različni pristopi, kot sta frekvenca ali verjetnost. Če je beseda večinoma označena z določeno oznako v vadbenem nizu, je v preskusnem stavku dana ta oznaka. Besedna oznaka ni odvisna samo od lastne oznake, temveč tudi od prejšnje oznake. Ta metoda ni vedno natančna. Drug način je izračunati verjetnost pojavitve določene oznake v stavku. Tako se končna oznaka izračuna s preverjanjem največje verjetnosti besede z določeno oznako.
Skriti model Markov:
Težave z označevanjem je mogoče modelirati tudi s pomočjo HMM. Vhodne žetone obravnava kot opazno zaporedje, medtem ko se oznake štejejo za skrita stanja, cilj pa je določiti zaporedje skritega stanja. Na primer x = x 1 , x 2 ,…, x n, kjer je x zaporedje žetonov, medtem ko je y = y 1 , y 2 , y 3 , y 4 … y n je skrito zaporedje.
Kako deluje model HMM?
HMM uporablja distribucijo združevanja, ki je P (x, y), kjer je x vhodno zaporedje / zaporedje žetonov in y zaporedje oznak.
Zaporedje oznak za x bo argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Oznake smo razvrstili v besedilo, vendar je statistika takšnih oznak ključnega pomena. Naslednji del je torej štetje teh oznak za statistično študijo.