# Instalação do Spacy

Primeiro precisamos atualizar o spacy que já está instalado no colab.

A versão que está disponível não dá suporte ao modelo de dados em portugues.

https://spacy.io/usage

In [None]:
pip install -U spacy

Collecting spacy
 Downloading spacy-3.1.3-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.9 MB)
[K |████████████████████████████████| 5.9 MB 5.2 MB/s 
[?25hCollecting pathy>=0.3.5
 Downloading pathy-0.6.0-py3-none-any.whl (42 kB)
[K |████████████████████████████████| 42 kB 1.5 MB/s 
[?25hCollecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
 Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[K |████████████████████████████████| 10.1 MB 20.2 MB/s 
Collecting typer<0.5.0,>=0.3.0
 Downloading typer-0.4.0-py3-none-any.whl (27 kB)
Collecting catalogue<2.1.0,>=2.0.6
 Downloading catalogue-2.0.6-py3-none-any.whl (17 kB)
Collecting thinc<8.1.0,>=8.0.9
 Downloading thinc-8.0.10-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (623 kB)
[K |████████████████████████████████| 623 kB 53.0 MB/s 
Collecting spacy-legacy<3.1.0,>=3.0.8
 Downloading spacy_legacy-3.0.8-py2.py3-none-any.whl (14 kB)
Collecting srsly<3.0.0,>=2.4.1
 Downloading srsly-2.4.1-cp37-cp3

**Depois de instalar precisamos baixar os pacotes complementares**

In [None]:
pip install -U spacy-lookups-data

Collecting spacy-lookups-data
 Downloading spacy_lookups_data-1.0.2-py2.py3-none-any.whl (97.3 MB)
[K |████████████████████████████████| 97.3 MB 66 kB/s 
Installing collected packages: spacy-lookups-data
Successfully installed spacy-lookups-data-1.0.2


**E finalmente instalamos o modelo de língua disponibilizado pelo spaCy**

In [None]:
!python -m spacy download pt_core_news_lg
#!python -m spacy download pt_core_news_md
#!python -m spacy download pt_core_news_sm

Collecting pt-core-news-lg==3.1.0
 Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.1.0/pt_core_news_lg-3.1.0-py3-none-any.whl (576.7 MB)
[K |████████████████████████████████| 576.7 MB 19 kB/s 
Installing collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


**Agora, o uso efetivo da biblioteca**

In [None]:
import spacy

# Um texto de exemplo
texto = "Para políticos e infectologistas, a opção de Michelle de se 10 vacinar nos EUA, não no Brasil, 2021 é um absurdo e um desprezo ao SUS (Sistema Único de Saúde) e ao PNI (Programa Nacional de Imunizações)."

# Carregamos o modelo de língua que baixamos
nlp = spacy.load("pt_core_news_lg")

# Usamos o modelo para analisar o nosso texto :)
doc = nlp(texto)

**Usando a variável "doc" podemos acessar os tokens e as diversas análises feitas pelo spaCy**

In [None]:
# geração da lista de tokens (tokenização)

# Observe que essa estrutura pode ser convertida para a seguinte:
# tokens = []
# for token in tokens:
# tokens.append(token)

tokens = [token for token in doc]
tokens

[Para,
 políticos,
 e,
 infectologistas,
 ,,
 a,
 opção,
 de,
 Michelle,
 de,
 se,
 vacinar,
 nos,
 EUA,
 ,,
 não,
 no,
 Brasil,
 ,,
 é,
 um,
 absurdo,
 e,
 um,
 desprezo,
 ao,
 SUS,
 (,
 Sistema,
 Único,
 de,
 Saúde,
 ),
 e,
 ao,
 PNI,
 (,
 Programa,
 Nacional,
 de,
 Imunizações,
 ),
 .]

**Salvando na lista o texto dos tokens:** ***.orth_***

In [None]:
tokens = [token.orth_ for token in doc]
tokens

['Para',
 'políticos',
 'e',
 'infectologistas',
 ',',
 'a',
 'opção',
 'de',
 'Michelle',
 'de',
 'se',
 'vacinar',
 'nos',
 'EUA',
 ',',
 'não',
 'no',
 'Brasil',
 ',',
 'é',
 'um',
 'absurdo',
 'e',
 'um',
 'desprezo',
 'ao',
 'SUS',
 '(',
 'Sistema',
 'Único',
 'de',
 'Saúde',
 ')',
 'e',
 'ao',
 'PNI',
 '(',
 'Programa',
 'Nacional',
 'de',
 'Imunizações',
 ')',
 '.']

**Demais atributos**


* .is_apha
* .is_digit
* .is_punct

https://spacy.io/api/token#attributes



In [None]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print("Alpha Tokens: %s " % (alpha_tokens))

digit_tokens = [token.orth_ for token in doc if token.is_digit]
print("Digit Tokens: %s " % (digit_tokens))

punct_tokens = [token.orth_ for token in doc if token.is_punct]
print("Punct Tokens: %s " % (punct_tokens))

Alpha Tokens: ['Para', 'políticos', 'e', 'infectologistas', 'a', 'opção', 'de', 'Michelle', 'de', 'se', 'vacinar', 'nos', 'EUA', 'não', 'no', 'Brasil', 'é', 'um', 'absurdo', 'e', 'um', 'desprezo', 'ao', 'SUS', 'Sistema', 'Único', 'de', 'Saúde', 'e', 'ao', 'PNI', 'Programa', 'Nacional', 'de', 'Imunizações'] 
Digit Tokens: ['10', '2021'] 
Punct Tokens: [',', ',', ',', '(', ')', '(', ')', '.'] 


**Vamos trabalhar com nosso corpus de teste :)**

In [None]:
corpus = open('/content/drive/MyDrive/recursos/corpus_teste.txt').read()
corpus

'Giants batem os Patriots no Super Bowl XLII\nAzarões acabam com a invencibilidade de New England e ficam com o título da temporada\n04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m\n\nCom um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. \n\nA vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.\n\nA partida\n\nOs Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. 

In [None]:
import spacy

nlp = spacy.load("pt_core_news_lg")
doc = nlp(corpus)

tokens = [token.orth_ for token in doc]
tokens

['Giants',
 'batem',
 'os',
 'Patriots',
 'no',
 'Super',
 'Bowl',
 'XLII',
 '\n',
 'Azarões',
 'acabam',
 'com',
 'a',
 'invencibilidade',
 'de',
 'New',
 'England',
 'e',
 'ficam',
 'com',
 'o',
 'título',
 'da',
 'temporada',
 '\n',
 '04/02/2008',
 '-',
 '01h07',
 'm',
 '-',
 'Atualizado',
 'em',
 '04/02/2008',
 '-',
 '09h49',
 'm',
 '\n\n',
 'Com',
 'um',
 'passe',
 'de',
 'Eli',
 'Manning',
 'para',
 'Plaxico',
 'Burress',
 'a',
 '39',
 'segundos',
 'do',
 'fim',
 ',',
 'o',
 'New',
 'York',
 'Giants',
 'anotou',
 'o',
 'touchdown',
 'decisivo',
 'e',
 'derrubou',
 'o',
 'favorito',
 'New',
 'England',
 'Patriots',
 'por',
 '17',
 'a',
 '14',
 'neste',
 'domingo',
 ',',
 'em',
 'Glendale',
 ',',
 'no',
 'Super',
 'Bowl',
 'XLII',
 '.',
 'O',
 'resultado',
 ',',
 'uma',
 'das',
 'maiores',
 'zebras',
 'da',
 'história',
 'do',
 'Super',
 'Bowl',
 ',',
 'acabou',
 'com',
 'a',
 'temporada',
 'perfeita',
 'de',
 'Tom',
 'Brady',
 'e',
 'companhia',
 ',',
 'que',
 'esperavam',
 'fazer

In [None]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print("Alpha Tokens: %s " % (alpha_tokens))

digit_tokens = [token.orth_ for token in doc if token.is_digit]
print("Digit Tokens: %s " % (digit_tokens))

punct_tokens = [token.orth_ for token in doc if token.is_punct]
print("Punct Tokens: %s " % (punct_tokens))

Alpha Tokens: ['Giants', 'batem', 'os', 'Patriots', 'no', 'Super', 'Bowl', 'XLII', 'Azarões', 'acabam', 'com', 'a', 'invencibilidade', 'de', 'New', 'England', 'e', 'ficam', 'com', 'o', 'título', 'da', 'temporada', 'm', 'Atualizado', 'em', 'm', 'Com', 'um', 'passe', 'de', 'Eli', 'Manning', 'para', 'Plaxico', 'Burress', 'a', 'segundos', 'do', 'fim', 'o', 'New', 'York', 'Giants', 'anotou', 'o', 'touchdown', 'decisivo', 'e', 'derrubou', 'o', 'favorito', 'New', 'England', 'Patriots', 'por', 'a', 'neste', 'domingo', 'em', 'Glendale', 'no', 'Super', 'Bowl', 'XLII', 'O', 'resultado', 'uma', 'das', 'maiores', 'zebras', 'da', 'história', 'do', 'Super', 'Bowl', 'acabou', 'com', 'a', 'temporada', 'perfeita', 'de', 'Tom', 'Brady', 'e', 'companhia', 'que', 'esperavam', 'fazer', 'história', 'ao', 'levantar', 'o', 'troféu', 'da', 'NFL', 'sem', 'sofrer', 'uma', 'derrota', 'no', 'ano', 'A', 'vitória', 'dos', 'Giants', 'porém', 'também', 'ficará', 'para', 'a', 'história', 'Pela', 'primeira', 'vez', 'irmã

**Lemmatização: *.lemma_***

In [None]:
lemmas = [token.lemma_ for token in doc if token.pos_ == 'VERB']
lemmas

['bater',
 'acabar',
 'ficar',
 'Atualizado',
 'anotar',
 'derrubar',
 'acabar',
 'esperar',
 'fazer',
 'levantar',
 'sofrer',
 'ficar',
 'triunfar',
 'chegar',
 'começar',
 'mostrar',
 'alongar',
 'Misturando',
 'chegar',
 'parar',
 'converter',
 'abrir',
 'ficar',
 'entrar',
 'avançar',
 'deixar',
 'chegar',
 'alcançar',
 'avançar',
 'anotar',
 'parecer',
 'achar',
 'entrar',
 'sofrer',
 'passar',
 'soltar',
 'aproveitar',
 'tomar',
 'avançar',
 'manter',
 'seguir',
 'forçar',
 'recuperar',
 'provar',
 'chegar',
 'sofrer',
 'cometer',
 'voltar',
 'conseguir',
 'pontuar',
 'ter',
 'marcar',
 'sacar',
 'cometer',
 'tomar',
 'tentar',
 'ter',
 'continuar',
 'amarrar',
 'levar',
 'pontuar',
 'chegar',
 'optar',
 'tentar',
 'conseguir',
 'completar',
 'começar',
 'achar',
 'deixar',
 'marcar',
 'pegar',
 'anotar',
 'virar',
 'voltar',
 'funcionar',
 'achar',
 'seguir',
 'chegar',
 'conectar',
 'desmarcar',
 'ficar',
 'comemorar',
 'acontecer',
 'soltar',
 'segurar',
 'lançar',
 'marcar',


**Etiquetas morfosintáticas: *.pos_***

In [None]:
pos = [(token.orth_, token.pos_) for token in doc]
pos

[('Giants', 'PROPN'),
 ('batem', 'VERB'),
 ('os', 'DET'),
 ('Patriots', 'PROPN'),
 ('no', 'ADP'),
 ('Super', 'PROPN'),
 ('Bowl', 'PROPN'),
 ('XLII', 'PROPN'),
 ('\n', 'SPACE'),
 ('Azarões', 'PROPN'),
 ('acabam', 'VERB'),
 ('com', 'ADP'),
 ('a', 'DET'),
 ('invencibilidade', 'NOUN'),
 ('de', 'ADP'),
 ('New', 'PROPN'),
 ('England', 'PROPN'),
 ('e', 'CCONJ'),
 ('ficam', 'VERB'),
 ('com', 'ADP'),
 ('o', 'DET'),
 ('título', 'NOUN'),
 ('da', 'ADP'),
 ('temporada', 'NOUN'),
 ('\n', 'SPACE'),
 ('04/02/2008', 'NUM'),
 ('-', 'PUNCT'),
 ('01h07', 'NUM'),
 ('m', 'NUM'),
 ('-', 'PUNCT'),
 ('Atualizado', 'VERB'),
 ('em', 'ADP'),
 ('04/02/2008', 'NUM'),
 ('-', 'PUNCT'),
 ('09h49', 'NUM'),
 ('m', 'ADP'),
 ('\n\n', 'SPACE'),
 ('Com', 'ADP'),
 ('um', 'DET'),
 ('passe', 'NOUN'),
 ('de', 'ADP'),
 ('Eli', 'PROPN'),
 ('Manning', 'PROPN'),
 ('para', 'ADP'),
 ('Plaxico', 'PROPN'),
 ('Burress', 'PROPN'),
 ('a', 'ADP'),
 ('39', 'NUM'),
 ('segundos', 'NOUN'),
 ('do', 'ADP'),
 ('fim', 'NOUN'),
 (',', 'PUNCT'),
 ('

**Análise morfosintática: *.morph***

In [None]:
morfologicas = [(token.orth_, token.morph) for token in doc]
morfologicas

[('Giants', Gender=Masc|Number=Sing),
 ('batem', Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin),
 ('os', Definite=Def|Gender=Masc|Number=Plur|PronType=Art),
 ('Patriots', Gender=Masc|Number=Plur),
 ('no', Definite=Def|Gender=Masc|Number=Sing|PronType=Art),
 ('Super', Gender=Masc|Number=Sing),
 ('Bowl', Number=Sing),
 ('XLII', Number=Sing),
 ('\n', ),
 ('Azarões', Number=Sing),
 ('acabam', Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin),
 ('com', ),
 ('a', Definite=Def|Gender=Fem|Number=Sing|PronType=Art),
 ('invencibilidade', Gender=Fem|Number=Sing),
 ('de', ),
 ('New', Gender=Masc|Number=Sing),
 ('England', Number=Sing),
 ('e', ),
 ('ficam', Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin),
 ('com', ),
 ('o', Definite=Def|Gender=Masc|Number=Sing|PronType=Art),
 ('título', Gender=Masc|Number=Sing),
 ('da', Definite=Def|Gender=Fem|Number=Sing|PronType=Art),
 ('temporada', Gender=Fem|Number=Sing),
 ('\n', ),
 ('04/02/2008', NumType=Card),
 ('-', ),
 ('01h07', NumType

**Reconhecimento de Entidades Nomeadas**

In [None]:
entidades_nomeadas = list(doc.ents)
print(entidades_nomeadas)

detalhes_entidades = [(entidade, entidade.label_) for entidade in doc.ents]
detalhes_entidades

[Giants, Patriots, Super Bowl XLII
, Azarões, New England, Eli Manning, Plaxico Burress, New York Giants, New England Patriots, Glendale, Super Bowl XLII, Super Bowl, Tom Brady, NFL, Giants, Super Bowl, Peyton Manning, Eli, NFL, Indianapolis Colts, Giants, Brandon Jacobs, Nova York, red zone, Lawrence Tynes, Eli Manning, Patriots, Laurence Maroney, Tom Brady, Patriots, Antonio Pierce, Maroney, Giants, Manning, Amani Toomer, Nova York, red zone, Patriots, Giants, Manning, Steve Smith, Ellis Hobbs, Patriots, Nova York, Giants, Nova York, Manning, Patriots, Brady, Giants, Manning, Patriots, Giants, Bill Bellichick, Brady, Jabar Gaffney, Giants, Manning, Kevin Boss, Patriots, Steve Smith, David Tyree, end zone, Patriots, Brady, Wes Welker, Randy Moss, Kevin Faulk, red zone, Moss, end zone, New England, Eli Manning, Amani Toomer, Giants, New England, Manning, Plaxico Burress, end zone]


[(Giants, 'ORG'),
 (Patriots, 'MISC'),
 (Super Bowl XLII, 'ORG'),
 (Azarões, 'LOC'),
 (New England, 'LOC'),
 (Eli Manning, 'PER'),
 (Plaxico Burress, 'PER'),
 (New York Giants, 'ORG'),
 (New England Patriots, 'MISC'),
 (Glendale, 'LOC'),
 (Super Bowl XLII, 'ORG'),
 (Super Bowl, 'ORG'),
 (Tom Brady, 'PER'),
 (NFL, 'ORG'),
 (Giants, 'ORG'),
 (Super Bowl, 'ORG'),
 (Peyton Manning, 'PER'),
 (Eli, 'PER'),
 (NFL, 'ORG'),
 (Indianapolis Colts, 'ORG'),
 (Giants, 'ORG'),
 (Brandon Jacobs, 'PER'),
 (Nova York, 'LOC'),
 (red zone, 'ORG'),
 (Lawrence Tynes, 'PER'),
 (Eli Manning, 'PER'),
 (Patriots, 'MISC'),
 (Laurence Maroney, 'PER'),
 (Tom Brady, 'PER'),
 (Patriots, 'MISC'),
 (Antonio Pierce, 'PER'),
 (Maroney, 'PER'),
 (Giants, 'ORG'),
 (Manning, 'PER'),
 (Amani Toomer, 'PER'),
 (Nova York, 'LOC'),
 (red zone, 'ORG'),
 (Patriots, 'MISC'),
 (Giants, 'ORG'),
 (Manning, 'PER'),
 (Steve Smith, 'PER'),
 (Ellis Hobbs, 'PER'),
 (Patriots, 'MISC'),
 (Nova York, 'LOC'),
 (Giants, 'ORG'),
 (Nova York, 'L

**Vamos visualizar as entidades!**

In [None]:
html = spacy.displacy.render(doc, style="ent")
output_path = open('entidades_nomadas.html', 'w', encoding="utf-8")
output_path.write(html)
output_path.close()

**Análise sintática de dependências**

In [None]:
sintaxe = [(token.orth_, token.dep_) for token in doc]
print(sintaxe)

[('Giants', 'nsubj'), ('batem', 'ROOT'), ('os', 'det'), ('Patriots', 'obj'), ('no', 'case'), ('Super', 'obl'), ('Bowl', 'flat:name'), ('XLII', 'flat:name'), ('\n', 'dep'), ('Azarões', 'flat:name'), ('acabam', 'conj'), ('com', 'case'), ('a', 'det'), ('invencibilidade', 'obl'), ('de', 'case'), ('New', 'nmod'), ('England', 'flat:name'), ('e', 'cc'), ('ficam', 'conj'), ('com', 'case'), ('o', 'det'), ('título', 'obl'), ('da', 'case'), ('temporada', 'nmod'), ('\n', 'aux:pass'), ('04/02/2008', 'obl'), ('-', 'punct'), ('01h07', 'obl'), ('m', 'obj'), ('-', 'punct'), ('Atualizado', 'acl'), ('em', 'case'), ('04/02/2008', 'obl'), ('-', 'punct'), ('09h49', 'nsubj'), ('m', 'punct'), ('\n\n', 'parataxis'), ('Com', 'case'), ('um', 'det'), ('passe', 'nmod'), ('de', 'case'), ('Eli', 'nmod'), ('Manning', 'flat:name'), ('para', 'case'), ('Plaxico', 'nmod'), ('Burress', 'flat:name'), ('a', 'case'), ('39', 'nummod'), ('segundos', 'nmod'), ('do', 'case'), ('fim', 'nmod'), (',', 'punct'), ('o', 'det'), ('New'

**Vamos visualizar a árvore de dependências**

In [None]:
visualizar_sintaxe = spacy.displacy.render(doc, style='dep')
output_path = open('analise_dependencia.svg', 'w', encoding="utf-8")
output_path.write(visualizar_sintaxe)
output_path.close()