{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "name": "Aula 4 - NLTK -Python para PLN.ipynb", "provenance": [], "collapsed_sections": [] }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "markdown", "metadata": { "id": "JOA0LNAjL2bS" }, "source": [ "# Importando o NLTK\n", "\n", "Importar um módulo ou biblioteca significa informar para o programa que você está criando/executando que precisa daquela biblioteca específica.\n", "\n", "É possível fazer uma analogia, imagine que você precisa estudar para as provas de Matemática e Português. Você pega seus livros para estudar. Nessa analogia os livros são as \"bibliotecas externas\" nas quais você quer estudar o assunto." ] }, { "cell_type": "code", "metadata": { "id": "PAhFdxNexiye" }, "source": [ "import nltk" ], "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "fofl3BUKL6uc" }, "source": [ "# Fazendo o download dos dados complementares do NLTK\n", "\n", "Os desenvolvedores do NLTK decidiram manter o arquivo de instalação (pip install nltk) com o mínimo de arquivos possível para facilitar o download e instalação. Portanto, eles permitem fazer o download dos arquivos complementares de acordo com a demanda dos desenvolvedores. \n", "\n", "Para fazer isso, basta executar o código abaixo e seguir as instruções apresentadas." ] }, { "cell_type": "code", "metadata": { "id": "rjYDsdnhyIK7" }, "source": [ "nltk.download()" ], "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "jMrXAgo9MBWH" }, "source": [ "# O que encontramos no NLTK?\n", "\n", "As células abaixo apresentam o exemplo de um dos córpus em Português que podemos acessar com o NLTK. \n", "\n", "MACMORPHO - http://nilc.icmc.usp.br/macmorpho/" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "HZEiXffDz3Do", "outputId": "8ec849e7-d54b-4ec1-ef77-fcf6b4e0354a" }, "source": [ "# Mostrar as palavras existentes no MACMorpho\n", "# Observe que elas estão dispostas em uma estrutura de Lista\n", "# Observe também a estrutura para acessar o córpus e seus tokens, imagine \n", "# que está acessando uma estrutura de árvore, com uma raiz e vários ramos filhos.\n", "\n", "nltk.corpus.mac_morpho.words()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]" ] }, "metadata": {}, "execution_count": 7 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "IvF41ORQ0vKL", "outputId": "f446e8dd-eab7-4a66-dc14-7cdf14db3818" }, "source": [ "nltk.corpus.mac_morpho.sents()[1]" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['Programe',\n", " 'sua',\n", " 'viagem',\n", " 'a',\n", " 'a',\n", " 'Exposição',\n", " 'Nacional',\n", " 'do',\n", " 'Zebu',\n", " ',',\n", " 'que',\n", " 'começa',\n", " 'dia',\n", " '25']" ] }, "metadata": {}, "execution_count": 10 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "jHMm8CPz1SIp", "outputId": "72a8a6be-c746-4e8e-c667-7b5fa57686d6" }, "source": [ "nltk.corpus.mac_morpho.tagged_words()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]" ] }, "metadata": {}, "execution_count": 11 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "UtCC0wPq1p8Z", "outputId": "b555d512-a4da-4b0b-b64c-98e92fbcc32f" }, "source": [ "nltk.corpus.mac_morpho.tagged_sents()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]" ] }, "metadata": {}, "execution_count": 12 } ] }, { "cell_type": "markdown", "metadata": { "id": "7kqU92ykMKlO" }, "source": [ "# Primeira tarefa com o NLTK - a Tokenização\n", "\n", "Observe que essa é a forma mais simples de tokenizar um texto usando o NLTK.\n", "\n", "A função (trecho de código pré-desenvolvido que executa uma ação) *word_tokenize()* recebe um texto e retorna uma lista de tokens." ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "QotSBAFa-yo2", "outputId": "f5247e67-ad04-4ec0-ab56-b845585d8366" }, "source": [ "nltk.word_tokenize(\"Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.\")" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['Com',\n", " 'um',\n", " 'passe',\n", " 'de',\n", " 'Eli',\n", " 'Manning',\n", " 'para',\n", " 'Plaxico',\n", " 'Burress',\n", " 'a',\n", " '39',\n", " 'segundos',\n", " 'do',\n", " 'fim',\n", " ',',\n", " 'o',\n", " 'New',\n", " 'York',\n", " 'Giants',\n", " 'anotou',\n", " 'o',\n", " 'touchdown',\n", " 'decisivo',\n", " 'e',\n", " 'derrubou',\n", " 'o',\n", " 'favorito',\n", " 'New',\n", " 'England',\n", " 'Patriots',\n", " 'por',\n", " '17',\n", " 'a',\n", " '14',\n", " 'neste',\n", " 'domingo',\n", " ',',\n", " 'em',\n", " 'Glendale',\n", " ',',\n", " 'no',\n", " 'Super',\n", " 'Bowl',\n", " 'XLII',\n", " '.']" ] }, "metadata": {}, "execution_count": 13 } ] }, { "cell_type": "markdown", "metadata": { "id": "ipyMynSwMOi4" }, "source": [ "# Formas adicionais avançadas para tokenização de um texto\n", "\n", "O conceito utilizado nas células seguintes é o de Expressões Regulares. \n", "\n", "Expressões regulares (chamadas REs, ou regexes ou padrões regex) são essencialmente uma mini linguagem de programação altamente especializada incluída dentro do Python. \n", "\n", "Usando esta pequena linguagem, você especifica as regras para o conjunto de strings possíveis que você quer combinar; esse conjunto pode conter sentenças em inglês, endereços de e-mail, ou comandos TeX ou qualquer coisa que você queira. Você poderá então perguntar coisas como “Essa string se enquadra dentro do padrão?” ou “Existe alguma parte da string que se enquadra nesse padrão?”. Você também pode usar as REs para modificar uma string ou dividi-la de diversas formas.\n", "\n", "https://docs.python.org/pt-br/3.8/howto/regex.html\n", "\n", "https://www.w3schools.com/python/python_regex.asp\n" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "09jsmJtjBFyM", "outputId": "ba18a5d5-7f39-4929-8fed-d4905481271e" }, "source": [ "# Informando ao programa que vamos utilizar a classe RegexpTokenizer\n", "# observe que é outra forma de fazer a 'importação' de um módulo\n", "from nltk.tokenize import RegexpTokenizer\n", "\n", "# Nosso texto\n", "texto = \"Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.\"\n", "\n", "# Criando o \"objeto\" que vai tokenizar nosso texto.\n", "# Nesse caso usamos uma expressão regular que vai retornar todos os tokens\n", "# textuais (letras do alfabeto, números e underscore). \n", "# Não queremos os símbolos.\n", "tokenizer = RegexpTokenizer(r'\\w+')\n", "\n", "# Executando o método do objeto tokenizador\n", "tokens = tokenizer.tokenize(texto)\n", "\n", "# Nossos tokens :)\n", "tokens" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['Com',\n", " 'um',\n", " 'passe',\n", " 'de',\n", " 'Eli',\n", " 'Manning',\n", " 'para',\n", " 'Plaxico',\n", " 'Burress',\n", " 'a',\n", " '39',\n", " 'segundos',\n", " 'do',\n", " 'fim',\n", " 'o',\n", " 'New',\n", " 'York',\n", " 'Giants',\n", " 'anotou',\n", " 'o',\n", " 'touchdown',\n", " 'decisivo',\n", " 'e',\n", " 'derrubou',\n", " 'o',\n", " 'favorito',\n", " 'New',\n", " 'England',\n", " 'Patriots',\n", " 'por',\n", " '17',\n", " 'a',\n", " '14',\n", " 'neste',\n", " 'domingo',\n", " 'em',\n", " 'Glendale',\n", " 'no',\n", " 'Super',\n", " 'Bowl',\n", " 'XLII']" ] }, "metadata": {}, "execution_count": 15 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "CNMY7w9jDUO7", "outputId": "c02e4918-0c30-4766-f6dc-92842b40950a" }, "source": [ "# Informando ao programa que vamos utilizar a classe RegexpTokenizer\n", "# observe que é outra forma de fazer a 'importação' de um módulo\n", "from nltk.tokenize import RegexpTokenizer\n", "\n", "# Nosso texto\n", "texto = \"Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.\"\n", "\n", "# Criando o \"objeto\" que vai tokenizar nosso texto.\n", "# Nesse caso usamos uma expressão regular que vai retornar somente os tokens\n", "# com letras maiúsculas e minúsculas. Não queremos os símbolos e números.\n", "tokenizer = RegexpTokenizer(r'[a-zA-Z]\\w+')\n", "\n", "tokens = tokenizer.tokenize(texto)\n", "tokens" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "['Com',\n", " 'um',\n", " 'passe',\n", " 'de',\n", " 'Eli',\n", " 'Manning',\n", " 'para',\n", " 'Plaxico',\n", " 'Burress',\n", " 'segundos',\n", " 'do',\n", " 'fim',\n", " 'New',\n", " 'York',\n", " 'Giants',\n", " 'anotou',\n", " 'touchdown',\n", " 'decisivo',\n", " 'derrubou',\n", " 'favorito',\n", " 'New',\n", " 'England',\n", " 'Patriots',\n", " 'por',\n", " 'neste',\n", " 'domingo',\n", " 'em',\n", " 'Glendale',\n", " 'no',\n", " 'Super',\n", " 'Bowl',\n", " 'XLII']" ] }, "metadata": {}, "execution_count": 17 } ] }, { "cell_type": "markdown", "metadata": { "id": "6FYMuJN3MY2i" }, "source": [ "# Frequência de tokens\n", "\n", "Muitas vezes é interessante saber a frequencia em que os tokens aparecem em um texto. Com a classe *FreqDist* podemos calcular facilmente.\n", "\n", "**Nesse primeiro exemplo, como será a frequencia usando todos os tokens?**" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "TvahZUEmFV1g", "outputId": "1398f03d-afd2-49c1-bde8-b99d7c29636c" }, "source": [ "# Nosso texto\n", "texto = \"Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.\"\n", "\n", "# Tokenizamos nosso texto usando a word_tokenize\n", "tokens = nltk.word_tokenize(texto)\n", "\n", "# Calculando nossa frequencia de palavras\n", "frequencia = nltk.FreqDist(tokens)\n", "\n", "# Recuperamos a lista de frequencia usando a função most_common()\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[(',', 3),\n", " ('o', 3),\n", " ('a', 2),\n", " ('New', 2),\n", " ('Com', 1),\n", " ('um', 1),\n", " ('passe', 1),\n", " ('de', 1),\n", " ('Eli', 1),\n", " ('Manning', 1),\n", " ('para', 1),\n", " ('Plaxico', 1),\n", " ('Burress', 1),\n", " ('39', 1),\n", " ('segundos', 1),\n", " ('do', 1),\n", " ('fim', 1),\n", " ('York', 1),\n", " ('Giants', 1),\n", " ('anotou', 1),\n", " ('touchdown', 1),\n", " ('decisivo', 1),\n", " ('e', 1),\n", " ('derrubou', 1),\n", " ('favorito', 1),\n", " ('England', 1),\n", " ('Patriots', 1),\n", " ('por', 1),\n", " ('17', 1),\n", " ('14', 1),\n", " ('neste', 1),\n", " ('domingo', 1),\n", " ('em', 1),\n", " ('Glendale', 1),\n", " ('no', 1),\n", " ('Super', 1),\n", " ('Bowl', 1),\n", " ('XLII', 1),\n", " ('.', 1)]" ] }, "metadata": {}, "execution_count": 22 } ] }, { "cell_type": "markdown", "metadata": { "id": "N9wUgKFEMeM1" }, "source": [ "**E se excluírmos as pontuações?**" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "HL3l9yQnGWj7", "outputId": "83494e8f-76ab-4807-f302-f54f25997873" }, "source": [ "from nltk.tokenize import RegexpTokenizer\n", "texto = \"Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.\"\n", "\n", "tokenizer = RegexpTokenizer(r'\\w+')\n", "tokens = tokenizer.tokenize(texto)\n", "\n", "frequencia = nltk.FreqDist(tokens)\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('o', 3),\n", " ('a', 2),\n", " ('New', 2),\n", " ('Com', 1),\n", " ('um', 1),\n", " ('passe', 1),\n", " ('de', 1),\n", " ('Eli', 1),\n", " ('Manning', 1),\n", " ('para', 1),\n", " ('Plaxico', 1),\n", " ('Burress', 1),\n", " ('39', 1),\n", " ('segundos', 1),\n", " ('do', 1),\n", " ('fim', 1),\n", " ('York', 1),\n", " ('Giants', 1),\n", " ('anotou', 1),\n", " ('touchdown', 1),\n", " ('decisivo', 1),\n", " ('e', 1),\n", " ('derrubou', 1),\n", " ('favorito', 1),\n", " ('England', 1),\n", " ('Patriots', 1),\n", " ('por', 1),\n", " ('17', 1),\n", " ('14', 1),\n", " ('neste', 1),\n", " ('domingo', 1),\n", " ('em', 1),\n", " ('Glendale', 1),\n", " ('no', 1),\n", " ('Super', 1),\n", " ('Bowl', 1),\n", " ('XLII', 1)]" ] }, "metadata": {}, "execution_count": 23 } ] }, { "cell_type": "markdown", "metadata": { "id": "8l7M6CZnMpve" }, "source": [ "# Acessando córpus externos\n", "\n", "Como já foi apresentado, podemos acessar nossos arquivos que estão no Google Drive apenas \"montando\" nosso drive no ícone na barra à esquerda. \n", "\n", "Para acessar o conteúdo do arquivo, devemos usar a função *open()* que está embutida no python. Essa função retorna o arquivo no formato que o python entende. Para lermos o seu conteúdo devemos usar a função *read()*." ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "QYomAwvfHTHF", "outputId": "73761fdf-fa9c-4c56-e0af-ebef8698ae84" }, "source": [ "# Abrindo nosso córpus\n", "# Nesse código concatenamos a função open com a função read\n", "# Sem concatenar teríamos a seguinte construção\n", "# infile = open('/content/drive/MyDrive/recursos/corpus_teste.txt')\n", "# corpus = infile.read()\n", "\n", "corpus = open('/content/drive/MyDrive/recursos/corpus_teste.txt').read()\n", "print(corpus)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Giants batem os Patriots no Super Bowl XLII\n", "Azarões acabam com a invencibilidade de New England e ficam com o título da temporada\n", "04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m\n", "\n", "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. \n", "\n", "A vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.\n", "\n", "A partida\n", "\n", "Os Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. Misturando corridas com Brandon Jacobs e passes curtos, o time de Nova York chegou à red zone logo na primeira campanha. O avanço, no entanto, parou na linha de 17 jardas e Lawrence Tynes converteu o field goal de 32 jardas para abrir o placar.\n", "\n", "Eli Manning e companhia ficaram 9m54s com a bola, mas o ataque dos Patriots não entrou em campo frio. Logo no retorno do kickoff, o running back Laurence Maroney avançou 43 jardas, deixando Tom Brady em boa posição. Com passes curtos, os Patriots chegaram à linha de 17 jardas e, graças a uma penalidade (interferência de passe) do linebacker Antonio Pierce, alcançaram a linha de uma jarda. Maroney avançou pelo chão e anotou o primeiro touchdown do jogo.\n", "\n", "Os Giants pareciam rumo à virada na campanha seguinte. Manning achou Amani Toomer para um avanço de 38 jardas, e o time de Nova York entrou novamente na red zone. Com a bola na linha de 14 jardas dos Patriots, os Giants sofreram um revés. Manning passou para Steve Smith, que soltou a bola. Ellis Hobbs aproveitou, tomou a posse para os Patriots, e avançou 23 jardas. \n", "\n", "A defesa de Nova York manteve o jogo equilibrado. Com dois sacks seguidos, os Giants forçaram o punt e recuperaram a bola. Mas a campanha seguinte provou ser outra decepção para Nova York. O time chegou à linha de 25 jardas, mas Manning sofreu um sack e cometeu um fumble, e o ataque voltou para a linha de 39 jardas, não conseguindo pontuar mais uma vez.\n", "\n", "Os Patriots tiveram uma última chance de marcar antes do intervalo, mas, a 22 segundos do fim do segundo período, Brady foi novamente sacado. Desta vez, ele cometeu o fumble e os Giants tomaram a posse de bola. Manning tentou um passe longo, de 50 jardas, nos últimos segundos, mas não teve sucesso. \n", "\n", "O jogo continuou amarrado no terceiro quarto, com as defesas levando a melhor sobre os ataques. A única chance de pontuar do período foi dos Patriots, que chegaram à linha de 31 jardas dos Giants. O técnico Bill Bellichick, porém, optou por uma quarta descida em vez de um field goal. Brady tentou um passe para Jabar Gaffney, mas não conseguiu completar.\n", "\n", "O último período começou arrasador para os Giants. na primeira jogada, Manning achou o tight end Kevin Boss, para um incrível avanço de 45 jardas, que deixou o time na linha de 35 dos Patriots. Outro lançamento, desta vez para Steve Smith, marcou o avanço até a linha de 12 jardas. Duas jogadas depois, David Tyree pegou um passe de cinco jardas na end zone para anotar o touchdown e virar o jogo.\n", "\n", "Na hora da decisão, o ataque dos Patriots voltou a funcionar. Com uma série de passes curtos e variados, Brady achou Wes Welker, Randy Moss e Kevin Faulk seguidas vezes até chegar à red zone. A 2m45s do fim, o quarterback conectou mais uma vez com Moss, que se desmarcou e ficou livre na lateral direita da end zone.\n", "\n", "Quando os fãs de New England já comemoravam a vitória, o inesperado aconteceu. Em uma jogada incrível, Eli Manning se soltou de dois marcadores que o seguravam pela camisa e, na corrida, lançou para Amani Toomer. O wide receiver, bem marcado, saltou e conseguiu a fazer recepção para um avanço de 32 jardas, deixando os Giants na linha de 24 de New England.\n", "\n", "Quatro jogadas depois, a 39 segundos do fim, Manning achou Plaxico Burress na end zone para conseguir o touchdown do título.\n" ] } ] }, { "cell_type": "markdown", "metadata": { "id": "cGL3NvKOMu9F" }, "source": [ "**Agora vamos tokenizar e calcular a frequência do nosso corpus inteiro :)**" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "C8fB03n6H0oS", "outputId": "5fc1ce22-ccb4-48f0-ba01-4cf3d25b52e6" }, "source": [ "from nltk.tokenize import RegexpTokenizer\n", "\n", "# Não quero símbolos\n", "tokenizer = RegexpTokenizer(r'\\w+')\n", "tokens = tokenizer.tokenize(corpus)\n", "\n", "frequencia = nltk.FreqDist(tokens)\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('de', 34),\n", " ('o', 26),\n", " ('a', 23),\n", " ('e', 21),\n", " ('para', 16),\n", " ('jardas', 15),\n", " ('do', 12),\n", " ('na', 12),\n", " ('Giants', 11),\n", " ('um', 11),\n", " ('os', 10),\n", " ('Patriots', 10),\n", " ('Manning', 10),\n", " ('uma', 10),\n", " ('linha', 10),\n", " ('com', 8),\n", " ('no', 7),\n", " ('O', 7),\n", " ('que', 7),\n", " ('dos', 7),\n", " ('bola', 7),\n", " ('da', 6),\n", " ('em', 6),\n", " ('vez', 6),\n", " ('à', 6),\n", " ('zone', 6),\n", " ('New', 5),\n", " ('Com', 5),\n", " ('passe', 5),\n", " ('York', 5),\n", " ('Brady', 5),\n", " ('A', 5),\n", " ('avanço', 5),\n", " ('mas', 5),\n", " ('Super', 4),\n", " ('Bowl', 4),\n", " ('England', 4),\n", " ('Eli', 4),\n", " ('segundos', 4),\n", " ('fim', 4),\n", " ('touchdown', 4),\n", " ('time', 4),\n", " ('Nova', 4),\n", " ('não', 4),\n", " ('jogo', 4),\n", " ('achou', 4),\n", " ('end', 4),\n", " ('título', 3),\n", " ('39', 3),\n", " ('17', 3),\n", " ('história', 3),\n", " ('ao', 3),\n", " ('primeira', 3),\n", " ('chegou', 3),\n", " ('Os', 3),\n", " ('posse', 3),\n", " ('passes', 3),\n", " ('curtos', 3),\n", " ('red', 3),\n", " ('campanha', 3),\n", " ('ataque', 3),\n", " ('avançou', 3),\n", " ('período', 3),\n", " ('XLII', 2),\n", " ('temporada', 2),\n", " ('04', 2),\n", " ('02', 2),\n", " ('2008', 2),\n", " ('Plaxico', 2),\n", " ('Burress', 2),\n", " ('anotou', 2),\n", " ('por', 2),\n", " ('14', 2),\n", " ('Tom', 2),\n", " ('companhia', 2),\n", " ('fazer', 2),\n", " ('NFL', 2),\n", " ('ano', 2),\n", " ('vitória', 2),\n", " ('porém', 2),\n", " ('máximo', 2),\n", " ('pelo', 2),\n", " ('logo', 2),\n", " ('field', 2),\n", " ('goal', 2),\n", " ('32', 2),\n", " ('entrou', 2),\n", " ('Maroney', 2),\n", " ('deixando', 2),\n", " ('chegaram', 2),\n", " ('seguinte', 2),\n", " ('Amani', 2),\n", " ('Toomer', 2),\n", " ('novamente', 2),\n", " ('Steve', 2),\n", " ('Smith', 2),\n", " ('soltou', 2),\n", " ('dois', 2),\n", " ('cometeu', 2),\n", " ('fumble', 2),\n", " ('voltou', 2),\n", " ('pontuar', 2),\n", " ('mais', 2),\n", " ('chance', 2),\n", " ('foi', 2),\n", " ('tentou', 2),\n", " ('conseguiu', 2),\n", " ('jogada', 2),\n", " ('Kevin', 2),\n", " ('incrível', 2),\n", " ('até', 2),\n", " ('jogadas', 2),\n", " ('depois', 2),\n", " ('Moss', 2),\n", " ('se', 2),\n", " ('batem', 1),\n", " ('Azarões', 1),\n", " ('acabam', 1),\n", " ('invencibilidade', 1),\n", " ('ficam', 1),\n", " ('01h07m', 1),\n", " ('Atualizado', 1),\n", " ('09h49m', 1),\n", " ('decisivo', 1),\n", " ('derrubou', 1),\n", " ('favorito', 1),\n", " ('neste', 1),\n", " ('domingo', 1),\n", " ('Glendale', 1),\n", " ('resultado', 1),\n", " ('das', 1),\n", " ('maiores', 1),\n", " ('zebras', 1),\n", " ('acabou', 1),\n", " ('perfeita', 1),\n", " ('esperavam', 1),\n", " ('levantar', 1),\n", " ('troféu', 1),\n", " ('sem', 1),\n", " ('sofrer', 1),\n", " ('derrota', 1),\n", " ('também', 1),\n", " ('ficará', 1),\n", " ('Pela', 1),\n", " ('irmãos', 1),\n", " ('quarterbacks', 1),\n", " ('triunfam', 1),\n", " ('temporadas', 1),\n", " ('consecutivas', 1),\n", " ('No', 1),\n", " ('passado', 1),\n", " ('Peyton', 1),\n", " ('irmão', 1),\n", " ('Indianapolis', 1),\n", " ('Colts', 1),\n", " ('partida', 1),\n", " ('começaram', 1),\n", " ('mostraram', 1),\n", " ('iriam', 1),\n", " ('alongar', 1),\n", " ('suas', 1),\n", " ('posses', 1),\n", " ('Misturando', 1),\n", " ('corridas', 1),\n", " ('Brandon', 1),\n", " ('Jacobs', 1),\n", " ('entanto', 1),\n", " ('parou', 1),\n", " ('Lawrence', 1),\n", " ('Tynes', 1),\n", " ('converteu', 1),\n", " ('abrir', 1),\n", " ('placar', 1),\n", " ('ficaram', 1),\n", " ('9m54s', 1),\n", " ('campo', 1),\n", " ('frio', 1),\n", " ('Logo', 1),\n", " ('retorno', 1),\n", " ('kickoff', 1),\n", " ('running', 1),\n", " ('back', 1),\n", " ('Laurence', 1),\n", " ('43', 1),\n", " ('boa', 1),\n", " ('posição', 1),\n", " ('graças', 1),\n", " ('penalidade', 1),\n", " ('interferência', 1),\n", " ('linebacker', 1),\n", " ('Antonio', 1),\n", " ('Pierce', 1),\n", " ('alcançaram', 1),\n", " ('jarda', 1),\n", " ('chão', 1),\n", " ('primeiro', 1),\n", " ('pareciam', 1),\n", " ('rumo', 1),\n", " ('virada', 1),\n", " ('38', 1),\n", " ('sofreram', 1),\n", " ('revés', 1),\n", " ('passou', 1),\n", " ('Ellis', 1),\n", " ('Hobbs', 1),\n", " ('aproveitou', 1),\n", " ('tomou', 1),\n", " ('23', 1),\n", " ('defesa', 1),\n", " ('manteve', 1),\n", " ('equilibrado', 1),\n", " ('sacks', 1),\n", " ('seguidos', 1),\n", " ('forçaram', 1),\n", " ('punt', 1),\n", " ('recuperaram', 1),\n", " ('Mas', 1),\n", " ('provou', 1),\n", " ('ser', 1),\n", " ('outra', 1),\n", " ('decepção', 1),\n", " ('25', 1),\n", " ('sofreu', 1),\n", " ('sack', 1),\n", " ('conseguindo', 1),\n", " ('tiveram', 1),\n", " ('última', 1),\n", " ('marcar', 1),\n", " ('antes', 1),\n", " ('intervalo', 1),\n", " ('22', 1),\n", " ('segundo', 1),\n", " ('sacado', 1),\n", " ('Desta', 1),\n", " ('ele', 1),\n", " ('tomaram', 1),\n", " ('longo', 1),\n", " ('50', 1),\n", " ('nos', 1),\n", " ('últimos', 1),\n", " ('teve', 1),\n", " ('sucesso', 1),\n", " ('continuou', 1),\n", " ('amarrado', 1),\n", " ('terceiro', 1),\n", " ('quarto', 1),\n", " ('as', 1),\n", " ('defesas', 1),\n", " ('levando', 1),\n", " ('melhor', 1),\n", " ('sobre', 1),\n", " ('ataques', 1),\n", " ('única', 1),\n", " ('31', 1),\n", " ('técnico', 1),\n", " ('Bill', 1),\n", " ('Bellichick', 1),\n", " ('optou', 1),\n", " ('quarta', 1),\n", " ('descida', 1),\n", " ('Jabar', 1),\n", " ('Gaffney', 1),\n", " ('completar', 1),\n", " ('último', 1),\n", " ('começou', 1),\n", " ('arrasador', 1),\n", " ('tight', 1),\n", " ('Boss', 1),\n", " ('45', 1),\n", " ('deixou', 1),\n", " ('35', 1),\n", " ('Outro', 1),\n", " ('lançamento', 1),\n", " ('desta', 1),\n", " ('marcou', 1),\n", " ('12', 1),\n", " ('Duas', 1),\n", " ('David', 1),\n", " ('Tyree', 1),\n", " ('pegou', 1),\n", " ('cinco', 1),\n", " ('anotar', 1),\n", " ('virar', 1),\n", " ('Na', 1),\n", " ('hora', 1),\n", " ('decisão', 1),\n", " ('funcionar', 1),\n", " ('série', 1),\n", " ('variados', 1),\n", " ('Wes', 1),\n", " ('Welker', 1),\n", " ('Randy', 1),\n", " ('Faulk', 1),\n", " ('seguidas', 1),\n", " ('vezes', 1),\n", " ('chegar', 1),\n", " ('2m45s', 1),\n", " ('quarterback', 1),\n", " ('conectou', 1),\n", " ('desmarcou', 1),\n", " ('ficou', 1),\n", " ('livre', 1),\n", " ('lateral', 1),\n", " ('direita', 1),\n", " ('Quando', 1),\n", " ('fãs', 1),\n", " ('já', 1),\n", " ('comemoravam', 1),\n", " ('inesperado', 1),\n", " ('aconteceu', 1),\n", " ('Em', 1),\n", " ('marcadores', 1),\n", " ('seguravam', 1),\n", " ('pela', 1),\n", " ('camisa', 1),\n", " ('corrida', 1),\n", " ('lançou', 1),\n", " ('wide', 1),\n", " ('receiver', 1),\n", " ('bem', 1),\n", " ('marcado', 1),\n", " ('saltou', 1),\n", " ('recepção', 1),\n", " ('24', 1),\n", " ('Quatro', 1),\n", " ('conseguir', 1)]" ] }, "metadata": {}, "execution_count": 29 } ] }, { "cell_type": "markdown", "metadata": { "id": "Zcl_3GE-M1L0" }, "source": [ "# Agrupando minúsculas e maiúsculas\n", "\n", "Nas células anteriores percebemos que alguns tokens estão com o texto em maiúsculas e outros em minúsculas. O python considera que são tokens diferentes apenas por conter letras com \"caixa\" diferente. Portanto, precisamos agrupar todas as palavras que sabemos que são a mesma coisa. O modo mais simples é converter todas para minúsculas ou maiúsculas.\n", "\n", "Vimos que podemos modificar uma string para minúsculas ou maiúsculas apenas usando as funções *.lower()* ou *.upper()*, respectivamente." ] }, { "cell_type": "code", "metadata": { "id": "jx-YnEGnIsVb" }, "source": [ "# Vamos usar o tokenizador do tipo Regex\n", "from nltk.tokenize import RegexpTokenizer\n", "\n", "# Vamos considerar apenas as letras\n", "tokenizer = RegexpTokenizer(r'[a-zA-Z]\\w*')\n", "\n", "# Tokenizamos o corpus\n", "tokens = tokenizer.tokenize(corpus)\n", "\n", "# Nesse trecho queremos criar uma nova lista com todos os tokens convertidos em\n", "# minúsculas. Para fazer isso \"caminhamos\" na nossa lista de tokens e executamos\n", "# em cada um a função .lower() e adicionamos esse token convertido na nova lista.\n", "nova_lista = []\n", "\n", "for token in tokens:\n", " nova_lista.append(token.lower())\n", "\n", "# Com todos os tokens convertidos para minúsculas, calcularemos as suas frequencias :)\n", "frequencia = nltk.FreqDist(nova_lista)\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "rkYotK85M7mi" }, "source": [ "# Tokens que não nos interessam\n", "\n", "Alguns tokens que são muito frequentes não ajudam na análise de um texto.\n", "Veja como exemplo a lista de tokens anterior, no topo da lista estão artigos, preposições e etc. No nosso caso não são interessantes. \n", "\n", "O NLTK possui uma lista de tokens considerados desinteressantes e que podem ser removidos de uma lista de tokens sem problemas. Em PLN os chamamos de *stopwords*.\n", "\n", "Para removê-los da nossa lista de tokens, precisamos comparar um a um com a lista de *stopwords*. Caso um token seja uma *stopword* o removeremos da lista de tokens." ] }, { "cell_type": "code", "metadata": { "id": "TMDOSjJhMPih" }, "source": [ "# Acessamos a lista de stopwords do NLTK, para a língua portuguesa\n", "stopwords = nltk.corpus.stopwords.words('portuguese')" ], "execution_count": null, "outputs": [] }, { "cell_type": "code", "metadata": { "id": "uzzoj8scNBeS" }, "source": [ "# Mais uma vez usarmos o tokenizador de Regex\n", "from nltk.tokenize import RegexpTokenizer\n", "\n", "# Somente as palavras\n", "tokenizer = RegexpTokenizer(r'[a-zA-Z]\\w*')\n", "tokens = tokenizer.tokenize(corpus)\n", "\n", "# agora além de convertermos a lista de tokens em minúsculas, vamos comparar\n", "# cada token com a lista de stopwords. Somente vamos adicionar à nova lista \n", "# os tokens que não forem stopwords\n", "nova_lista = []\n", "\n", "for token in tokens:\n", " if token.lower() not in stopwords:\n", " nova_lista.append(token.lower())\n", "\n", "# E agora calculamos a frequencia novamente\n", "frequencia = nltk.FreqDist(nova_lista)\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "metadata": { "id": "fMVXxZovNCuy" }, "source": [ "# List Comprehension\n", "\n", "A técnica de *list comprehension* é uma forma diferente e avançada de criar uma lista. Não é obrigatório saber usá-la, mas é muito interessante conhecer sua construção.\n", "\n", "O python entende que é uma *list comprehension* quando criamos um laço de repetição entre colchetes: [i for i in range(10)]. Essa construção criará a seguinte lista: [0,1,2,3,4,5,6,7,8,9]. Veja que é possível fazer isso sem essa construção.\n", "\n", "Uma forma genérica de imaginar uma *list comprehension* é montar a seguinte estrutura: \n", "\n", "<*lista_final* = **[** *elemento_da_lista* **for** *elemento_da_lista* **in** *lista_de_elementos* **]**>\n", "\n", "Lembrando que você poderá acrescentar alguma condição para o elemento ser acrescentado na lista:\n", "\n", "<*lista_final* = **[** *elemento_da_lista* **for** *elemento_da_lista* **in** *lista_de_elementos* **if** *condição* **]**>" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "xVV5GpUJPG4o", "outputId": "0cc44970-4634-4da1-ac7f-a43cffae1bc2" }, "source": [ "from nltk.tokenize import RegexpTokenizer\n", "\n", "tokenizer = RegexpTokenizer(r'[a-zA-Z]\\w*')\n", "tokens = tokenizer.tokenize(corpus)\n", "\n", "nova_lista = []\n", "\n", "#for token in tokens:\n", "# if token.lower() not in stopwords:\n", "# nova_lista.append(token.lower())\n", "\n", "nova_lista = [token.lower() for token in tokens if token.lower() not in stopwords]\n", "\n", "frequencia = nltk.FreqDist(nova_lista)\n", "frequencia.most_common()" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('jardas', 15),\n", " ('giants', 11),\n", " ('patriots', 10),\n", " ('manning', 10),\n", " ('linha', 10),\n", " ('bola', 7),\n", " ('vez', 6),\n", " ('zone', 6),\n", " ('new', 5),\n", " ('passe', 5),\n", " ('york', 5),\n", " ('brady', 5),\n", " ('avanço', 5),\n", " ('super', 4),\n", " ('bowl', 4),\n", " ('england', 4),\n", " ('eli', 4),\n", " ('segundos', 4),\n", " ('fim', 4),\n", " ('touchdown', 4),\n", " ('time', 4),\n", " ('nova', 4),\n", " ('jogo', 4),\n", " ('achou', 4),\n", " ('end', 4),\n", " ('título', 3),\n", " ('história', 3),\n", " ('primeira', 3),\n", " ('chegou', 3),\n", " ('posse', 3),\n", " ('logo', 3),\n", " ('passes', 3),\n", " ('curtos', 3),\n", " ('red', 3),\n", " ('campanha', 3),\n", " ('ataque', 3),\n", " ('avançou', 3),\n", " ('período', 3),\n", " ('xlii', 2),\n", " ('temporada', 2),\n", " ('plaxico', 2),\n", " ('burress', 2),\n", " ('anotou', 2),\n", " ('tom', 2),\n", " ('companhia', 2),\n", " ('fazer', 2),\n", " ('nfl', 2),\n", " ('ano', 2),\n", " ('vitória', 2),\n", " ('porém', 2),\n", " ('máximo', 2),\n", " ('field', 2),\n", " ('goal', 2),\n", " ('entrou', 2),\n", " ('maroney', 2),\n", " ('deixando', 2),\n", " ('chegaram', 2),\n", " ('seguinte', 2),\n", " ('amani', 2),\n", " ('toomer', 2),\n", " ('novamente', 2),\n", " ('steve', 2),\n", " ('smith', 2),\n", " ('soltou', 2),\n", " ('dois', 2),\n", " ('cometeu', 2),\n", " ('fumble', 2),\n", " ('voltou', 2),\n", " ('pontuar', 2),\n", " ('chance', 2),\n", " ('desta', 2),\n", " ('tentou', 2),\n", " ('conseguiu', 2),\n", " ('jogada', 2),\n", " ('kevin', 2),\n", " ('incrível', 2),\n", " ('jogadas', 2),\n", " ('moss', 2),\n", " ('batem', 1),\n", " ('azarões', 1),\n", " ('acabam', 1),\n", " ('invencibilidade', 1),\n", " ('ficam', 1),\n", " ('h07m', 1),\n", " ('atualizado', 1),\n", " ('h49m', 1),\n", " ('decisivo', 1),\n", " ('derrubou', 1),\n", " ('favorito', 1),\n", " ('neste', 1),\n", " ('domingo', 1),\n", " ('glendale', 1),\n", " ('resultado', 1),\n", " ('maiores', 1),\n", " ('zebras', 1),\n", " ('acabou', 1),\n", " ('perfeita', 1),\n", " ('esperavam', 1),\n", " ('levantar', 1),\n", " ('troféu', 1),\n", " ('sofrer', 1),\n", " ('derrota', 1),\n", " ('ficará', 1),\n", " ('irmãos', 1),\n", " ('quarterbacks', 1),\n", " ('triunfam', 1),\n", " ('temporadas', 1),\n", " ('consecutivas', 1),\n", " ('passado', 1),\n", " ('peyton', 1),\n", " ('irmão', 1),\n", " ('indianapolis', 1),\n", " ('colts', 1),\n", " ('partida', 1),\n", " ('começaram', 1),\n", " ('mostraram', 1),\n", " ('iriam', 1),\n", " ('alongar', 1),\n", " ('posses', 1),\n", " ('misturando', 1),\n", " ('corridas', 1),\n", " ('brandon', 1),\n", " ('jacobs', 1),\n", " ('entanto', 1),\n", " ('parou', 1),\n", " ('lawrence', 1),\n", " ('tynes', 1),\n", " ('converteu', 1),\n", " ('abrir', 1),\n", " ('placar', 1),\n", " ('ficaram', 1),\n", " ('m54s', 1),\n", " ('campo', 1),\n", " ('frio', 1),\n", " ('retorno', 1),\n", " ('kickoff', 1),\n", " ('running', 1),\n", " ('back', 1),\n", " ('laurence', 1),\n", " ('boa', 1),\n", " ('posição', 1),\n", " ('graças', 1),\n", " ('penalidade', 1),\n", " ('interferência', 1),\n", " ('linebacker', 1),\n", " ('antonio', 1),\n", " ('pierce', 1),\n", " ('alcançaram', 1),\n", " ('jarda', 1),\n", " ('chão', 1),\n", " ('primeiro', 1),\n", " ('pareciam', 1),\n", " ('rumo', 1),\n", " ('virada', 1),\n", " ('sofreram', 1),\n", " ('revés', 1),\n", " ('passou', 1),\n", " ('ellis', 1),\n", " ('hobbs', 1),\n", " ('aproveitou', 1),\n", " ('tomou', 1),\n", " ('defesa', 1),\n", " ('manteve', 1),\n", " ('equilibrado', 1),\n", " ('sacks', 1),\n", " ('seguidos', 1),\n", " ('forçaram', 1),\n", " ('punt', 1),\n", " ('recuperaram', 1),\n", " ('provou', 1),\n", " ('ser', 1),\n", " ('outra', 1),\n", " ('decepção', 1),\n", " ('sofreu', 1),\n", " ('sack', 1),\n", " ('conseguindo', 1),\n", " ('ltima', 1),\n", " ('marcar', 1),\n", " ('antes', 1),\n", " ('intervalo', 1),\n", " ('segundo', 1),\n", " ('sacado', 1),\n", " ('tomaram', 1),\n", " ('longo', 1),\n", " ('ltimos', 1),\n", " ('sucesso', 1),\n", " ('continuou', 1),\n", " ('amarrado', 1),\n", " ('terceiro', 1),\n", " ('quarto', 1),\n", " ('defesas', 1),\n", " ('levando', 1),\n", " ('melhor', 1),\n", " ('sobre', 1),\n", " ('ataques', 1),\n", " ('nica', 1),\n", " ('técnico', 1),\n", " ('bill', 1),\n", " ('bellichick', 1),\n", " ('optou', 1),\n", " ('quarta', 1),\n", " ('descida', 1),\n", " ('jabar', 1),\n", " ('gaffney', 1),\n", " ('completar', 1),\n", " ('ltimo', 1),\n", " ('começou', 1),\n", " ('arrasador', 1),\n", " ('tight', 1),\n", " ('boss', 1),\n", " ('deixou', 1),\n", " ('outro', 1),\n", " ('lançamento', 1),\n", " ('marcou', 1),\n", " ('duas', 1),\n", " ('david', 1),\n", " ('tyree', 1),\n", " ('pegou', 1),\n", " ('cinco', 1),\n", " ('anotar', 1),\n", " ('virar', 1),\n", " ('hora', 1),\n", " ('decisão', 1),\n", " ('funcionar', 1),\n", " ('série', 1),\n", " ('variados', 1),\n", " ('wes', 1),\n", " ('welker', 1),\n", " ('randy', 1),\n", " ('faulk', 1),\n", " ('seguidas', 1),\n", " ('vezes', 1),\n", " ('chegar', 1),\n", " ('m45s', 1),\n", " ('quarterback', 1),\n", " ('conectou', 1),\n", " ('desmarcou', 1),\n", " ('ficou', 1),\n", " ('livre', 1),\n", " ('lateral', 1),\n", " ('direita', 1),\n", " ('fãs', 1),\n", " ('comemoravam', 1),\n", " ('inesperado', 1),\n", " ('aconteceu', 1),\n", " ('marcadores', 1),\n", " ('seguravam', 1),\n", " ('camisa', 1),\n", " ('corrida', 1),\n", " ('lançou', 1),\n", " ('wide', 1),\n", " ('receiver', 1),\n", " ('bem', 1),\n", " ('marcado', 1),\n", " ('saltou', 1),\n", " ('recepção', 1),\n", " ('quatro', 1),\n", " ('conseguir', 1)]" ] }, "metadata": {}, "execution_count": 39 } ] }, { "cell_type": "markdown", "metadata": { "id": "RYTS2NPKsyuG" }, "source": [ "# Utilizando ngrams" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "3qZrmW4kracZ", "outputId": "70b56820-d3ed-4b71-b013-08e0c82910d5" }, "source": [ "# Abrindo nosso córpus\n", "# Nesse código concatenamos a função open com a função read\n", "# Sem concatenar teríamos a seguinte construção\n", "# infile = open('/content/drive/MyDrive/recursos/corpus_teste.txt')\n", "# corpus = infile.read()\n", "\n", "corpus = open('/content/drive/MyDrive/recursos/corpus_teste.txt').read()\n", "print(corpus)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Giants batem os Patriots no Super Bowl XLII\n", "Azarões acabam com a invencibilidade de New England e ficam com o título da temporada\n", "04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m\n", "\n", "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. \n", "\n", "A vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.\n", "\n", "A partida\n", "\n", "Os Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. Misturando corridas com Brandon Jacobs e passes curtos, o time de Nova York chegou à red zone logo na primeira campanha. O avanço, no entanto, parou na linha de 17 jardas e Lawrence Tynes converteu o field goal de 32 jardas para abrir o placar.\n", "\n", "Eli Manning e companhia ficaram 9m54s com a bola, mas o ataque dos Patriots não entrou em campo frio. Logo no retorno do kickoff, o running back Laurence Maroney avançou 43 jardas, deixando Tom Brady em boa posição. Com passes curtos, os Patriots chegaram à linha de 17 jardas e, graças a uma penalidade (interferência de passe) do linebacker Antonio Pierce, alcançaram a linha de uma jarda. Maroney avançou pelo chão e anotou o primeiro touchdown do jogo.\n", "\n", "Os Giants pareciam rumo à virada na campanha seguinte. Manning achou Amani Toomer para um avanço de 38 jardas, e o time de Nova York entrou novamente na red zone. Com a bola na linha de 14 jardas dos Patriots, os Giants sofreram um revés. Manning passou para Steve Smith, que soltou a bola. Ellis Hobbs aproveitou, tomou a posse para os Patriots, e avançou 23 jardas. \n", "\n", "A defesa de Nova York manteve o jogo equilibrado. Com dois sacks seguidos, os Giants forçaram o punt e recuperaram a bola. Mas a campanha seguinte provou ser outra decepção para Nova York. O time chegou à linha de 25 jardas, mas Manning sofreu um sack e cometeu um fumble, e o ataque voltou para a linha de 39 jardas, não conseguindo pontuar mais uma vez.\n", "\n", "Os Patriots tiveram uma última chance de marcar antes do intervalo, mas, a 22 segundos do fim do segundo período, Brady foi novamente sacado. Desta vez, ele cometeu o fumble e os Giants tomaram a posse de bola. Manning tentou um passe longo, de 50 jardas, nos últimos segundos, mas não teve sucesso. \n", "\n", "O jogo continuou amarrado no terceiro quarto, com as defesas levando a melhor sobre os ataques. A única chance de pontuar do período foi dos Patriots, que chegaram à linha de 31 jardas dos Giants. O técnico Bill Bellichick, porém, optou por uma quarta descida em vez de um field goal. Brady tentou um passe para Jabar Gaffney, mas não conseguiu completar.\n", "\n", "O último período começou arrasador para os Giants. na primeira jogada, Manning achou o tight end Kevin Boss, para um incrível avanço de 45 jardas, que deixou o time na linha de 35 dos Patriots. Outro lançamento, desta vez para Steve Smith, marcou o avanço até a linha de 12 jardas. Duas jogadas depois, David Tyree pegou um passe de cinco jardas na end zone para anotar o touchdown e virar o jogo.\n", "\n", "Na hora da decisão, o ataque dos Patriots voltou a funcionar. Com uma série de passes curtos e variados, Brady achou Wes Welker, Randy Moss e Kevin Faulk seguidas vezes até chegar à red zone. A 2m45s do fim, o quarterback conectou mais uma vez com Moss, que se desmarcou e ficou livre na lateral direita da end zone.\n", "\n", "Quando os fãs de New England já comemoravam a vitória, o inesperado aconteceu. Em uma jogada incrível, Eli Manning se soltou de dois marcadores que o seguravam pela camisa e, na corrida, lançou para Amani Toomer. O wide receiver, bem marcado, saltou e conseguiu a fazer recepção para um avanço de 32 jardas, deixando os Giants na linha de 24 de New England.\n", "\n", "Quatro jogadas depois, a 39 segundos do fim, Manning achou Plaxico Burress na end zone para conseguir o touchdown do título.\n" ] } ] }, { "cell_type": "code", "metadata": { "id": "9EPWo9outG4u" }, "source": [ "from nltk import bigrams\n", "from nltk import trigrams\n", "from nltk import ngrams" ], "execution_count": null, "outputs": [] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 36 }, "id": "zMpR47IYtWcc", "outputId": "fb0d9ac0-48c8-4c11-e212-a4faaef4f1fe" }, "source": [ "tokens = nltk.word_tokenize(corpus)\n", "\n", "tokens_bigrams = list(bigrams(tokens))\n", "\n", "tokens_bigrams" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "application/vnd.google.colaboratory.intrinsic+json": { "type": "string" }, "text/plain": [ "'G'" ] }, "metadata": {}, "execution_count": 20 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "4kISKmRVuNsP", "outputId": "43b9e3d8-1cad-488d-ce7a-4810413b1650" }, "source": [ "tokens_trigrams = list(trigrams(tokens))\n", "\n", "tokens_trigrams" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('Giants', 'batem', 'os'),\n", " ('batem', 'os', 'Patriots'),\n", " ('os', 'Patriots', 'no'),\n", " ('Patriots', 'no', 'Super'),\n", " ('no', 'Super', 'Bowl'),\n", " ('Super', 'Bowl', 'XLII'),\n", " ('Bowl', 'XLII', 'Azarões'),\n", " ('XLII', 'Azarões', 'acabam'),\n", " ('Azarões', 'acabam', 'com'),\n", " ('acabam', 'com', 'a'),\n", " ('com', 'a', 'invencibilidade'),\n", " ('a', 'invencibilidade', 'de'),\n", " ('invencibilidade', 'de', 'New'),\n", " ('de', 'New', 'England'),\n", " ('New', 'England', 'e'),\n", " ('England', 'e', 'ficam'),\n", " ('e', 'ficam', 'com'),\n", " ('ficam', 'com', 'o'),\n", " ('com', 'o', 'título'),\n", " ('o', 'título', 'da'),\n", " ('título', 'da', 'temporada'),\n", " ('da', 'temporada', '04/02/2008'),\n", " ('temporada', '04/02/2008', '-'),\n", " ('04/02/2008', '-', '01h07m'),\n", " ('-', '01h07m', '-'),\n", " ('01h07m', '-', 'Atualizado'),\n", " ('-', 'Atualizado', 'em'),\n", " ('Atualizado', 'em', '04/02/2008'),\n", " ('em', '04/02/2008', '-'),\n", " ('04/02/2008', '-', '09h49m'),\n", " ('-', '09h49m', 'Com'),\n", " ('09h49m', 'Com', 'um'),\n", " ('Com', 'um', 'passe'),\n", " ('um', 'passe', 'de'),\n", " ('passe', 'de', 'Eli'),\n", " ('de', 'Eli', 'Manning'),\n", " ('Eli', 'Manning', 'para'),\n", " ('Manning', 'para', 'Plaxico'),\n", " ('para', 'Plaxico', 'Burress'),\n", " ('Plaxico', 'Burress', 'a'),\n", " ('Burress', 'a', '39'),\n", " ('a', '39', 'segundos'),\n", " ('39', 'segundos', 'do'),\n", " ('segundos', 'do', 'fim'),\n", " ('do', 'fim', ','),\n", " ('fim', ',', 'o'),\n", " (',', 'o', 'New'),\n", " ('o', 'New', 'York'),\n", " ('New', 'York', 'Giants'),\n", " ('York', 'Giants', 'anotou'),\n", " ('Giants', 'anotou', 'o'),\n", " ('anotou', 'o', 'touchdown'),\n", " ('o', 'touchdown', 'decisivo'),\n", " ('touchdown', 'decisivo', 'e'),\n", " ('decisivo', 'e', 'derrubou'),\n", " ('e', 'derrubou', 'o'),\n", " ('derrubou', 'o', 'favorito'),\n", " ('o', 'favorito', 'New'),\n", " ('favorito', 'New', 'England'),\n", " ('New', 'England', 'Patriots'),\n", " ('England', 'Patriots', 'por'),\n", " ('Patriots', 'por', '17'),\n", " ('por', '17', 'a'),\n", " ('17', 'a', '14'),\n", " ('a', '14', 'neste'),\n", " ('14', 'neste', 'domingo'),\n", " ('neste', 'domingo', ','),\n", " ('domingo', ',', 'em'),\n", " (',', 'em', 'Glendale'),\n", " ('em', 'Glendale', ','),\n", " ('Glendale', ',', 'no'),\n", " (',', 'no', 'Super'),\n", " ('no', 'Super', 'Bowl'),\n", " ('Super', 'Bowl', 'XLII'),\n", " ('Bowl', 'XLII', '.'),\n", " ('XLII', '.', 'O'),\n", " ('.', 'O', 'resultado'),\n", " ('O', 'resultado', ','),\n", " ('resultado', ',', 'uma'),\n", " (',', 'uma', 'das'),\n", " ('uma', 'das', 'maiores'),\n", " ('das', 'maiores', 'zebras'),\n", " ('maiores', 'zebras', 'da'),\n", " ('zebras', 'da', 'história'),\n", " ('da', 'história', 'do'),\n", " ('história', 'do', 'Super'),\n", " ('do', 'Super', 'Bowl'),\n", " ('Super', 'Bowl', ','),\n", " ('Bowl', ',', 'acabou'),\n", " (',', 'acabou', 'com'),\n", " ('acabou', 'com', 'a'),\n", " ('com', 'a', 'temporada'),\n", " ('a', 'temporada', 'perfeita'),\n", " ('temporada', 'perfeita', 'de'),\n", " ('perfeita', 'de', 'Tom'),\n", " ('de', 'Tom', 'Brady'),\n", " ('Tom', 'Brady', 'e'),\n", " ('Brady', 'e', 'companhia'),\n", " ('e', 'companhia', ','),\n", " ('companhia', ',', 'que'),\n", " (',', 'que', 'esperavam'),\n", " ('que', 'esperavam', 'fazer'),\n", " ('esperavam', 'fazer', 'história'),\n", " ('fazer', 'história', 'ao'),\n", " ('história', 'ao', 'levantar'),\n", " ('ao', 'levantar', 'o'),\n", " ('levantar', 'o', 'troféu'),\n", " ('o', 'troféu', 'da'),\n", " ('troféu', 'da', 'NFL'),\n", " ('da', 'NFL', 'sem'),\n", " ('NFL', 'sem', 'sofrer'),\n", " ('sem', 'sofrer', 'uma'),\n", " ('sofrer', 'uma', 'derrota'),\n", " ('uma', 'derrota', 'no'),\n", " ('derrota', 'no', 'ano'),\n", " ('no', 'ano', '.'),\n", " ('ano', '.', 'A'),\n", " ('.', 'A', 'vitória'),\n", " ('A', 'vitória', 'dos'),\n", " ('vitória', 'dos', 'Giants'),\n", " ('dos', 'Giants', ','),\n", " ('Giants', ',', 'porém'),\n", " (',', 'porém', ','),\n", " ('porém', ',', 'também'),\n", " (',', 'também', 'ficará'),\n", " ('também', 'ficará', 'para'),\n", " ('ficará', 'para', 'a'),\n", " ('para', 'a', 'história'),\n", " ('a', 'história', '.'),\n", " ('história', '.', 'Pela'),\n", " ('.', 'Pela', 'primeira'),\n", " ('Pela', 'primeira', 'vez'),\n", " ('primeira', 'vez', ','),\n", " ('vez', ',', 'irmãos'),\n", " (',', 'irmãos', 'quarterbacks'),\n", " ('irmãos', 'quarterbacks', 'triunfam'),\n", " ('quarterbacks', 'triunfam', 'no'),\n", " ('triunfam', 'no', 'Super'),\n", " ('no', 'Super', 'Bowl'),\n", " ('Super', 'Bowl', 'em'),\n", " ('Bowl', 'em', 'temporadas'),\n", " ('em', 'temporadas', 'consecutivas'),\n", " ('temporadas', 'consecutivas', '.'),\n", " ('consecutivas', '.', 'No'),\n", " ('.', 'No', 'ano'),\n", " ('No', 'ano', 'passado'),\n", " ('ano', 'passado', ','),\n", " ('passado', ',', 'Peyton'),\n", " (',', 'Peyton', 'Manning'),\n", " ('Peyton', 'Manning', ','),\n", " ('Manning', ',', 'irmão'),\n", " (',', 'irmão', 'de'),\n", " ('irmão', 'de', 'Eli'),\n", " ('de', 'Eli', ','),\n", " ('Eli', ',', 'chegou'),\n", " (',', 'chegou', 'ao'),\n", " ('chegou', 'ao', 'título'),\n", " ('ao', 'título', 'máximo'),\n", " ('título', 'máximo', 'da'),\n", " ('máximo', 'da', 'NFL'),\n", " ('da', 'NFL', 'pelo'),\n", " ('NFL', 'pelo', 'Indianapolis'),\n", " ('pelo', 'Indianapolis', 'Colts'),\n", " ('Indianapolis', 'Colts', '.'),\n", " ('Colts', '.', 'A'),\n", " ('.', 'A', 'partida'),\n", " ('A', 'partida', 'Os'),\n", " ('partida', 'Os', 'Giants'),\n", " ('Os', 'Giants', 'começaram'),\n", " ('Giants', 'começaram', 'com'),\n", " ('começaram', 'com', 'a'),\n", " ('com', 'a', 'posse'),\n", " ('a', 'posse', 'de'),\n", " ('posse', 'de', 'bola'),\n", " ('de', 'bola', ','),\n", " ('bola', ',', 'e'),\n", " (',', 'e', 'mostraram'),\n", " ('e', 'mostraram', 'logo'),\n", " ('mostraram', 'logo', 'que'),\n", " ('logo', 'que', 'iriam'),\n", " ('que', 'iriam', 'alongar'),\n", " ('iriam', 'alongar', 'ao'),\n", " ('alongar', 'ao', 'máximo'),\n", " ('ao', 'máximo', 'suas'),\n", " ('máximo', 'suas', 'posses'),\n", " ('suas', 'posses', 'de'),\n", " ('posses', 'de', 'bola'),\n", " ('de', 'bola', '.'),\n", " ('bola', '.', 'Misturando'),\n", " ('.', 'Misturando', 'corridas'),\n", " ('Misturando', 'corridas', 'com'),\n", " ('corridas', 'com', 'Brandon'),\n", " ('com', 'Brandon', 'Jacobs'),\n", " ('Brandon', 'Jacobs', 'e'),\n", " ('Jacobs', 'e', 'passes'),\n", " ('e', 'passes', 'curtos'),\n", " ('passes', 'curtos', ','),\n", " ('curtos', ',', 'o'),\n", " (',', 'o', 'time'),\n", " ('o', 'time', 'de'),\n", " ('time', 'de', 'Nova'),\n", " ('de', 'Nova', 'York'),\n", " ('Nova', 'York', 'chegou'),\n", " ('York', 'chegou', 'à'),\n", " ('chegou', 'à', 'red'),\n", " ('à', 'red', 'zone'),\n", " ('red', 'zone', 'logo'),\n", " ('zone', 'logo', 'na'),\n", " ('logo', 'na', 'primeira'),\n", " ('na', 'primeira', 'campanha'),\n", " ('primeira', 'campanha', '.'),\n", " ('campanha', '.', 'O'),\n", " ('.', 'O', 'avanço'),\n", " ('O', 'avanço', ','),\n", " ('avanço', ',', 'no'),\n", " (',', 'no', 'entanto'),\n", " ('no', 'entanto', ','),\n", " ('entanto', ',', 'parou'),\n", " (',', 'parou', 'na'),\n", " ('parou', 'na', 'linha'),\n", " ('na', 'linha', 'de'),\n", " ('linha', 'de', '17'),\n", " ('de', '17', 'jardas'),\n", " ('17', 'jardas', 'e'),\n", " ('jardas', 'e', 'Lawrence'),\n", " ('e', 'Lawrence', 'Tynes'),\n", " ('Lawrence', 'Tynes', 'converteu'),\n", " ('Tynes', 'converteu', 'o'),\n", " ('converteu', 'o', 'field'),\n", " ('o', 'field', 'goal'),\n", " ('field', 'goal', 'de'),\n", " ('goal', 'de', '32'),\n", " ('de', '32', 'jardas'),\n", " ('32', 'jardas', 'para'),\n", " ('jardas', 'para', 'abrir'),\n", " ('para', 'abrir', 'o'),\n", " ('abrir', 'o', 'placar'),\n", " ('o', 'placar', '.'),\n", " ('placar', '.', 'Eli'),\n", " ('.', 'Eli', 'Manning'),\n", " ('Eli', 'Manning', 'e'),\n", " ('Manning', 'e', 'companhia'),\n", " ('e', 'companhia', 'ficaram'),\n", " ('companhia', 'ficaram', '9m54s'),\n", " ('ficaram', '9m54s', 'com'),\n", " ('9m54s', 'com', 'a'),\n", " ('com', 'a', 'bola'),\n", " ('a', 'bola', ','),\n", " ('bola', ',', 'mas'),\n", " (',', 'mas', 'o'),\n", " ('mas', 'o', 'ataque'),\n", " ('o', 'ataque', 'dos'),\n", " ('ataque', 'dos', 'Patriots'),\n", " ('dos', 'Patriots', 'não'),\n", " ('Patriots', 'não', 'entrou'),\n", " ('não', 'entrou', 'em'),\n", " ('entrou', 'em', 'campo'),\n", " ('em', 'campo', 'frio'),\n", " ('campo', 'frio', '.'),\n", " ('frio', '.', 'Logo'),\n", " ('.', 'Logo', 'no'),\n", " ('Logo', 'no', 'retorno'),\n", " ('no', 'retorno', 'do'),\n", " ('retorno', 'do', 'kickoff'),\n", " ('do', 'kickoff', ','),\n", " ('kickoff', ',', 'o'),\n", " (',', 'o', 'running'),\n", " ('o', 'running', 'back'),\n", " ('running', 'back', 'Laurence'),\n", " ('back', 'Laurence', 'Maroney'),\n", " ('Laurence', 'Maroney', 'avançou'),\n", " ('Maroney', 'avançou', '43'),\n", " ('avançou', '43', 'jardas'),\n", " ('43', 'jardas', ','),\n", " ('jardas', ',', 'deixando'),\n", " (',', 'deixando', 'Tom'),\n", " ('deixando', 'Tom', 'Brady'),\n", " ('Tom', 'Brady', 'em'),\n", " ('Brady', 'em', 'boa'),\n", " ('em', 'boa', 'posição'),\n", " ('boa', 'posição', '.'),\n", " ('posição', '.', 'Com'),\n", " ('.', 'Com', 'passes'),\n", " ('Com', 'passes', 'curtos'),\n", " ('passes', 'curtos', ','),\n", " ('curtos', ',', 'os'),\n", " (',', 'os', 'Patriots'),\n", " ('os', 'Patriots', 'chegaram'),\n", " ('Patriots', 'chegaram', 'à'),\n", " ('chegaram', 'à', 'linha'),\n", " ('à', 'linha', 'de'),\n", " ('linha', 'de', '17'),\n", " ('de', '17', 'jardas'),\n", " ('17', 'jardas', 'e'),\n", " ('jardas', 'e', ','),\n", " ('e', ',', 'graças'),\n", " (',', 'graças', 'a'),\n", " ('graças', 'a', 'uma'),\n", " ('a', 'uma', 'penalidade'),\n", " ('uma', 'penalidade', '('),\n", " ('penalidade', '(', 'interferência'),\n", " ('(', 'interferência', 'de'),\n", " ('interferência', 'de', 'passe'),\n", " ('de', 'passe', ')'),\n", " ('passe', ')', 'do'),\n", " (')', 'do', 'linebacker'),\n", " ('do', 'linebacker', 'Antonio'),\n", " ('linebacker', 'Antonio', 'Pierce'),\n", " ('Antonio', 'Pierce', ','),\n", " ('Pierce', ',', 'alcançaram'),\n", " (',', 'alcançaram', 'a'),\n", " ('alcançaram', 'a', 'linha'),\n", " ('a', 'linha', 'de'),\n", " ('linha', 'de', 'uma'),\n", " ('de', 'uma', 'jarda'),\n", " ('uma', 'jarda', '.'),\n", " ('jarda', '.', 'Maroney'),\n", " ('.', 'Maroney', 'avançou'),\n", " ('Maroney', 'avançou', 'pelo'),\n", " ('avançou', 'pelo', 'chão'),\n", " ('pelo', 'chão', 'e'),\n", " ('chão', 'e', 'anotou'),\n", " ('e', 'anotou', 'o'),\n", " ('anotou', 'o', 'primeiro'),\n", " ('o', 'primeiro', 'touchdown'),\n", " ('primeiro', 'touchdown', 'do'),\n", " ('touchdown', 'do', 'jogo'),\n", " ('do', 'jogo', '.'),\n", " ('jogo', '.', 'Os'),\n", " ('.', 'Os', 'Giants'),\n", " ('Os', 'Giants', 'pareciam'),\n", " ('Giants', 'pareciam', 'rumo'),\n", " ('pareciam', 'rumo', 'à'),\n", " ('rumo', 'à', 'virada'),\n", " ('à', 'virada', 'na'),\n", " ('virada', 'na', 'campanha'),\n", " ('na', 'campanha', 'seguinte'),\n", " ('campanha', 'seguinte', '.'),\n", " ('seguinte', '.', 'Manning'),\n", " ('.', 'Manning', 'achou'),\n", " ('Manning', 'achou', 'Amani'),\n", " ('achou', 'Amani', 'Toomer'),\n", " ('Amani', 'Toomer', 'para'),\n", " ('Toomer', 'para', 'um'),\n", " ('para', 'um', 'avanço'),\n", " ('um', 'avanço', 'de'),\n", " ('avanço', 'de', '38'),\n", " ('de', '38', 'jardas'),\n", " ('38', 'jardas', ','),\n", " ('jardas', ',', 'e'),\n", " (',', 'e', 'o'),\n", " ('e', 'o', 'time'),\n", " ('o', 'time', 'de'),\n", " ('time', 'de', 'Nova'),\n", " ('de', 'Nova', 'York'),\n", " ('Nova', 'York', 'entrou'),\n", " ('York', 'entrou', 'novamente'),\n", " ('entrou', 'novamente', 'na'),\n", " ('novamente', 'na', 'red'),\n", " ('na', 'red', 'zone'),\n", " ('red', 'zone', '.'),\n", " ('zone', '.', 'Com'),\n", " ('.', 'Com', 'a'),\n", " ('Com', 'a', 'bola'),\n", " ('a', 'bola', 'na'),\n", " ('bola', 'na', 'linha'),\n", " ('na', 'linha', 'de'),\n", " ('linha', 'de', '14'),\n", " ('de', '14', 'jardas'),\n", " ('14', 'jardas', 'dos'),\n", " ('jardas', 'dos', 'Patriots'),\n", " ('dos', 'Patriots', ','),\n", " ('Patriots', ',', 'os'),\n", " (',', 'os', 'Giants'),\n", " ('os', 'Giants', 'sofreram'),\n", " ('Giants', 'sofreram', 'um'),\n", " ('sofreram', 'um', 'revés'),\n", " ('um', 'revés', '.'),\n", " ('revés', '.', 'Manning'),\n", " ('.', 'Manning', 'passou'),\n", " ('Manning', 'passou', 'para'),\n", " ('passou', 'para', 'Steve'),\n", " ('para', 'Steve', 'Smith'),\n", " ('Steve', 'Smith', ','),\n", " ('Smith', ',', 'que'),\n", " (',', 'que', 'soltou'),\n", " ('que', 'soltou', 'a'),\n", " ('soltou', 'a', 'bola'),\n", " ('a', 'bola', '.'),\n", " ('bola', '.', 'Ellis'),\n", " ('.', 'Ellis', 'Hobbs'),\n", " ('Ellis', 'Hobbs', 'aproveitou'),\n", " ('Hobbs', 'aproveitou', ','),\n", " ('aproveitou', ',', 'tomou'),\n", " (',', 'tomou', 'a'),\n", " ('tomou', 'a', 'posse'),\n", " ('a', 'posse', 'para'),\n", " ('posse', 'para', 'os'),\n", " ('para', 'os', 'Patriots'),\n", " ('os', 'Patriots', ','),\n", " ('Patriots', ',', 'e'),\n", " (',', 'e', 'avançou'),\n", " ('e', 'avançou', '23'),\n", " ('avançou', '23', 'jardas'),\n", " ('23', 'jardas', '.'),\n", " ('jardas', '.', 'A'),\n", " ('.', 'A', 'defesa'),\n", " ('A', 'defesa', 'de'),\n", " ('defesa', 'de', 'Nova'),\n", " ('de', 'Nova', 'York'),\n", " ('Nova', 'York', 'manteve'),\n", " ('York', 'manteve', 'o'),\n", " ('manteve', 'o', 'jogo'),\n", " ('o', 'jogo', 'equilibrado'),\n", " ('jogo', 'equilibrado', '.'),\n", " ('equilibrado', '.', 'Com'),\n", " ('.', 'Com', 'dois'),\n", " ('Com', 'dois', 'sacks'),\n", " ('dois', 'sacks', 'seguidos'),\n", " ('sacks', 'seguidos', ','),\n", " ('seguidos', ',', 'os'),\n", " (',', 'os', 'Giants'),\n", " ('os', 'Giants', 'forçaram'),\n", " ('Giants', 'forçaram', 'o'),\n", " ('forçaram', 'o', 'punt'),\n", " ('o', 'punt', 'e'),\n", " ('punt', 'e', 'recuperaram'),\n", " ('e', 'recuperaram', 'a'),\n", " ('recuperaram', 'a', 'bola'),\n", " ('a', 'bola', '.'),\n", " ('bola', '.', 'Mas'),\n", " ('.', 'Mas', 'a'),\n", " ('Mas', 'a', 'campanha'),\n", " ('a', 'campanha', 'seguinte'),\n", " ('campanha', 'seguinte', 'provou'),\n", " ('seguinte', 'provou', 'ser'),\n", " ('provou', 'ser', 'outra'),\n", " ('ser', 'outra', 'decepção'),\n", " ('outra', 'decepção', 'para'),\n", " ('decepção', 'para', 'Nova'),\n", " ('para', 'Nova', 'York'),\n", " ('Nova', 'York', '.'),\n", " ('York', '.', 'O'),\n", " ('.', 'O', 'time'),\n", " ('O', 'time', 'chegou'),\n", " ('time', 'chegou', 'à'),\n", " ('chegou', 'à', 'linha'),\n", " ('à', 'linha', 'de'),\n", " ('linha', 'de', '25'),\n", " ('de', '25', 'jardas'),\n", " ('25', 'jardas', ','),\n", " ('jardas', ',', 'mas'),\n", " (',', 'mas', 'Manning'),\n", " ('mas', 'Manning', 'sofreu'),\n", " ('Manning', 'sofreu', 'um'),\n", " ('sofreu', 'um', 'sack'),\n", " ('um', 'sack', 'e'),\n", " ('sack', 'e', 'cometeu'),\n", " ('e', 'cometeu', 'um'),\n", " ('cometeu', 'um', 'fumble'),\n", " ('um', 'fumble', ','),\n", " ('fumble', ',', 'e'),\n", " (',', 'e', 'o'),\n", " ('e', 'o', 'ataque'),\n", " ('o', 'ataque', 'voltou'),\n", " ('ataque', 'voltou', 'para'),\n", " ('voltou', 'para', 'a'),\n", " ('para', 'a', 'linha'),\n", " ('a', 'linha', 'de'),\n", " ('linha', 'de', '39'),\n", " ('de', '39', 'jardas'),\n", " ('39', 'jardas', ','),\n", " ('jardas', ',', 'não'),\n", " (',', 'não', 'conseguindo'),\n", " ('não', 'conseguindo', 'pontuar'),\n", " ('conseguindo', 'pontuar', 'mais'),\n", " ('pontuar', 'mais', 'uma'),\n", " ('mais', 'uma', 'vez'),\n", " ('uma', 'vez', '.'),\n", " ('vez', '.', 'Os'),\n", " ('.', 'Os', 'Patriots'),\n", " ('Os', 'Patriots', 'tiveram'),\n", " ('Patriots', 'tiveram', 'uma'),\n", " ('tiveram', 'uma', 'última'),\n", " ('uma', 'última', 'chance'),\n", " ('última', 'chance', 'de'),\n", " ('chance', 'de', 'marcar'),\n", " ('de', 'marcar', 'antes'),\n", " ('marcar', 'antes', 'do'),\n", " ('antes', 'do', 'intervalo'),\n", " ('do', 'intervalo', ','),\n", " ('intervalo', ',', 'mas'),\n", " (',', 'mas', ','),\n", " ('mas', ',', 'a'),\n", " (',', 'a', '22'),\n", " ('a', '22', 'segundos'),\n", " ('22', 'segundos', 'do'),\n", " ('segundos', 'do', 'fim'),\n", " ('do', 'fim', 'do'),\n", " ('fim', 'do', 'segundo'),\n", " ('do', 'segundo', 'período'),\n", " ('segundo', 'período', ','),\n", " ('período', ',', 'Brady'),\n", " (',', 'Brady', 'foi'),\n", " ('Brady', 'foi', 'novamente'),\n", " ('foi', 'novamente', 'sacado'),\n", " ('novamente', 'sacado', '.'),\n", " ('sacado', '.', 'Desta'),\n", " ('.', 'Desta', 'vez'),\n", " ('Desta', 'vez', ','),\n", " ('vez', ',', 'ele'),\n", " (',', 'ele', 'cometeu'),\n", " ('ele', 'cometeu', 'o'),\n", " ('cometeu', 'o', 'fumble'),\n", " ('o', 'fumble', 'e'),\n", " ('fumble', 'e', 'os'),\n", " ('e', 'os', 'Giants'),\n", " ('os', 'Giants', 'tomaram'),\n", " ('Giants', 'tomaram', 'a'),\n", " ('tomaram', 'a', 'posse'),\n", " ('a', 'posse', 'de'),\n", " ('posse', 'de', 'bola'),\n", " ('de', 'bola', '.'),\n", " ('bola', '.', 'Manning'),\n", " ('.', 'Manning', 'tentou'),\n", " ('Manning', 'tentou', 'um'),\n", " ('tentou', 'um', 'passe'),\n", " ('um', 'passe', 'longo'),\n", " ('passe', 'longo', ','),\n", " ('longo', ',', 'de'),\n", " (',', 'de', '50'),\n", " ('de', '50', 'jardas'),\n", " ('50', 'jardas', ','),\n", " ('jardas', ',', 'nos'),\n", " (',', 'nos', 'últimos'),\n", " ('nos', 'últimos', 'segundos'),\n", " ('últimos', 'segundos', ','),\n", " ('segundos', ',', 'mas'),\n", " (',', 'mas', 'não'),\n", " ('mas', 'não', 'teve'),\n", " ('não', 'teve', 'sucesso'),\n", " ('teve', 'sucesso', '.'),\n", " ('sucesso', '.', 'O'),\n", " ('.', 'O', 'jogo'),\n", " ('O', 'jogo', 'continuou'),\n", " ('jogo', 'continuou', 'amarrado'),\n", " ('continuou', 'amarrado', 'no'),\n", " ('amarrado', 'no', 'terceiro'),\n", " ('no', 'terceiro', 'quarto'),\n", " ('terceiro', 'quarto', ','),\n", " ('quarto', ',', 'com'),\n", " (',', 'com', 'as'),\n", " ('com', 'as', 'defesas'),\n", " ('as', 'defesas', 'levando'),\n", " ('defesas', 'levando', 'a'),\n", " ('levando', 'a', 'melhor'),\n", " ('a', 'melhor', 'sobre'),\n", " ('melhor', 'sobre', 'os'),\n", " ('sobre', 'os', 'ataques'),\n", " ('os', 'ataques', '.'),\n", " ('ataques', '.', 'A'),\n", " ('.', 'A', 'única'),\n", " ('A', 'única', 'chance'),\n", " ('única', 'chance', 'de'),\n", " ('chance', 'de', 'pontuar'),\n", " ('de', 'pontuar', 'do'),\n", " ('pontuar', 'do', 'período'),\n", " ('do', 'período', 'foi'),\n", " ('período', 'foi', 'dos'),\n", " ('foi', 'dos', 'Patriots'),\n", " ('dos', 'Patriots', ','),\n", " ('Patriots', ',', 'que'),\n", " (',', 'que', 'chegaram'),\n", " ('que', 'chegaram', 'à'),\n", " ('chegaram', 'à', 'linha'),\n", " ('à', 'linha', 'de'),\n", " ('linha', 'de', '31'),\n", " ('de', '31', 'jardas'),\n", " ('31', 'jardas', 'dos'),\n", " ('jardas', 'dos', 'Giants'),\n", " ('dos', 'Giants', '.'),\n", " ('Giants', '.', 'O'),\n", " ('.', 'O', 'técnico'),\n", " ('O', 'técnico', 'Bill'),\n", " ('técnico', 'Bill', 'Bellichick'),\n", " ('Bill', 'Bellichick', ','),\n", " ('Bellichick', ',', 'porém'),\n", " (',', 'porém', ','),\n", " ('porém', ',', 'optou'),\n", " (',', 'optou', 'por'),\n", " ('optou', 'por', 'uma'),\n", " ('por', 'uma', 'quarta'),\n", " ('uma', 'quarta', 'descida'),\n", " ('quarta', 'descida', 'em'),\n", " ('descida', 'em', 'vez'),\n", " ('em', 'vez', 'de'),\n", " ('vez', 'de', 'um'),\n", " ('de', 'um', 'field'),\n", " ('um', 'field', 'goal'),\n", " ('field', 'goal', '.'),\n", " ('goal', '.', 'Brady'),\n", " ('.', 'Brady', 'tentou'),\n", " ('Brady', 'tentou', 'um'),\n", " ('tentou', 'um', 'passe'),\n", " ('um', 'passe', 'para'),\n", " ('passe', 'para', 'Jabar'),\n", " ('para', 'Jabar', 'Gaffney'),\n", " ('Jabar', 'Gaffney', ','),\n", " ('Gaffney', ',', 'mas'),\n", " (',', 'mas', 'não'),\n", " ('mas', 'não', 'conseguiu'),\n", " ('não', 'conseguiu', 'completar'),\n", " ('conseguiu', 'completar', '.'),\n", " ('completar', '.', 'O'),\n", " ('.', 'O', 'último'),\n", " ('O', 'último', 'período'),\n", " ('último', 'período', 'começou'),\n", " ('período', 'começou', 'arrasador'),\n", " ('começou', 'arrasador', 'para'),\n", " ('arrasador', 'para', 'os'),\n", " ('para', 'os', 'Giants'),\n", " ('os', 'Giants', '.'),\n", " ('Giants', '.', 'na'),\n", " ('.', 'na', 'primeira'),\n", " ('na', 'primeira', 'jogada'),\n", " ('primeira', 'jogada', ','),\n", " ('jogada', ',', 'Manning'),\n", " (',', 'Manning', 'achou'),\n", " ('Manning', 'achou', 'o'),\n", " ('achou', 'o', 'tight'),\n", " ('o', 'tight', 'end'),\n", " ('tight', 'end', 'Kevin'),\n", " ('end', 'Kevin', 'Boss'),\n", " ('Kevin', 'Boss', ','),\n", " ('Boss', ',', 'para'),\n", " (',', 'para', 'um'),\n", " ('para', 'um', 'incrível'),\n", " ('um', 'incrível', 'avanço'),\n", " ('incrível', 'avanço', 'de'),\n", " ('avanço', 'de', '45'),\n", " ('de', '45', 'jardas'),\n", " ('45', 'jardas', ','),\n", " ('jardas', ',', 'que'),\n", " (',', 'que', 'deixou'),\n", " ('que', 'deixou', 'o'),\n", " ('deixou', 'o', 'time'),\n", " ('o', 'time', 'na'),\n", " ('time', 'na', 'linha'),\n", " ('na', 'linha', 'de'),\n", " ('linha', 'de', '35'),\n", " ('de', '35', 'dos'),\n", " ('35', 'dos', 'Patriots'),\n", " ('dos', 'Patriots', '.'),\n", " ('Patriots', '.', 'Outro'),\n", " ('.', 'Outro', 'lançamento'),\n", " ('Outro', 'lançamento', ','),\n", " ('lançamento', ',', 'desta'),\n", " (',', 'desta', 'vez'),\n", " ('desta', 'vez', 'para'),\n", " ('vez', 'para', 'Steve'),\n", " ('para', 'Steve', 'Smith'),\n", " ('Steve', 'Smith', ','),\n", " ('Smith', ',', 'marcou'),\n", " (',', 'marcou', 'o'),\n", " ('marcou', 'o', 'avanço'),\n", " ('o', 'avanço', 'até'),\n", " ('avanço', 'até', 'a'),\n", " ('até', 'a', 'linha'),\n", " ('a', 'linha', 'de'),\n", " ('linha', 'de', '12'),\n", " ('de', '12', 'jardas'),\n", " ('12', 'jardas', '.'),\n", " ('jardas', '.', 'Duas'),\n", " ('.', 'Duas', 'jogadas'),\n", " ('Duas', 'jogadas', 'depois'),\n", " ('jogadas', 'depois', ','),\n", " ('depois', ',', 'David'),\n", " (',', 'David', 'Tyree'),\n", " ('David', 'Tyree', 'pegou'),\n", " ('Tyree', 'pegou', 'um'),\n", " ('pegou', 'um', 'passe'),\n", " ('um', 'passe', 'de'),\n", " ('passe', 'de', 'cinco'),\n", " ('de', 'cinco', 'jardas'),\n", " ('cinco', 'jardas', 'na'),\n", " ('jardas', 'na', 'end'),\n", " ('na', 'end', 'zone'),\n", " ('end', 'zone', 'para'),\n", " ('zone', 'para', 'anotar'),\n", " ('para', 'anotar', 'o'),\n", " ('anotar', 'o', 'touchdown'),\n", " ('o', 'touchdown', 'e'),\n", " ('touchdown', 'e', 'virar'),\n", " ('e', 'virar', 'o'),\n", " ('virar', 'o', 'jogo'),\n", " ('o', 'jogo', '.'),\n", " ('jogo', '.', 'Na'),\n", " ('.', 'Na', 'hora'),\n", " ('Na', 'hora', 'da'),\n", " ('hora', 'da', 'decisão'),\n", " ('da', 'decisão', ','),\n", " ('decisão', ',', 'o'),\n", " (',', 'o', 'ataque'),\n", " ('o', 'ataque', 'dos'),\n", " ('ataque', 'dos', 'Patriots'),\n", " ('dos', 'Patriots', 'voltou'),\n", " ('Patriots', 'voltou', 'a'),\n", " ('voltou', 'a', 'funcionar'),\n", " ('a', 'funcionar', '.'),\n", " ('funcionar', '.', 'Com'),\n", " ('.', 'Com', 'uma'),\n", " ('Com', 'uma', 'série'),\n", " ('uma', 'série', 'de'),\n", " ('série', 'de', 'passes'),\n", " ('de', 'passes', 'curtos'),\n", " ('passes', 'curtos', 'e'),\n", " ('curtos', 'e', 'variados'),\n", " ('e', 'variados', ','),\n", " ('variados', ',', 'Brady'),\n", " (',', 'Brady', 'achou'),\n", " ('Brady', 'achou', 'Wes'),\n", " ('achou', 'Wes', 'Welker'),\n", " ('Wes', 'Welker', ','),\n", " ('Welker', ',', 'Randy'),\n", " (',', 'Randy', 'Moss'),\n", " ('Randy', 'Moss', 'e'),\n", " ('Moss', 'e', 'Kevin'),\n", " ('e', 'Kevin', 'Faulk'),\n", " ('Kevin', 'Faulk', 'seguidas'),\n", " ('Faulk', 'seguidas', 'vezes'),\n", " ('seguidas', 'vezes', 'até'),\n", " ('vezes', 'até', 'chegar'),\n", " ('até', 'chegar', 'à'),\n", " ('chegar', 'à', 'red'),\n", " ('à', 'red', 'zone'),\n", " ('red', 'zone', '.'),\n", " ('zone', '.', 'A'),\n", " ('.', 'A', '2m45s'),\n", " ('A', '2m45s', 'do'),\n", " ('2m45s', 'do', 'fim'),\n", " ('do', 'fim', ','),\n", " ('fim', ',', 'o'),\n", " (',', 'o', 'quarterback'),\n", " ('o', 'quarterback', 'conectou'),\n", " ('quarterback', 'conectou', 'mais'),\n", " ('conectou', 'mais', 'uma'),\n", " ('mais', 'uma', 'vez'),\n", " ('uma', 'vez', 'com'),\n", " ('vez', 'com', 'Moss'),\n", " ('com', 'Moss', ','),\n", " ('Moss', ',', 'que'),\n", " (',', 'que', 'se'),\n", " ('que', 'se', 'desmarcou'),\n", " ('se', 'desmarcou', 'e'),\n", " ('desmarcou', 'e', 'ficou'),\n", " ('e', 'ficou', 'livre'),\n", " ('ficou', 'livre', 'na'),\n", " ('livre', 'na', 'lateral'),\n", " ('na', 'lateral', 'direita'),\n", " ('lateral', 'direita', 'da'),\n", " ('direita', 'da', 'end'),\n", " ('da', 'end', 'zone'),\n", " ('end', 'zone', '.'),\n", " ('zone', '.', 'Quando'),\n", " ('.', 'Quando', 'os'),\n", " ('Quando', 'os', 'fãs'),\n", " ('os', 'fãs', 'de'),\n", " ('fãs', 'de', 'New'),\n", " ('de', 'New', 'England'),\n", " ('New', 'England', 'já'),\n", " ('England', 'já', 'comemoravam'),\n", " ('já', 'comemoravam', 'a'),\n", " ('comemoravam', 'a', 'vitória'),\n", " ('a', 'vitória', ','),\n", " ('vitória', ',', 'o'),\n", " (',', 'o', 'inesperado'),\n", " ('o', 'inesperado', 'aconteceu'),\n", " ('inesperado', 'aconteceu', '.'),\n", " ('aconteceu', '.', 'Em'),\n", " ('.', 'Em', 'uma'),\n", " ('Em', 'uma', 'jogada'),\n", " ('uma', 'jogada', 'incrível'),\n", " ('jogada', 'incrível', ','),\n", " ('incrível', ',', 'Eli'),\n", " (',', 'Eli', 'Manning'),\n", " ('Eli', 'Manning', 'se'),\n", " ('Manning', 'se', 'soltou'),\n", " ('se', 'soltou', 'de'),\n", " ('soltou', 'de', 'dois'),\n", " ('de', 'dois', 'marcadores'),\n", " ('dois', 'marcadores', 'que'),\n", " ('marcadores', 'que', 'o'),\n", " ('que', 'o', 'seguravam'),\n", " ('o', 'seguravam', 'pela'),\n", " ('seguravam', 'pela', 'camisa'),\n", " ('pela', 'camisa', 'e'),\n", " ('camisa', 'e', ','),\n", " ('e', ',', 'na'),\n", " (',', 'na', 'corrida'),\n", " ('na', 'corrida', ','),\n", " ('corrida', ',', 'lançou'),\n", " (',', 'lançou', 'para'),\n", " ('lançou', 'para', 'Amani'),\n", " ('para', 'Amani', 'Toomer'),\n", " ('Amani', 'Toomer', '.'),\n", " ('Toomer', '.', 'O'),\n", " ('.', 'O', 'wide'),\n", " ('O', 'wide', 'receiver'),\n", " ('wide', 'receiver', ','),\n", " ('receiver', ',', 'bem'),\n", " (',', 'bem', 'marcado'),\n", " ('bem', 'marcado', ','),\n", " ('marcado', ',', 'saltou'),\n", " (',', 'saltou', 'e'),\n", " ('saltou', 'e', 'conseguiu'),\n", " ('e', 'conseguiu', 'a'),\n", " ('conseguiu', 'a', 'fazer'),\n", " ('a', 'fazer', 'recepção'),\n", " ('fazer', 'recepção', 'para'),\n", " ('recepção', 'para', 'um'),\n", " ('para', 'um', 'avanço'),\n", " ('um', 'avanço', 'de'),\n", " ('avanço', 'de', '32'),\n", " ('de', '32', 'jardas'),\n", " ('32', 'jardas', ','),\n", " ('jardas', ',', 'deixando'),\n", " (',', 'deixando', 'os'),\n", " ('deixando', 'os', 'Giants'),\n", " ('os', 'Giants', 'na'),\n", " ('Giants', 'na', 'linha'),\n", " ('na', 'linha', 'de'),\n", " ('linha', 'de', '24'),\n", " ('de', '24', 'de'),\n", " ('24', 'de', 'New'),\n", " ('de', 'New', 'England'),\n", " ('New', 'England', '.'),\n", " ('England', '.', 'Quatro'),\n", " ('.', 'Quatro', 'jogadas'),\n", " ('Quatro', 'jogadas', 'depois'),\n", " ('jogadas', 'depois', ','),\n", " ('depois', ',', 'a'),\n", " (',', 'a', '39'),\n", " ('a', '39', 'segundos'),\n", " ('39', 'segundos', 'do'),\n", " ('segundos', 'do', 'fim'),\n", " ('do', 'fim', ','),\n", " ('fim', ',', 'Manning'),\n", " (',', 'Manning', 'achou'),\n", " ('Manning', 'achou', 'Plaxico'),\n", " ('achou', 'Plaxico', 'Burress'),\n", " ('Plaxico', 'Burress', 'na'),\n", " ('Burress', 'na', 'end'),\n", " ('na', 'end', 'zone'),\n", " ('end', 'zone', 'para'),\n", " ('zone', 'para', 'conseguir'),\n", " ('para', 'conseguir', 'o'),\n", " ('conseguir', 'o', 'touchdown'),\n", " ('o', 'touchdown', 'do'),\n", " ('touchdown', 'do', 'título'),\n", " ('do', 'título', '.')]" ] }, "metadata": {}, "execution_count": 9 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "rW7aX3DnueT1", "outputId": "53a8d1e4-d479-4342-bea1-e59bbf82c2e7" }, "source": [ "tokens_ngrams = list(ngrams(tokens, 4))\n", "\n", "tokens_ngrams" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('Giants', 'batem', 'os', 'Patriots'),\n", " ('batem', 'os', 'Patriots', 'no'),\n", " ('os', 'Patriots', 'no', 'Super'),\n", " ('Patriots', 'no', 'Super', 'Bowl'),\n", " ('no', 'Super', 'Bowl', 'XLII'),\n", " ('Super', 'Bowl', 'XLII', 'Azarões'),\n", " ('Bowl', 'XLII', 'Azarões', 'acabam'),\n", " ('XLII', 'Azarões', 'acabam', 'com'),\n", " ('Azarões', 'acabam', 'com', 'a'),\n", " ('acabam', 'com', 'a', 'invencibilidade'),\n", " ('com', 'a', 'invencibilidade', 'de'),\n", " ('a', 'invencibilidade', 'de', 'New'),\n", " ('invencibilidade', 'de', 'New', 'England'),\n", " ('de', 'New', 'England', 'e'),\n", " ('New', 'England', 'e', 'ficam'),\n", " ('England', 'e', 'ficam', 'com'),\n", " ('e', 'ficam', 'com', 'o'),\n", " ('ficam', 'com', 'o', 'título'),\n", " ('com', 'o', 'título', 'da'),\n", " ('o', 'título', 'da', 'temporada'),\n", " ('título', 'da', 'temporada', '04/02/2008'),\n", " ('da', 'temporada', '04/02/2008', '-'),\n", " ('temporada', '04/02/2008', '-', '01h07m'),\n", " ('04/02/2008', '-', '01h07m', '-'),\n", " ('-', '01h07m', '-', 'Atualizado'),\n", " ('01h07m', '-', 'Atualizado', 'em'),\n", " ('-', 'Atualizado', 'em', '04/02/2008'),\n", " ('Atualizado', 'em', '04/02/2008', '-'),\n", " ('em', '04/02/2008', '-', '09h49m'),\n", " ('04/02/2008', '-', '09h49m', 'Com'),\n", " ('-', '09h49m', 'Com', 'um'),\n", " ('09h49m', 'Com', 'um', 'passe'),\n", " ('Com', 'um', 'passe', 'de'),\n", " ('um', 'passe', 'de', 'Eli'),\n", " ('passe', 'de', 'Eli', 'Manning'),\n", " ('de', 'Eli', 'Manning', 'para'),\n", " ('Eli', 'Manning', 'para', 'Plaxico'),\n", " ('Manning', 'para', 'Plaxico', 'Burress'),\n", " ('para', 'Plaxico', 'Burress', 'a'),\n", " ('Plaxico', 'Burress', 'a', '39'),\n", " ('Burress', 'a', '39', 'segundos'),\n", " ('a', '39', 'segundos', 'do'),\n", " ('39', 'segundos', 'do', 'fim'),\n", " ('segundos', 'do', 'fim', ','),\n", " ('do', 'fim', ',', 'o'),\n", " ('fim', ',', 'o', 'New'),\n", " (',', 'o', 'New', 'York'),\n", " ('o', 'New', 'York', 'Giants'),\n", " ('New', 'York', 'Giants', 'anotou'),\n", " ('York', 'Giants', 'anotou', 'o'),\n", " ('Giants', 'anotou', 'o', 'touchdown'),\n", " ('anotou', 'o', 'touchdown', 'decisivo'),\n", " ('o', 'touchdown', 'decisivo', 'e'),\n", " ('touchdown', 'decisivo', 'e', 'derrubou'),\n", " ('decisivo', 'e', 'derrubou', 'o'),\n", " ('e', 'derrubou', 'o', 'favorito'),\n", " ('derrubou', 'o', 'favorito', 'New'),\n", " ('o', 'favorito', 'New', 'England'),\n", " ('favorito', 'New', 'England', 'Patriots'),\n", " ('New', 'England', 'Patriots', 'por'),\n", " ('England', 'Patriots', 'por', '17'),\n", " ('Patriots', 'por', '17', 'a'),\n", " ('por', '17', 'a', '14'),\n", " ('17', 'a', '14', 'neste'),\n", " ('a', '14', 'neste', 'domingo'),\n", " ('14', 'neste', 'domingo', ','),\n", " ('neste', 'domingo', ',', 'em'),\n", " ('domingo', ',', 'em', 'Glendale'),\n", " (',', 'em', 'Glendale', ','),\n", " ('em', 'Glendale', ',', 'no'),\n", " ('Glendale', ',', 'no', 'Super'),\n", " (',', 'no', 'Super', 'Bowl'),\n", " ('no', 'Super', 'Bowl', 'XLII'),\n", " ('Super', 'Bowl', 'XLII', '.'),\n", " ('Bowl', 'XLII', '.', 'O'),\n", " ('XLII', '.', 'O', 'resultado'),\n", " ('.', 'O', 'resultado', ','),\n", " ('O', 'resultado', ',', 'uma'),\n", " ('resultado', ',', 'uma', 'das'),\n", " (',', 'uma', 'das', 'maiores'),\n", " ('uma', 'das', 'maiores', 'zebras'),\n", " ('das', 'maiores', 'zebras', 'da'),\n", " ('maiores', 'zebras', 'da', 'história'),\n", " ('zebras', 'da', 'história', 'do'),\n", " ('da', 'história', 'do', 'Super'),\n", " ('história', 'do', 'Super', 'Bowl'),\n", " ('do', 'Super', 'Bowl', ','),\n", " ('Super', 'Bowl', ',', 'acabou'),\n", " ('Bowl', ',', 'acabou', 'com'),\n", " (',', 'acabou', 'com', 'a'),\n", " ('acabou', 'com', 'a', 'temporada'),\n", " ('com', 'a', 'temporada', 'perfeita'),\n", " ('a', 'temporada', 'perfeita', 'de'),\n", " ('temporada', 'perfeita', 'de', 'Tom'),\n", " ('perfeita', 'de', 'Tom', 'Brady'),\n", " ('de', 'Tom', 'Brady', 'e'),\n", " ('Tom', 'Brady', 'e', 'companhia'),\n", " ('Brady', 'e', 'companhia', ','),\n", " ('e', 'companhia', ',', 'que'),\n", " ('companhia', ',', 'que', 'esperavam'),\n", " (',', 'que', 'esperavam', 'fazer'),\n", " ('que', 'esperavam', 'fazer', 'história'),\n", " ('esperavam', 'fazer', 'história', 'ao'),\n", " ('fazer', 'história', 'ao', 'levantar'),\n", " ('história', 'ao', 'levantar', 'o'),\n", " ('ao', 'levantar', 'o', 'troféu'),\n", " ('levantar', 'o', 'troféu', 'da'),\n", " ('o', 'troféu', 'da', 'NFL'),\n", " ('troféu', 'da', 'NFL', 'sem'),\n", " ('da', 'NFL', 'sem', 'sofrer'),\n", " ('NFL', 'sem', 'sofrer', 'uma'),\n", " ('sem', 'sofrer', 'uma', 'derrota'),\n", " ('sofrer', 'uma', 'derrota', 'no'),\n", " ('uma', 'derrota', 'no', 'ano'),\n", " ('derrota', 'no', 'ano', '.'),\n", " ('no', 'ano', '.', 'A'),\n", " ('ano', '.', 'A', 'vitória'),\n", " ('.', 'A', 'vitória', 'dos'),\n", " ('A', 'vitória', 'dos', 'Giants'),\n", " ('vitória', 'dos', 'Giants', ','),\n", " ('dos', 'Giants', ',', 'porém'),\n", " ('Giants', ',', 'porém', ','),\n", " (',', 'porém', ',', 'também'),\n", " ('porém', ',', 'também', 'ficará'),\n", " (',', 'também', 'ficará', 'para'),\n", " ('também', 'ficará', 'para', 'a'),\n", " ('ficará', 'para', 'a', 'história'),\n", " ('para', 'a', 'história', '.'),\n", " ('a', 'história', '.', 'Pela'),\n", " ('história', '.', 'Pela', 'primeira'),\n", " ('.', 'Pela', 'primeira', 'vez'),\n", " ('Pela', 'primeira', 'vez', ','),\n", " ('primeira', 'vez', ',', 'irmãos'),\n", " ('vez', ',', 'irmãos', 'quarterbacks'),\n", " (',', 'irmãos', 'quarterbacks', 'triunfam'),\n", " ('irmãos', 'quarterbacks', 'triunfam', 'no'),\n", " ('quarterbacks', 'triunfam', 'no', 'Super'),\n", " ('triunfam', 'no', 'Super', 'Bowl'),\n", " ('no', 'Super', 'Bowl', 'em'),\n", " ('Super', 'Bowl', 'em', 'temporadas'),\n", " ('Bowl', 'em', 'temporadas', 'consecutivas'),\n", " ('em', 'temporadas', 'consecutivas', '.'),\n", " ('temporadas', 'consecutivas', '.', 'No'),\n", " ('consecutivas', '.', 'No', 'ano'),\n", " ('.', 'No', 'ano', 'passado'),\n", " ('No', 'ano', 'passado', ','),\n", " ('ano', 'passado', ',', 'Peyton'),\n", " ('passado', ',', 'Peyton', 'Manning'),\n", " (',', 'Peyton', 'Manning', ','),\n", " ('Peyton', 'Manning', ',', 'irmão'),\n", " ('Manning', ',', 'irmão', 'de'),\n", " (',', 'irmão', 'de', 'Eli'),\n", " ('irmão', 'de', 'Eli', ','),\n", " ('de', 'Eli', ',', 'chegou'),\n", " ('Eli', ',', 'chegou', 'ao'),\n", " (',', 'chegou', 'ao', 'título'),\n", " ('chegou', 'ao', 'título', 'máximo'),\n", " ('ao', 'título', 'máximo', 'da'),\n", " ('título', 'máximo', 'da', 'NFL'),\n", " ('máximo', 'da', 'NFL', 'pelo'),\n", " ('da', 'NFL', 'pelo', 'Indianapolis'),\n", " ('NFL', 'pelo', 'Indianapolis', 'Colts'),\n", " ('pelo', 'Indianapolis', 'Colts', '.'),\n", " ('Indianapolis', 'Colts', '.', 'A'),\n", " ('Colts', '.', 'A', 'partida'),\n", " ('.', 'A', 'partida', 'Os'),\n", " ('A', 'partida', 'Os', 'Giants'),\n", " ('partida', 'Os', 'Giants', 'começaram'),\n", " ('Os', 'Giants', 'começaram', 'com'),\n", " ('Giants', 'começaram', 'com', 'a'),\n", " ('começaram', 'com', 'a', 'posse'),\n", " ('com', 'a', 'posse', 'de'),\n", " ('a', 'posse', 'de', 'bola'),\n", " ('posse', 'de', 'bola', ','),\n", " ('de', 'bola', ',', 'e'),\n", " ('bola', ',', 'e', 'mostraram'),\n", " (',', 'e', 'mostraram', 'logo'),\n", " ('e', 'mostraram', 'logo', 'que'),\n", " ('mostraram', 'logo', 'que', 'iriam'),\n", " ('logo', 'que', 'iriam', 'alongar'),\n", " ('que', 'iriam', 'alongar', 'ao'),\n", " ('iriam', 'alongar', 'ao', 'máximo'),\n", " ('alongar', 'ao', 'máximo', 'suas'),\n", " ('ao', 'máximo', 'suas', 'posses'),\n", " ('máximo', 'suas', 'posses', 'de'),\n", " ('suas', 'posses', 'de', 'bola'),\n", " ('posses', 'de', 'bola', '.'),\n", " ('de', 'bola', '.', 'Misturando'),\n", " ('bola', '.', 'Misturando', 'corridas'),\n", " ('.', 'Misturando', 'corridas', 'com'),\n", " ('Misturando', 'corridas', 'com', 'Brandon'),\n", " ('corridas', 'com', 'Brandon', 'Jacobs'),\n", " ('com', 'Brandon', 'Jacobs', 'e'),\n", " ('Brandon', 'Jacobs', 'e', 'passes'),\n", " ('Jacobs', 'e', 'passes', 'curtos'),\n", " ('e', 'passes', 'curtos', ','),\n", " ('passes', 'curtos', ',', 'o'),\n", " ('curtos', ',', 'o', 'time'),\n", " (',', 'o', 'time', 'de'),\n", " ('o', 'time', 'de', 'Nova'),\n", " ('time', 'de', 'Nova', 'York'),\n", " ('de', 'Nova', 'York', 'chegou'),\n", " ('Nova', 'York', 'chegou', 'à'),\n", " ('York', 'chegou', 'à', 'red'),\n", " ('chegou', 'à', 'red', 'zone'),\n", " ('à', 'red', 'zone', 'logo'),\n", " ('red', 'zone', 'logo', 'na'),\n", " ('zone', 'logo', 'na', 'primeira'),\n", " ('logo', 'na', 'primeira', 'campanha'),\n", " ('na', 'primeira', 'campanha', '.'),\n", " ('primeira', 'campanha', '.', 'O'),\n", " ('campanha', '.', 'O', 'avanço'),\n", " ('.', 'O', 'avanço', ','),\n", " ('O', 'avanço', ',', 'no'),\n", " ('avanço', ',', 'no', 'entanto'),\n", " (',', 'no', 'entanto', ','),\n", " ('no', 'entanto', ',', 'parou'),\n", " ('entanto', ',', 'parou', 'na'),\n", " (',', 'parou', 'na', 'linha'),\n", " ('parou', 'na', 'linha', 'de'),\n", " ('na', 'linha', 'de', '17'),\n", " ('linha', 'de', '17', 'jardas'),\n", " ('de', '17', 'jardas', 'e'),\n", " ('17', 'jardas', 'e', 'Lawrence'),\n", " ('jardas', 'e', 'Lawrence', 'Tynes'),\n", " ('e', 'Lawrence', 'Tynes', 'converteu'),\n", " ('Lawrence', 'Tynes', 'converteu', 'o'),\n", " ('Tynes', 'converteu', 'o', 'field'),\n", " ('converteu', 'o', 'field', 'goal'),\n", " ('o', 'field', 'goal', 'de'),\n", " ('field', 'goal', 'de', '32'),\n", " ('goal', 'de', '32', 'jardas'),\n", " ('de', '32', 'jardas', 'para'),\n", " ('32', 'jardas', 'para', 'abrir'),\n", " ('jardas', 'para', 'abrir', 'o'),\n", " ('para', 'abrir', 'o', 'placar'),\n", " ('abrir', 'o', 'placar', '.'),\n", " ('o', 'placar', '.', 'Eli'),\n", " ('placar', '.', 'Eli', 'Manning'),\n", " ('.', 'Eli', 'Manning', 'e'),\n", " ('Eli', 'Manning', 'e', 'companhia'),\n", " ('Manning', 'e', 'companhia', 'ficaram'),\n", " ('e', 'companhia', 'ficaram', '9m54s'),\n", " ('companhia', 'ficaram', '9m54s', 'com'),\n", " ('ficaram', '9m54s', 'com', 'a'),\n", " ('9m54s', 'com', 'a', 'bola'),\n", " ('com', 'a', 'bola', ','),\n", " ('a', 'bola', ',', 'mas'),\n", " ('bola', ',', 'mas', 'o'),\n", " (',', 'mas', 'o', 'ataque'),\n", " ('mas', 'o', 'ataque', 'dos'),\n", " ('o', 'ataque', 'dos', 'Patriots'),\n", " ('ataque', 'dos', 'Patriots', 'não'),\n", " ('dos', 'Patriots', 'não', 'entrou'),\n", " ('Patriots', 'não', 'entrou', 'em'),\n", " ('não', 'entrou', 'em', 'campo'),\n", " ('entrou', 'em', 'campo', 'frio'),\n", " ('em', 'campo', 'frio', '.'),\n", " ('campo', 'frio', '.', 'Logo'),\n", " ('frio', '.', 'Logo', 'no'),\n", " ('.', 'Logo', 'no', 'retorno'),\n", " ('Logo', 'no', 'retorno', 'do'),\n", " ('no', 'retorno', 'do', 'kickoff'),\n", " ('retorno', 'do', 'kickoff', ','),\n", " ('do', 'kickoff', ',', 'o'),\n", " ('kickoff', ',', 'o', 'running'),\n", " (',', 'o', 'running', 'back'),\n", " ('o', 'running', 'back', 'Laurence'),\n", " ('running', 'back', 'Laurence', 'Maroney'),\n", " ('back', 'Laurence', 'Maroney', 'avançou'),\n", " ('Laurence', 'Maroney', 'avançou', '43'),\n", " ('Maroney', 'avançou', '43', 'jardas'),\n", " ('avançou', '43', 'jardas', ','),\n", " ('43', 'jardas', ',', 'deixando'),\n", " ('jardas', ',', 'deixando', 'Tom'),\n", " (',', 'deixando', 'Tom', 'Brady'),\n", " ('deixando', 'Tom', 'Brady', 'em'),\n", " ('Tom', 'Brady', 'em', 'boa'),\n", " ('Brady', 'em', 'boa', 'posição'),\n", " ('em', 'boa', 'posição', '.'),\n", " ('boa', 'posição', '.', 'Com'),\n", " ('posição', '.', 'Com', 'passes'),\n", " ('.', 'Com', 'passes', 'curtos'),\n", " ('Com', 'passes', 'curtos', ','),\n", " ('passes', 'curtos', ',', 'os'),\n", " ('curtos', ',', 'os', 'Patriots'),\n", " (',', 'os', 'Patriots', 'chegaram'),\n", " ('os', 'Patriots', 'chegaram', 'à'),\n", " ('Patriots', 'chegaram', 'à', 'linha'),\n", " ('chegaram', 'à', 'linha', 'de'),\n", " ('à', 'linha', 'de', '17'),\n", " ('linha', 'de', '17', 'jardas'),\n", " ('de', '17', 'jardas', 'e'),\n", " ('17', 'jardas', 'e', ','),\n", " ('jardas', 'e', ',', 'graças'),\n", " ('e', ',', 'graças', 'a'),\n", " (',', 'graças', 'a', 'uma'),\n", " ('graças', 'a', 'uma', 'penalidade'),\n", " ('a', 'uma', 'penalidade', '('),\n", " ('uma', 'penalidade', '(', 'interferência'),\n", " ('penalidade', '(', 'interferência', 'de'),\n", " ('(', 'interferência', 'de', 'passe'),\n", " ('interferência', 'de', 'passe', ')'),\n", " ('de', 'passe', ')', 'do'),\n", " ('passe', ')', 'do', 'linebacker'),\n", " (')', 'do', 'linebacker', 'Antonio'),\n", " ('do', 'linebacker', 'Antonio', 'Pierce'),\n", " ('linebacker', 'Antonio', 'Pierce', ','),\n", " ('Antonio', 'Pierce', ',', 'alcançaram'),\n", " ('Pierce', ',', 'alcançaram', 'a'),\n", " (',', 'alcançaram', 'a', 'linha'),\n", " ('alcançaram', 'a', 'linha', 'de'),\n", " ('a', 'linha', 'de', 'uma'),\n", " ('linha', 'de', 'uma', 'jarda'),\n", " ('de', 'uma', 'jarda', '.'),\n", " ('uma', 'jarda', '.', 'Maroney'),\n", " ('jarda', '.', 'Maroney', 'avançou'),\n", " ('.', 'Maroney', 'avançou', 'pelo'),\n", " ('Maroney', 'avançou', 'pelo', 'chão'),\n", " ('avançou', 'pelo', 'chão', 'e'),\n", " ('pelo', 'chão', 'e', 'anotou'),\n", " ('chão', 'e', 'anotou', 'o'),\n", " ('e', 'anotou', 'o', 'primeiro'),\n", " ('anotou', 'o', 'primeiro', 'touchdown'),\n", " ('o', 'primeiro', 'touchdown', 'do'),\n", " ('primeiro', 'touchdown', 'do', 'jogo'),\n", " ('touchdown', 'do', 'jogo', '.'),\n", " ('do', 'jogo', '.', 'Os'),\n", " ('jogo', '.', 'Os', 'Giants'),\n", " ('.', 'Os', 'Giants', 'pareciam'),\n", " ('Os', 'Giants', 'pareciam', 'rumo'),\n", " ('Giants', 'pareciam', 'rumo', 'à'),\n", " ('pareciam', 'rumo', 'à', 'virada'),\n", " ('rumo', 'à', 'virada', 'na'),\n", " ('à', 'virada', 'na', 'campanha'),\n", " ('virada', 'na', 'campanha', 'seguinte'),\n", " ('na', 'campanha', 'seguinte', '.'),\n", " ('campanha', 'seguinte', '.', 'Manning'),\n", " ('seguinte', '.', 'Manning', 'achou'),\n", " ('.', 'Manning', 'achou', 'Amani'),\n", " ('Manning', 'achou', 'Amani', 'Toomer'),\n", " ('achou', 'Amani', 'Toomer', 'para'),\n", " ('Amani', 'Toomer', 'para', 'um'),\n", " ('Toomer', 'para', 'um', 'avanço'),\n", " ('para', 'um', 'avanço', 'de'),\n", " ('um', 'avanço', 'de', '38'),\n", " ('avanço', 'de', '38', 'jardas'),\n", " ('de', '38', 'jardas', ','),\n", " ('38', 'jardas', ',', 'e'),\n", " ('jardas', ',', 'e', 'o'),\n", " (',', 'e', 'o', 'time'),\n", " ('e', 'o', 'time', 'de'),\n", " ('o', 'time', 'de', 'Nova'),\n", " ('time', 'de', 'Nova', 'York'),\n", " ('de', 'Nova', 'York', 'entrou'),\n", " ('Nova', 'York', 'entrou', 'novamente'),\n", " ('York', 'entrou', 'novamente', 'na'),\n", " ('entrou', 'novamente', 'na', 'red'),\n", " ('novamente', 'na', 'red', 'zone'),\n", " ('na', 'red', 'zone', '.'),\n", " ('red', 'zone', '.', 'Com'),\n", " ('zone', '.', 'Com', 'a'),\n", " ('.', 'Com', 'a', 'bola'),\n", " ('Com', 'a', 'bola', 'na'),\n", " ('a', 'bola', 'na', 'linha'),\n", " ('bola', 'na', 'linha', 'de'),\n", " ('na', 'linha', 'de', '14'),\n", " ('linha', 'de', '14', 'jardas'),\n", " ('de', '14', 'jardas', 'dos'),\n", " ('14', 'jardas', 'dos', 'Patriots'),\n", " ('jardas', 'dos', 'Patriots', ','),\n", " ('dos', 'Patriots', ',', 'os'),\n", " ('Patriots', ',', 'os', 'Giants'),\n", " (',', 'os', 'Giants', 'sofreram'),\n", " ('os', 'Giants', 'sofreram', 'um'),\n", " ('Giants', 'sofreram', 'um', 'revés'),\n", " ('sofreram', 'um', 'revés', '.'),\n", " ('um', 'revés', '.', 'Manning'),\n", " ('revés', '.', 'Manning', 'passou'),\n", " ('.', 'Manning', 'passou', 'para'),\n", " ('Manning', 'passou', 'para', 'Steve'),\n", " ('passou', 'para', 'Steve', 'Smith'),\n", " ('para', 'Steve', 'Smith', ','),\n", " ('Steve', 'Smith', ',', 'que'),\n", " ('Smith', ',', 'que', 'soltou'),\n", " (',', 'que', 'soltou', 'a'),\n", " ('que', 'soltou', 'a', 'bola'),\n", " ('soltou', 'a', 'bola', '.'),\n", " ('a', 'bola', '.', 'Ellis'),\n", " ('bola', '.', 'Ellis', 'Hobbs'),\n", " ('.', 'Ellis', 'Hobbs', 'aproveitou'),\n", " ('Ellis', 'Hobbs', 'aproveitou', ','),\n", " ('Hobbs', 'aproveitou', ',', 'tomou'),\n", " ('aproveitou', ',', 'tomou', 'a'),\n", " (',', 'tomou', 'a', 'posse'),\n", " ('tomou', 'a', 'posse', 'para'),\n", " ('a', 'posse', 'para', 'os'),\n", " ('posse', 'para', 'os', 'Patriots'),\n", " ('para', 'os', 'Patriots', ','),\n", " ('os', 'Patriots', ',', 'e'),\n", " ('Patriots', ',', 'e', 'avançou'),\n", " (',', 'e', 'avançou', '23'),\n", " ('e', 'avançou', '23', 'jardas'),\n", " ('avançou', '23', 'jardas', '.'),\n", " ('23', 'jardas', '.', 'A'),\n", " ('jardas', '.', 'A', 'defesa'),\n", " ('.', 'A', 'defesa', 'de'),\n", " ('A', 'defesa', 'de', 'Nova'),\n", " ('defesa', 'de', 'Nova', 'York'),\n", " ('de', 'Nova', 'York', 'manteve'),\n", " ('Nova', 'York', 'manteve', 'o'),\n", " ('York', 'manteve', 'o', 'jogo'),\n", " ('manteve', 'o', 'jogo', 'equilibrado'),\n", " ('o', 'jogo', 'equilibrado', '.'),\n", " ('jogo', 'equilibrado', '.', 'Com'),\n", " ('equilibrado', '.', 'Com', 'dois'),\n", " ('.', 'Com', 'dois', 'sacks'),\n", " ('Com', 'dois', 'sacks', 'seguidos'),\n", " ('dois', 'sacks', 'seguidos', ','),\n", " ('sacks', 'seguidos', ',', 'os'),\n", " ('seguidos', ',', 'os', 'Giants'),\n", " (',', 'os', 'Giants', 'forçaram'),\n", " ('os', 'Giants', 'forçaram', 'o'),\n", " ('Giants', 'forçaram', 'o', 'punt'),\n", " ('forçaram', 'o', 'punt', 'e'),\n", " ('o', 'punt', 'e', 'recuperaram'),\n", " ('punt', 'e', 'recuperaram', 'a'),\n", " ('e', 'recuperaram', 'a', 'bola'),\n", " ('recuperaram', 'a', 'bola', '.'),\n", " ('a', 'bola', '.', 'Mas'),\n", " ('bola', '.', 'Mas', 'a'),\n", " ('.', 'Mas', 'a', 'campanha'),\n", " ('Mas', 'a', 'campanha', 'seguinte'),\n", " ('a', 'campanha', 'seguinte', 'provou'),\n", " ('campanha', 'seguinte', 'provou', 'ser'),\n", " ('seguinte', 'provou', 'ser', 'outra'),\n", " ('provou', 'ser', 'outra', 'decepção'),\n", " ('ser', 'outra', 'decepção', 'para'),\n", " ('outra', 'decepção', 'para', 'Nova'),\n", " ('decepção', 'para', 'Nova', 'York'),\n", " ('para', 'Nova', 'York', '.'),\n", " ('Nova', 'York', '.', 'O'),\n", " ('York', '.', 'O', 'time'),\n", " ('.', 'O', 'time', 'chegou'),\n", " ('O', 'time', 'chegou', 'à'),\n", " ('time', 'chegou', 'à', 'linha'),\n", " ('chegou', 'à', 'linha', 'de'),\n", " ('à', 'linha', 'de', '25'),\n", " ('linha', 'de', '25', 'jardas'),\n", " ('de', '25', 'jardas', ','),\n", " ('25', 'jardas', ',', 'mas'),\n", " ('jardas', ',', 'mas', 'Manning'),\n", " (',', 'mas', 'Manning', 'sofreu'),\n", " ('mas', 'Manning', 'sofreu', 'um'),\n", " ('Manning', 'sofreu', 'um', 'sack'),\n", " ('sofreu', 'um', 'sack', 'e'),\n", " ('um', 'sack', 'e', 'cometeu'),\n", " ('sack', 'e', 'cometeu', 'um'),\n", " ('e', 'cometeu', 'um', 'fumble'),\n", " ('cometeu', 'um', 'fumble', ','),\n", " ('um', 'fumble', ',', 'e'),\n", " ('fumble', ',', 'e', 'o'),\n", " (',', 'e', 'o', 'ataque'),\n", " ('e', 'o', 'ataque', 'voltou'),\n", " ('o', 'ataque', 'voltou', 'para'),\n", " ('ataque', 'voltou', 'para', 'a'),\n", " ('voltou', 'para', 'a', 'linha'),\n", " ('para', 'a', 'linha', 'de'),\n", " ('a', 'linha', 'de', '39'),\n", " ('linha', 'de', '39', 'jardas'),\n", " ('de', '39', 'jardas', ','),\n", " ('39', 'jardas', ',', 'não'),\n", " ('jardas', ',', 'não', 'conseguindo'),\n", " (',', 'não', 'conseguindo', 'pontuar'),\n", " ('não', 'conseguindo', 'pontuar', 'mais'),\n", " ('conseguindo', 'pontuar', 'mais', 'uma'),\n", " ('pontuar', 'mais', 'uma', 'vez'),\n", " ('mais', 'uma', 'vez', '.'),\n", " ('uma', 'vez', '.', 'Os'),\n", " ('vez', '.', 'Os', 'Patriots'),\n", " ('.', 'Os', 'Patriots', 'tiveram'),\n", " ('Os', 'Patriots', 'tiveram', 'uma'),\n", " ('Patriots', 'tiveram', 'uma', 'última'),\n", " ('tiveram', 'uma', 'última', 'chance'),\n", " ('uma', 'última', 'chance', 'de'),\n", " ('última', 'chance', 'de', 'marcar'),\n", " ('chance', 'de', 'marcar', 'antes'),\n", " ('de', 'marcar', 'antes', 'do'),\n", " ('marcar', 'antes', 'do', 'intervalo'),\n", " ('antes', 'do', 'intervalo', ','),\n", " ('do', 'intervalo', ',', 'mas'),\n", " ('intervalo', ',', 'mas', ','),\n", " (',', 'mas', ',', 'a'),\n", " ('mas', ',', 'a', '22'),\n", " (',', 'a', '22', 'segundos'),\n", " ('a', '22', 'segundos', 'do'),\n", " ('22', 'segundos', 'do', 'fim'),\n", " ('segundos', 'do', 'fim', 'do'),\n", " ('do', 'fim', 'do', 'segundo'),\n", " ('fim', 'do', 'segundo', 'período'),\n", " ('do', 'segundo', 'período', ','),\n", " ('segundo', 'período', ',', 'Brady'),\n", " ('período', ',', 'Brady', 'foi'),\n", " (',', 'Brady', 'foi', 'novamente'),\n", " ('Brady', 'foi', 'novamente', 'sacado'),\n", " ('foi', 'novamente', 'sacado', '.'),\n", " ('novamente', 'sacado', '.', 'Desta'),\n", " ('sacado', '.', 'Desta', 'vez'),\n", " ('.', 'Desta', 'vez', ','),\n", " ('Desta', 'vez', ',', 'ele'),\n", " ('vez', ',', 'ele', 'cometeu'),\n", " (',', 'ele', 'cometeu', 'o'),\n", " ('ele', 'cometeu', 'o', 'fumble'),\n", " ('cometeu', 'o', 'fumble', 'e'),\n", " ('o', 'fumble', 'e', 'os'),\n", " ('fumble', 'e', 'os', 'Giants'),\n", " ('e', 'os', 'Giants', 'tomaram'),\n", " ('os', 'Giants', 'tomaram', 'a'),\n", " ('Giants', 'tomaram', 'a', 'posse'),\n", " ('tomaram', 'a', 'posse', 'de'),\n", " ('a', 'posse', 'de', 'bola'),\n", " ('posse', 'de', 'bola', '.'),\n", " ('de', 'bola', '.', 'Manning'),\n", " ('bola', '.', 'Manning', 'tentou'),\n", " ('.', 'Manning', 'tentou', 'um'),\n", " ('Manning', 'tentou', 'um', 'passe'),\n", " ('tentou', 'um', 'passe', 'longo'),\n", " ('um', 'passe', 'longo', ','),\n", " ('passe', 'longo', ',', 'de'),\n", " ('longo', ',', 'de', '50'),\n", " (',', 'de', '50', 'jardas'),\n", " ('de', '50', 'jardas', ','),\n", " ('50', 'jardas', ',', 'nos'),\n", " ('jardas', ',', 'nos', 'últimos'),\n", " (',', 'nos', 'últimos', 'segundos'),\n", " ('nos', 'últimos', 'segundos', ','),\n", " ('últimos', 'segundos', ',', 'mas'),\n", " ('segundos', ',', 'mas', 'não'),\n", " (',', 'mas', 'não', 'teve'),\n", " ('mas', 'não', 'teve', 'sucesso'),\n", " ('não', 'teve', 'sucesso', '.'),\n", " ('teve', 'sucesso', '.', 'O'),\n", " ('sucesso', '.', 'O', 'jogo'),\n", " ('.', 'O', 'jogo', 'continuou'),\n", " ('O', 'jogo', 'continuou', 'amarrado'),\n", " ('jogo', 'continuou', 'amarrado', 'no'),\n", " ('continuou', 'amarrado', 'no', 'terceiro'),\n", " ('amarrado', 'no', 'terceiro', 'quarto'),\n", " ('no', 'terceiro', 'quarto', ','),\n", " ('terceiro', 'quarto', ',', 'com'),\n", " ('quarto', ',', 'com', 'as'),\n", " (',', 'com', 'as', 'defesas'),\n", " ('com', 'as', 'defesas', 'levando'),\n", " ('as', 'defesas', 'levando', 'a'),\n", " ('defesas', 'levando', 'a', 'melhor'),\n", " ('levando', 'a', 'melhor', 'sobre'),\n", " ('a', 'melhor', 'sobre', 'os'),\n", " ('melhor', 'sobre', 'os', 'ataques'),\n", " ('sobre', 'os', 'ataques', '.'),\n", " ('os', 'ataques', '.', 'A'),\n", " ('ataques', '.', 'A', 'única'),\n", " ('.', 'A', 'única', 'chance'),\n", " ('A', 'única', 'chance', 'de'),\n", " ('única', 'chance', 'de', 'pontuar'),\n", " ('chance', 'de', 'pontuar', 'do'),\n", " ('de', 'pontuar', 'do', 'período'),\n", " ('pontuar', 'do', 'período', 'foi'),\n", " ('do', 'período', 'foi', 'dos'),\n", " ('período', 'foi', 'dos', 'Patriots'),\n", " ('foi', 'dos', 'Patriots', ','),\n", " ('dos', 'Patriots', ',', 'que'),\n", " ('Patriots', ',', 'que', 'chegaram'),\n", " (',', 'que', 'chegaram', 'à'),\n", " ('que', 'chegaram', 'à', 'linha'),\n", " ('chegaram', 'à', 'linha', 'de'),\n", " ('à', 'linha', 'de', '31'),\n", " ('linha', 'de', '31', 'jardas'),\n", " ('de', '31', 'jardas', 'dos'),\n", " ('31', 'jardas', 'dos', 'Giants'),\n", " ('jardas', 'dos', 'Giants', '.'),\n", " ('dos', 'Giants', '.', 'O'),\n", " ('Giants', '.', 'O', 'técnico'),\n", " ('.', 'O', 'técnico', 'Bill'),\n", " ('O', 'técnico', 'Bill', 'Bellichick'),\n", " ('técnico', 'Bill', 'Bellichick', ','),\n", " ('Bill', 'Bellichick', ',', 'porém'),\n", " ('Bellichick', ',', 'porém', ','),\n", " (',', 'porém', ',', 'optou'),\n", " ('porém', ',', 'optou', 'por'),\n", " (',', 'optou', 'por', 'uma'),\n", " ('optou', 'por', 'uma', 'quarta'),\n", " ('por', 'uma', 'quarta', 'descida'),\n", " ('uma', 'quarta', 'descida', 'em'),\n", " ('quarta', 'descida', 'em', 'vez'),\n", " ('descida', 'em', 'vez', 'de'),\n", " ('em', 'vez', 'de', 'um'),\n", " ('vez', 'de', 'um', 'field'),\n", " ('de', 'um', 'field', 'goal'),\n", " ('um', 'field', 'goal', '.'),\n", " ('field', 'goal', '.', 'Brady'),\n", " ('goal', '.', 'Brady', 'tentou'),\n", " ('.', 'Brady', 'tentou', 'um'),\n", " ('Brady', 'tentou', 'um', 'passe'),\n", " ('tentou', 'um', 'passe', 'para'),\n", " ('um', 'passe', 'para', 'Jabar'),\n", " ('passe', 'para', 'Jabar', 'Gaffney'),\n", " ('para', 'Jabar', 'Gaffney', ','),\n", " ('Jabar', 'Gaffney', ',', 'mas'),\n", " ('Gaffney', ',', 'mas', 'não'),\n", " (',', 'mas', 'não', 'conseguiu'),\n", " ('mas', 'não', 'conseguiu', 'completar'),\n", " ('não', 'conseguiu', 'completar', '.'),\n", " ('conseguiu', 'completar', '.', 'O'),\n", " ('completar', '.', 'O', 'último'),\n", " ('.', 'O', 'último', 'período'),\n", " ('O', 'último', 'período', 'começou'),\n", " ('último', 'período', 'começou', 'arrasador'),\n", " ('período', 'começou', 'arrasador', 'para'),\n", " ('começou', 'arrasador', 'para', 'os'),\n", " ('arrasador', 'para', 'os', 'Giants'),\n", " ('para', 'os', 'Giants', '.'),\n", " ('os', 'Giants', '.', 'na'),\n", " ('Giants', '.', 'na', 'primeira'),\n", " ('.', 'na', 'primeira', 'jogada'),\n", " ('na', 'primeira', 'jogada', ','),\n", " ('primeira', 'jogada', ',', 'Manning'),\n", " ('jogada', ',', 'Manning', 'achou'),\n", " (',', 'Manning', 'achou', 'o'),\n", " ('Manning', 'achou', 'o', 'tight'),\n", " ('achou', 'o', 'tight', 'end'),\n", " ('o', 'tight', 'end', 'Kevin'),\n", " ('tight', 'end', 'Kevin', 'Boss'),\n", " ('end', 'Kevin', 'Boss', ','),\n", " ('Kevin', 'Boss', ',', 'para'),\n", " ('Boss', ',', 'para', 'um'),\n", " (',', 'para', 'um', 'incrível'),\n", " ('para', 'um', 'incrível', 'avanço'),\n", " ('um', 'incrível', 'avanço', 'de'),\n", " ('incrível', 'avanço', 'de', '45'),\n", " ('avanço', 'de', '45', 'jardas'),\n", " ('de', '45', 'jardas', ','),\n", " ('45', 'jardas', ',', 'que'),\n", " ('jardas', ',', 'que', 'deixou'),\n", " (',', 'que', 'deixou', 'o'),\n", " ('que', 'deixou', 'o', 'time'),\n", " ('deixou', 'o', 'time', 'na'),\n", " ('o', 'time', 'na', 'linha'),\n", " ('time', 'na', 'linha', 'de'),\n", " ('na', 'linha', 'de', '35'),\n", " ('linha', 'de', '35', 'dos'),\n", " ('de', '35', 'dos', 'Patriots'),\n", " ('35', 'dos', 'Patriots', '.'),\n", " ('dos', 'Patriots', '.', 'Outro'),\n", " ('Patriots', '.', 'Outro', 'lançamento'),\n", " ('.', 'Outro', 'lançamento', ','),\n", " ('Outro', 'lançamento', ',', 'desta'),\n", " ('lançamento', ',', 'desta', 'vez'),\n", " (',', 'desta', 'vez', 'para'),\n", " ('desta', 'vez', 'para', 'Steve'),\n", " ('vez', 'para', 'Steve', 'Smith'),\n", " ('para', 'Steve', 'Smith', ','),\n", " ('Steve', 'Smith', ',', 'marcou'),\n", " ('Smith', ',', 'marcou', 'o'),\n", " (',', 'marcou', 'o', 'avanço'),\n", " ('marcou', 'o', 'avanço', 'até'),\n", " ('o', 'avanço', 'até', 'a'),\n", " ('avanço', 'até', 'a', 'linha'),\n", " ('até', 'a', 'linha', 'de'),\n", " ('a', 'linha', 'de', '12'),\n", " ('linha', 'de', '12', 'jardas'),\n", " ('de', '12', 'jardas', '.'),\n", " ('12', 'jardas', '.', 'Duas'),\n", " ('jardas', '.', 'Duas', 'jogadas'),\n", " ('.', 'Duas', 'jogadas', 'depois'),\n", " ('Duas', 'jogadas', 'depois', ','),\n", " ('jogadas', 'depois', ',', 'David'),\n", " ('depois', ',', 'David', 'Tyree'),\n", " (',', 'David', 'Tyree', 'pegou'),\n", " ('David', 'Tyree', 'pegou', 'um'),\n", " ('Tyree', 'pegou', 'um', 'passe'),\n", " ('pegou', 'um', 'passe', 'de'),\n", " ('um', 'passe', 'de', 'cinco'),\n", " ('passe', 'de', 'cinco', 'jardas'),\n", " ('de', 'cinco', 'jardas', 'na'),\n", " ('cinco', 'jardas', 'na', 'end'),\n", " ('jardas', 'na', 'end', 'zone'),\n", " ('na', 'end', 'zone', 'para'),\n", " ('end', 'zone', 'para', 'anotar'),\n", " ('zone', 'para', 'anotar', 'o'),\n", " ('para', 'anotar', 'o', 'touchdown'),\n", " ('anotar', 'o', 'touchdown', 'e'),\n", " ('o', 'touchdown', 'e', 'virar'),\n", " ('touchdown', 'e', 'virar', 'o'),\n", " ('e', 'virar', 'o', 'jogo'),\n", " ('virar', 'o', 'jogo', '.'),\n", " ('o', 'jogo', '.', 'Na'),\n", " ('jogo', '.', 'Na', 'hora'),\n", " ('.', 'Na', 'hora', 'da'),\n", " ('Na', 'hora', 'da', 'decisão'),\n", " ('hora', 'da', 'decisão', ','),\n", " ('da', 'decisão', ',', 'o'),\n", " ('decisão', ',', 'o', 'ataque'),\n", " (',', 'o', 'ataque', 'dos'),\n", " ('o', 'ataque', 'dos', 'Patriots'),\n", " ('ataque', 'dos', 'Patriots', 'voltou'),\n", " ('dos', 'Patriots', 'voltou', 'a'),\n", " ('Patriots', 'voltou', 'a', 'funcionar'),\n", " ('voltou', 'a', 'funcionar', '.'),\n", " ('a', 'funcionar', '.', 'Com'),\n", " ('funcionar', '.', 'Com', 'uma'),\n", " ('.', 'Com', 'uma', 'série'),\n", " ('Com', 'uma', 'série', 'de'),\n", " ('uma', 'série', 'de', 'passes'),\n", " ('série', 'de', 'passes', 'curtos'),\n", " ('de', 'passes', 'curtos', 'e'),\n", " ('passes', 'curtos', 'e', 'variados'),\n", " ('curtos', 'e', 'variados', ','),\n", " ('e', 'variados', ',', 'Brady'),\n", " ('variados', ',', 'Brady', 'achou'),\n", " (',', 'Brady', 'achou', 'Wes'),\n", " ('Brady', 'achou', 'Wes', 'Welker'),\n", " ('achou', 'Wes', 'Welker', ','),\n", " ('Wes', 'Welker', ',', 'Randy'),\n", " ('Welker', ',', 'Randy', 'Moss'),\n", " (',', 'Randy', 'Moss', 'e'),\n", " ('Randy', 'Moss', 'e', 'Kevin'),\n", " ('Moss', 'e', 'Kevin', 'Faulk'),\n", " ('e', 'Kevin', 'Faulk', 'seguidas'),\n", " ('Kevin', 'Faulk', 'seguidas', 'vezes'),\n", " ('Faulk', 'seguidas', 'vezes', 'até'),\n", " ('seguidas', 'vezes', 'até', 'chegar'),\n", " ('vezes', 'até', 'chegar', 'à'),\n", " ('até', 'chegar', 'à', 'red'),\n", " ('chegar', 'à', 'red', 'zone'),\n", " ('à', 'red', 'zone', '.'),\n", " ('red', 'zone', '.', 'A'),\n", " ('zone', '.', 'A', '2m45s'),\n", " ('.', 'A', '2m45s', 'do'),\n", " ('A', '2m45s', 'do', 'fim'),\n", " ('2m45s', 'do', 'fim', ','),\n", " ('do', 'fim', ',', 'o'),\n", " ('fim', ',', 'o', 'quarterback'),\n", " (',', 'o', 'quarterback', 'conectou'),\n", " ('o', 'quarterback', 'conectou', 'mais'),\n", " ('quarterback', 'conectou', 'mais', 'uma'),\n", " ('conectou', 'mais', 'uma', 'vez'),\n", " ('mais', 'uma', 'vez', 'com'),\n", " ('uma', 'vez', 'com', 'Moss'),\n", " ('vez', 'com', 'Moss', ','),\n", " ('com', 'Moss', ',', 'que'),\n", " ('Moss', ',', 'que', 'se'),\n", " (',', 'que', 'se', 'desmarcou'),\n", " ('que', 'se', 'desmarcou', 'e'),\n", " ('se', 'desmarcou', 'e', 'ficou'),\n", " ('desmarcou', 'e', 'ficou', 'livre'),\n", " ('e', 'ficou', 'livre', 'na'),\n", " ('ficou', 'livre', 'na', 'lateral'),\n", " ('livre', 'na', 'lateral', 'direita'),\n", " ('na', 'lateral', 'direita', 'da'),\n", " ('lateral', 'direita', 'da', 'end'),\n", " ('direita', 'da', 'end', 'zone'),\n", " ('da', 'end', 'zone', '.'),\n", " ('end', 'zone', '.', 'Quando'),\n", " ('zone', '.', 'Quando', 'os'),\n", " ('.', 'Quando', 'os', 'fãs'),\n", " ('Quando', 'os', 'fãs', 'de'),\n", " ('os', 'fãs', 'de', 'New'),\n", " ('fãs', 'de', 'New', 'England'),\n", " ('de', 'New', 'England', 'já'),\n", " ('New', 'England', 'já', 'comemoravam'),\n", " ('England', 'já', 'comemoravam', 'a'),\n", " ('já', 'comemoravam', 'a', 'vitória'),\n", " ('comemoravam', 'a', 'vitória', ','),\n", " ('a', 'vitória', ',', 'o'),\n", " ('vitória', ',', 'o', 'inesperado'),\n", " (',', 'o', 'inesperado', 'aconteceu'),\n", " ('o', 'inesperado', 'aconteceu', '.'),\n", " ('inesperado', 'aconteceu', '.', 'Em'),\n", " ('aconteceu', '.', 'Em', 'uma'),\n", " ('.', 'Em', 'uma', 'jogada'),\n", " ('Em', 'uma', 'jogada', 'incrível'),\n", " ('uma', 'jogada', 'incrível', ','),\n", " ('jogada', 'incrível', ',', 'Eli'),\n", " ('incrível', ',', 'Eli', 'Manning'),\n", " (',', 'Eli', 'Manning', 'se'),\n", " ('Eli', 'Manning', 'se', 'soltou'),\n", " ('Manning', 'se', 'soltou', 'de'),\n", " ('se', 'soltou', 'de', 'dois'),\n", " ('soltou', 'de', 'dois', 'marcadores'),\n", " ('de', 'dois', 'marcadores', 'que'),\n", " ('dois', 'marcadores', 'que', 'o'),\n", " ('marcadores', 'que', 'o', 'seguravam'),\n", " ('que', 'o', 'seguravam', 'pela'),\n", " ('o', 'seguravam', 'pela', 'camisa'),\n", " ('seguravam', 'pela', 'camisa', 'e'),\n", " ('pela', 'camisa', 'e', ','),\n", " ('camisa', 'e', ',', 'na'),\n", " ('e', ',', 'na', 'corrida'),\n", " (',', 'na', 'corrida', ','),\n", " ('na', 'corrida', ',', 'lançou'),\n", " ('corrida', ',', 'lançou', 'para'),\n", " (',', 'lançou', 'para', 'Amani'),\n", " ('lançou', 'para', 'Amani', 'Toomer'),\n", " ('para', 'Amani', 'Toomer', '.'),\n", " ('Amani', 'Toomer', '.', 'O'),\n", " ('Toomer', '.', 'O', 'wide'),\n", " ('.', 'O', 'wide', 'receiver'),\n", " ('O', 'wide', 'receiver', ','),\n", " ('wide', 'receiver', ',', 'bem'),\n", " ('receiver', ',', 'bem', 'marcado'),\n", " (',', 'bem', 'marcado', ','),\n", " ('bem', 'marcado', ',', 'saltou'),\n", " ('marcado', ',', 'saltou', 'e'),\n", " (',', 'saltou', 'e', 'conseguiu'),\n", " ('saltou', 'e', 'conseguiu', 'a'),\n", " ('e', 'conseguiu', 'a', 'fazer'),\n", " ('conseguiu', 'a', 'fazer', 'recepção'),\n", " ('a', 'fazer', 'recepção', 'para'),\n", " ('fazer', 'recepção', 'para', 'um'),\n", " ('recepção', 'para', 'um', 'avanço'),\n", " ('para', 'um', 'avanço', 'de'),\n", " ('um', 'avanço', 'de', '32'),\n", " ('avanço', 'de', '32', 'jardas'),\n", " ('de', '32', 'jardas', ','),\n", " ('32', 'jardas', ',', 'deixando'),\n", " ('jardas', ',', 'deixando', 'os'),\n", " (',', 'deixando', 'os', 'Giants'),\n", " ('deixando', 'os', 'Giants', 'na'),\n", " ('os', 'Giants', 'na', 'linha'),\n", " ('Giants', 'na', 'linha', 'de'),\n", " ('na', 'linha', 'de', '24'),\n", " ('linha', 'de', '24', 'de'),\n", " ('de', '24', 'de', 'New'),\n", " ('24', 'de', 'New', 'England'),\n", " ('de', 'New', 'England', '.'),\n", " ('New', 'England', '.', 'Quatro'),\n", " ('England', '.', 'Quatro', 'jogadas'),\n", " ('.', 'Quatro', 'jogadas', 'depois'),\n", " ('Quatro', 'jogadas', 'depois', ','),\n", " ('jogadas', 'depois', ',', 'a'),\n", " ('depois', ',', 'a', '39'),\n", " (',', 'a', '39', 'segundos'),\n", " ('a', '39', 'segundos', 'do'),\n", " ('39', 'segundos', 'do', 'fim'),\n", " ('segundos', 'do', 'fim', ','),\n", " ('do', 'fim', ',', 'Manning'),\n", " ('fim', ',', 'Manning', 'achou'),\n", " (',', 'Manning', 'achou', 'Plaxico'),\n", " ('Manning', 'achou', 'Plaxico', 'Burress'),\n", " ('achou', 'Plaxico', 'Burress', 'na'),\n", " ('Plaxico', 'Burress', 'na', 'end'),\n", " ('Burress', 'na', 'end', 'zone'),\n", " ('na', 'end', 'zone', 'para'),\n", " ('end', 'zone', 'para', 'conseguir'),\n", " ('zone', 'para', 'conseguir', 'o'),\n", " ('para', 'conseguir', 'o', 'touchdown'),\n", " ('conseguir', 'o', 'touchdown', 'do'),\n", " ('o', 'touchdown', 'do', 'título'),\n", " ('touchdown', 'do', 'título', '.')]" ] }, "metadata": {}, "execution_count": 10 } ] }, { "cell_type": "markdown", "metadata": { "id": "TgGFfYGZvk97" }, "source": [ "# Reconhecer entidades nomeadas" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "mw2i3TgmvkRF", "outputId": "09901470-951a-4ef7-bcad-d06b872156d4" }, "source": [ "from nltk import bigrams\n", "from nltk import trigrams\n", "\n", "bigramas = list(bigrams(tokens))\n", "trigramas = list(trigrams(tokens))\n", "\n", "for bigrama in bigramas:\n", " if bigrama[0][0].isupper() and bigrama[1][0].isupper():\n", " print(bigrama)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "('Super', 'Bowl')\n", "('Bowl', 'XLII')\n", "('XLII', 'Azarões')\n", "('New', 'England')\n", "('Eli', 'Manning')\n", "('Plaxico', 'Burress')\n", "('New', 'York')\n", "('York', 'Giants')\n", "('New', 'England')\n", "('England', 'Patriots')\n", "('Super', 'Bowl')\n", "('Bowl', 'XLII')\n", "('Super', 'Bowl')\n", "('Tom', 'Brady')\n", "('Super', 'Bowl')\n", "('Peyton', 'Manning')\n", "('Indianapolis', 'Colts')\n", "('Os', 'Giants')\n", "('Brandon', 'Jacobs')\n", "('Nova', 'York')\n", "('Lawrence', 'Tynes')\n", "('Eli', 'Manning')\n", "('Laurence', 'Maroney')\n", "('Tom', 'Brady')\n", "('Antonio', 'Pierce')\n", "('Os', 'Giants')\n", "('Amani', 'Toomer')\n", "('Nova', 'York')\n", "('Steve', 'Smith')\n", "('Ellis', 'Hobbs')\n", "('Nova', 'York')\n", "('Nova', 'York')\n", "('Os', 'Patriots')\n", "('Bill', 'Bellichick')\n", "('Jabar', 'Gaffney')\n", "('Kevin', 'Boss')\n", "('Steve', 'Smith')\n", "('David', 'Tyree')\n", "('Wes', 'Welker')\n", "('Randy', 'Moss')\n", "('Kevin', 'Faulk')\n", "('New', 'England')\n", "('Eli', 'Manning')\n", "('Amani', 'Toomer')\n", "('New', 'England')\n", "('Plaxico', 'Burress')\n" ] } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "chH65lD2y97X", "outputId": "906e7211-45cf-4457-e356-34d784bdd13e" }, "source": [ "for trigrama in trigramas:\n", " if trigrama[0][0].isupper() and trigrama[1][0].isupper() and trigrama[2][0].isupper():\n", " print(trigrama)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "('Super', 'Bowl', 'XLII')\n", "('Bowl', 'XLII', 'Azarões')\n", "('New', 'York', 'Giants')\n", "('New', 'England', 'Patriots')\n", "('Super', 'Bowl', 'XLII')\n" ] } ] }, { "cell_type": "markdown", "metadata": { "id": "I2JMmhAo0c01" }, "source": [ "# Stemming e Lematização" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "7PlCFPNW0axW", "outputId": "6cc924eb-465c-42b0-bca5-badb601e7cdf" }, "source": [ "import nltk\n", "\n", "stemmer = nltk.RSLPStemmer()\n", "\n", "print(stemmer.stem(\"Amigão\"))\n", "print(stemmer.stem(\"amigo\"))\n", "print(stemmer.stem(\"amigos\"))\n", "print(stemmer.stem(\"propuseram\"))\n", "print(stemmer.stem(\"propõem\"))\n", "print(stemmer.stem(\"propondo\"))" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "amig\n", "amig\n", "amig\n", "propus\n", "propõ\n", "prop\n" ] } ] }, { "cell_type": "markdown", "metadata": { "id": "0eSdI58B2JIl" }, "source": [ "# Etiquetador" ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "wPTMvQrR1PHM", "outputId": "cc58adfa-57ff-44f4-e027-c066ff9f8ab8" }, "source": [ "from nltk.corpus import mac_morpho\n", "from nltk.tag import UnigramTagger\n", "\n", "tokens = nltk.word_tokenize(corpus)\n", "\n", "sentencas_treino = mac_morpho.tagged_sents()\n", "etiquetador = UnigramTagger(sentencas_treino)\n", "\n", "etiquetado = etiquetador.tag(tokens)\n", "\n", "print(etiquetado)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "[('Giants', 'NPROP'), ('batem', 'V'), ('os', 'ART'), ('Patriots', None), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', None), ('Azarões', None), ('acabam', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('invencibilidade', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('e', 'KC'), ('ficam', 'V'), ('com', 'PREP'), ('o', 'ART'), ('título', 'N'), ('da', 'NPROP'), ('temporada', 'N'), ('04/02/2008', None), ('-', '-'), ('01h07m', None), ('-', '-'), ('Atualizado', None), ('em', 'PREP|+'), ('04/02/2008', None), ('-', '-'), ('09h49m', None), ('Com', 'PREP'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('para', 'PREP'), ('Plaxico', None), ('Burress', None), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('New', 'NPROP'), ('York', 'NPROP'), ('Giants', 'NPROP'), ('anotou', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('decisivo', 'ADJ'), ('e', 'KC'), ('derrubou', 'V'), ('o', 'ART'), ('favorito', 'N'), ('New', 'NPROP'), ('England', 'NPROP'), ('Patriots', None), ('por', 'PREP|+'), ('17', 'NUM'), ('a', 'ART'), ('14', 'NUM'), ('neste', None), ('domingo', 'N'), (',', ','), ('em', 'PREP|+'), ('Glendale', None), (',', ','), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', None), ('.', '.'), ('O', 'ART'), ('resultado', 'N'), (',', ','), ('uma', 'ART'), ('das', 'NPROP'), ('maiores', 'ADJ'), ('zebras', None), ('da', 'NPROP'), ('história', 'N'), ('do', 'NPROP'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), (',', ','), ('acabou', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('temporada', 'N'), ('perfeita', 'ADJ'), ('de', 'PREP'), ('Tom', 'NPROP'), ('Brady', 'NPROP'), ('e', 'KC'), ('companhia', 'N'), (',', ','), ('que', 'PRO-KS-REL'), ('esperavam', 'V'), ('fazer', 'V'), ('história', 'N'), ('ao', 'PREP'), ('levantar', 'V'), ('o', 'ART'), ('troféu', 'N'), ('da', 'NPROP'), ('NFL', None), ('sem', 'PREP'), ('sofrer', 'V'), ('uma', 'ART'), ('derrota', 'N'), ('no', 'KC'), ('ano', 'N'), ('.', '.'), ('A', 'ART'), ('vitória', 'N'), ('dos', 'NPROP'), ('Giants', 'NPROP'), (',', ','), ('porém', 'KC'), (',', ','), ('também', 'PDEN'), ('ficará', 'V'), ('para', 'PREP'), ('a', 'ART'), ('história', 'N'), ('.', '.'), ('Pela', 'NPROP'), ('primeira', 'ADJ'), ('vez', 'N'), (',', ','), ('irmãos', 'N'), ('quarterbacks', None), ('triunfam', None), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('em', 'PREP|+'), ('temporadas', 'N'), ('consecutivas', 'ADJ'), ('.', '.'), ('No', 'KC'), ('ano', 'N'), ('passado', 'PCP'), (',', ','), ('Peyton', None), ('Manning', 'NPROP'), (',', ','), ('irmão', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), (',', ','), ('chegou', 'V'), ('ao', 'PREP'), ('título', 'N'), ('máximo', 'N'), ('da', 'NPROP'), ('NFL', None), ('pelo', 'PDEN'), ('Indianapolis', None), ('Colts', None), ('.', '.'), ('A', 'ART'), ('partida', 'N'), ('Os', 'ART'), ('Giants', 'NPROP'), ('começaram', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('posse', 'N'), ('de', 'PREP'), ('bola', 'N'), (',', ','), ('e', 'KC'), ('mostraram', 'V'), ('logo', 'ADV'), ('que', 'PRO-KS-REL'), ('iriam', 'VAUX'), ('alongar', 'V'), ('ao', 'PREP'), ('máximo', 'N'), ('suas', 'PROADJ'), ('posses', 'N'), ('de', 'PREP'), ('bola', 'N'), ('.', '.'), ('Misturando', None), ('corridas', 'N'), ('com', 'PREP'), ('Brandon', None), ('Jacobs', 'NPROP'), ('e', 'KC'), ('passes', 'N'), ('curtos', 'ADJ'), (',', ','), ('o', 'ART'), ('time', 'N'), ('de', 'PREP'), ('Nova', 'NPROP'), ('York', 'NPROP'), ('chegou', 'V'), ('à', 'NPROP'), ('red', 'N|EST'), ('zone', None), ('logo', 'ADV'), ('na', 'NPROP'), ('primeira', 'ADJ'), ('campanha', 'N'), ('.', '.'), ('O', 'ART'), ('avanço', 'N'), (',', ','), ('no', 'KC'), ('entanto', 'KC'), (',', ','), ('parou', 'V'), ('na', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('17', 'NUM'), ('jardas', 'N'), ('e', 'KC'), ('Lawrence', 'NPROP'), ('Tynes', None), ('converteu', 'V'), ('o', 'ART'), ('field', 'N|EST'), ('goal', 'N|EST'), ('de', 'PREP'), ('32', 'NUM'), ('jardas', 'N'), ('para', 'PREP'), ('abrir', 'V'), ('o', 'ART'), ('placar', 'N'), ('.', '.'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('e', 'KC'), ('companhia', 'N'), ('ficaram', 'V'), ('9m54s', None), ('com', 'PREP'), ('a', 'ART'), ('bola', 'N'), (',', ','), ('mas', 'KC'), ('o', 'ART'), ('ataque', 'N'), ('dos', 'NPROP'), ('Patriots', None), ('não', 'ADV'), ('entrou', 'V'), ('em', 'PREP|+'), ('campo', 'N'), ('frio', 'N'), ('.', '.'), ('Logo', 'ADV'), ('no', 'KC'), ('retorno', 'N'), ('do', 'NPROP'), ('kickoff', None), (',', ','), ('o', 'ART'), ('running', 'N|EST'), ('back', 'N|EST'), ('Laurence', 'NPROP'), ('Maroney', None), ('avançou', 'V'), ('43', 'NUM'), ('jardas', 'N'), (',', ','), ('deixando', 'V'), ('Tom', 'NPROP'), ('Brady', 'NPROP'), ('em', 'PREP|+'), ('boa', 'ADJ'), ('posição', 'N'), ('.', '.'), ('Com', 'PREP'), ('passes', 'N'), ('curtos', 'ADJ'), (',', ','), ('os', 'ART'), ('Patriots', None), ('chegaram', 'V'), ('à', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('17', 'NUM'), ('jardas', 'N'), ('e', 'KC'), (',', ','), ('graças', 'PREP|+'), ('a', 'ART'), ('uma', 'ART'), ('penalidade', None), ('(', '('), ('interferência', 'N'), ('de', 'PREP'), ('passe', 'N'), (')', ')'), ('do', 'NPROP'), ('linebacker', None), ('Antonio', 'NPROP'), ('Pierce', 'NPROP'), (',', ','), ('alcançaram', 'V'), ('a', 'ART'), ('linha', 'N'), ('de', 'PREP'), ('uma', 'ART'), ('jarda', None), ('.', '.'), ('Maroney', None), ('avançou', 'V'), ('pelo', 'PDEN'), ('chão', 'N'), ('e', 'KC'), ('anotou', 'V'), ('o', 'ART'), ('primeiro', 'ADJ'), ('touchdown', 'N|EST'), ('do', 'NPROP'), ('jogo', 'N'), ('.', '.'), ('Os', 'ART'), ('Giants', 'NPROP'), ('pareciam', 'V'), ('rumo', 'PREP|+'), ('à', 'NPROP'), ('virada', 'N'), ('na', 'NPROP'), ('campanha', 'N'), ('seguinte', 'ADJ'), ('.', '.'), ('Manning', 'NPROP'), ('achou', 'V'), ('Amani', None), ('Toomer', None), ('para', 'PREP'), ('um', 'ART'), ('avanço', 'N'), ('de', 'PREP'), ('38', 'NUM'), ('jardas', 'N'), (',', ','), ('e', 'KC'), ('o', 'ART'), ('time', 'N'), ('de', 'PREP'), ('Nova', 'NPROP'), ('York', 'NPROP'), ('entrou', 'V'), ('novamente', 'ADV'), ('na', 'NPROP'), ('red', 'N|EST'), ('zone', None), ('.', '.'), ('Com', 'PREP'), ('a', 'ART'), ('bola', 'N'), ('na', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('14', 'NUM'), ('jardas', 'N'), ('dos', 'NPROP'), ('Patriots', None), (',', ','), ('os', 'ART'), ('Giants', 'NPROP'), ('sofreram', 'V'), ('um', 'ART'), ('revés', None), ('.', '.'), ('Manning', 'NPROP'), ('passou', 'V'), ('para', 'PREP'), ('Steve', 'NPROP'), ('Smith', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('soltou', 'V'), ('a', 'ART'), ('bola', 'N'), ('.', '.'), ('Ellis', 'NPROP'), ('Hobbs', None), ('aproveitou', 'V'), (',', ','), ('tomou', 'V'), ('a', 'ART'), ('posse', 'N'), ('para', 'PREP'), ('os', 'ART'), ('Patriots', None), (',', ','), ('e', 'KC'), ('avançou', 'V'), ('23', 'NUM'), ('jardas', 'N'), ('.', '.'), ('A', 'ART'), ('defesa', 'N'), ('de', 'PREP'), ('Nova', 'NPROP'), ('York', 'NPROP'), ('manteve', 'V'), ('o', 'ART'), ('jogo', 'N'), ('equilibrado', 'PCP'), ('.', '.'), ('Com', 'PREP'), ('dois', 'NUM'), ('sacks', None), ('seguidos', 'PCP'), (',', ','), ('os', 'ART'), ('Giants', 'NPROP'), ('forçaram', 'V'), ('o', 'ART'), ('punt', None), ('e', 'KC'), ('recuperaram', None), ('a', 'ART'), ('bola', 'N'), ('.', '.'), ('Mas', 'KC'), ('a', 'ART'), ('campanha', 'N'), ('seguinte', 'ADJ'), ('provou', 'V'), ('ser', 'VAUX'), ('outra', 'PROADJ'), ('decepção', 'N'), ('para', 'PREP'), ('Nova', 'NPROP'), ('York', 'NPROP'), ('.', '.'), ('O', 'ART'), ('time', 'N'), ('chegou', 'V'), ('à', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('25', 'NUM'), ('jardas', 'N'), (',', ','), ('mas', 'KC'), ('Manning', 'NPROP'), ('sofreu', 'V'), ('um', 'ART'), ('sack', None), ('e', 'KC'), ('cometeu', 'V'), ('um', 'ART'), ('fumble', 'N|EST'), (',', ','), ('e', 'KC'), ('o', 'ART'), ('ataque', 'N'), ('voltou', 'V'), ('para', 'PREP'), ('a', 'ART'), ('linha', 'N'), ('de', 'PREP'), ('39', 'NUM'), ('jardas', 'N'), (',', ','), ('não', 'ADV'), ('conseguindo', 'V'), ('pontuar', None), ('mais', 'ADV'), ('uma', 'ART'), ('vez', 'N'), ('.', '.'), ('Os', 'ART'), ('Patriots', None), ('tiveram', 'V'), ('uma', 'ART'), ('última', 'ADJ'), ('chance', 'N'), ('de', 'PREP'), ('marcar', 'V'), ('antes', 'ADV'), ('do', 'NPROP'), ('intervalo', 'N'), (',', ','), ('mas', 'KC'), (',', ','), ('a', 'ART'), ('22', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), ('do', 'NPROP'), ('segundo', 'PREP'), ('período', 'N'), (',', ','), ('Brady', 'NPROP'), ('foi', 'VAUX'), ('novamente', 'ADV'), ('sacado', 'PCP'), ('.', '.'), ('Desta', 'ADV'), ('vez', 'N'), (',', ','), ('ele', 'PROPESS'), ('cometeu', 'V'), ('o', 'ART'), ('fumble', 'N|EST'), ('e', 'KC'), ('os', 'ART'), ('Giants', 'NPROP'), ('tomaram', 'V'), ('a', 'ART'), ('posse', 'N'), ('de', 'PREP'), ('bola', 'N'), ('.', '.'), ('Manning', 'NPROP'), ('tentou', 'V'), ('um', 'ART'), ('passe', 'N'), ('longo', 'ADJ'), (',', ','), ('de', 'PREP'), ('50', 'NUM'), ('jardas', 'N'), (',', ','), ('nos', 'PROPESS'), ('últimos', 'ADJ'), ('segundos', 'N'), (',', ','), ('mas', 'KC'), ('não', 'ADV'), ('teve', 'V'), ('sucesso', 'N'), ('.', '.'), ('O', 'ART'), ('jogo', 'N'), ('continuou', 'V'), ('amarrado', 'PCP'), ('no', 'KC'), ('terceiro', 'ADJ'), ('quarto', 'N'), (',', ','), ('com', 'PREP'), ('as', 'ART'), ('defesas', 'N'), ('levando', 'V'), ('a', 'ART'), ('melhor', 'ADJ'), ('sobre', 'PREP'), ('os', 'ART'), ('ataques', 'N'), ('.', '.'), ('A', 'ART'), ('única', 'ADJ'), ('chance', 'N'), ('de', 'PREP'), ('pontuar', None), ('do', 'NPROP'), ('período', 'N'), ('foi', 'VAUX'), ('dos', 'NPROP'), ('Patriots', None), (',', ','), ('que', 'PRO-KS-REL'), ('chegaram', 'V'), ('à', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('31', 'NUM'), ('jardas', 'N'), ('dos', 'NPROP'), ('Giants', 'NPROP'), ('.', '.'), ('O', 'ART'), ('técnico', 'N'), ('Bill', 'NPROP'), ('Bellichick', None), (',', ','), ('porém', 'KC'), (',', ','), ('optou', 'V'), ('por', 'PREP|+'), ('uma', 'ART'), ('quarta', 'N'), ('descida', 'N'), ('em', 'PREP|+'), ('vez', 'N'), ('de', 'PREP'), ('um', 'ART'), ('field', 'N|EST'), ('goal', 'N|EST'), ('.', '.'), ('Brady', 'NPROP'), ('tentou', 'V'), ('um', 'ART'), ('passe', 'N'), ('para', 'PREP'), ('Jabar', None), ('Gaffney', None), (',', ','), ('mas', 'KC'), ('não', 'ADV'), ('conseguiu', 'V'), ('completar', 'V'), ('.', '.'), ('O', 'ART'), ('último', 'ADJ'), ('período', 'N'), ('começou', 'VAUX'), ('arrasador', None), ('para', 'PREP'), ('os', 'ART'), ('Giants', 'NPROP'), ('.', '.'), ('na', 'NPROP'), ('primeira', 'ADJ'), ('jogada', 'N'), (',', ','), ('Manning', 'NPROP'), ('achou', 'V'), ('o', 'ART'), ('tight', None), ('end', None), ('Kevin', 'NPROP'), ('Boss', None), (',', ','), ('para', 'PREP'), ('um', 'ART'), ('incrível', 'ADJ'), ('avanço', 'N'), ('de', 'PREP'), ('45', 'NUM'), ('jardas', 'N'), (',', ','), ('que', 'PRO-KS-REL'), ('deixou', 'V'), ('o', 'ART'), ('time', 'N'), ('na', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('35', 'NUM'), ('dos', 'NPROP'), ('Patriots', None), ('.', '.'), ('Outro', 'PROADJ'), ('lançamento', 'N'), (',', ','), ('desta', 'PROADJ'), ('vez', 'N'), ('para', 'PREP'), ('Steve', 'NPROP'), ('Smith', 'NPROP'), (',', ','), ('marcou', 'V'), ('o', 'ART'), ('avanço', 'N'), ('até', 'PREP'), ('a', 'ART'), ('linha', 'N'), ('de', 'PREP'), ('12', 'NUM'), ('jardas', 'N'), ('.', '.'), ('Duas', 'NUM'), ('jogadas', 'N'), ('depois', 'ADV'), (',', ','), ('David', 'NPROP'), ('Tyree', None), ('pegou', 'V'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('cinco', 'NUM'), ('jardas', 'N'), ('na', 'NPROP'), ('end', None), ('zone', None), ('para', 'PREP'), ('anotar', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('e', 'KC'), ('virar', 'V'), ('o', 'ART'), ('jogo', 'N'), ('.', '.'), ('Na', 'NPROP'), ('hora', 'N'), ('da', 'NPROP'), ('decisão', 'N'), (',', ','), ('o', 'ART'), ('ataque', 'N'), ('dos', 'NPROP'), ('Patriots', None), ('voltou', 'V'), ('a', 'ART'), ('funcionar', 'V'), ('.', '.'), ('Com', 'PREP'), ('uma', 'ART'), ('série', 'N'), ('de', 'PREP'), ('passes', 'N'), ('curtos', 'ADJ'), ('e', 'KC'), ('variados', 'PCP'), (',', ','), ('Brady', 'NPROP'), ('achou', 'V'), ('Wes', None), ('Welker', None), (',', ','), ('Randy', 'NPROP'), ('Moss', 'NPROP'), ('e', 'KC'), ('Kevin', 'NPROP'), ('Faulk', None), ('seguidas', 'PCP'), ('vezes', 'N'), ('até', 'PREP'), ('chegar', 'V'), ('à', 'NPROP'), ('red', 'N|EST'), ('zone', None), ('.', '.'), ('A', 'ART'), ('2m45s', None), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('quarterback', 'N|EST'), ('conectou', None), ('mais', 'ADV'), ('uma', 'ART'), ('vez', 'N'), ('com', 'PREP'), ('Moss', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('se', 'PROPESS'), ('desmarcou', None), ('e', 'KC'), ('ficou', 'V'), ('livre', 'ADJ'), ('na', 'NPROP'), ('lateral', 'N'), ('direita', 'N'), ('da', 'NPROP'), ('end', None), ('zone', None), ('.', '.'), ('Quando', 'KS'), ('os', 'ART'), ('fãs', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('já', 'ADV'), ('comemoravam', 'V'), ('a', 'ART'), ('vitória', 'N'), (',', ','), ('o', 'ART'), ('inesperado', 'ADJ'), ('aconteceu', 'V'), ('.', '.'), ('Em', 'PREP|+'), ('uma', 'ART'), ('jogada', 'N'), ('incrível', 'ADJ'), (',', ','), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('se', 'PROPESS'), ('soltou', 'V'), ('de', 'PREP'), ('dois', 'NUM'), ('marcadores', 'N'), ('que', 'PRO-KS-REL'), ('o', 'ART'), ('seguravam', None), ('pela', 'NPROP'), ('camisa', 'N'), ('e', 'KC'), (',', ','), ('na', 'NPROP'), ('corrida', 'N'), (',', ','), ('lançou', 'V'), ('para', 'PREP'), ('Amani', None), ('Toomer', None), ('.', '.'), ('O', 'ART'), ('wide', 'N|EST'), ('receiver', None), (',', ','), ('bem', 'ADV'), ('marcado', 'PCP'), (',', ','), ('saltou', 'V'), ('e', 'KC'), ('conseguiu', 'V'), ('a', 'ART'), ('fazer', 'V'), ('recepção', 'N'), ('para', 'PREP'), ('um', 'ART'), ('avanço', 'N'), ('de', 'PREP'), ('32', 'NUM'), ('jardas', 'N'), (',', ','), ('deixando', 'V'), ('os', 'ART'), ('Giants', 'NPROP'), ('na', 'NPROP'), ('linha', 'N'), ('de', 'PREP'), ('24', 'NUM'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('.', '.'), ('Quatro', 'NUM'), ('jogadas', 'N'), ('depois', 'ADV'), (',', ','), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('Manning', 'NPROP'), ('achou', 'V'), ('Plaxico', None), ('Burress', None), ('na', 'NPROP'), ('end', None), ('zone', None), ('para', 'PREP'), ('conseguir', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('do', 'NPROP'), ('título', 'N'), ('.', '.')]\n" ] } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "tk_5pOAP4McN", "outputId": "7e1e169b-520c-4f3b-e933-fcfe66b7db1c" }, "source": [ "from nltk.corpus import mac_morpho\n", "from nltk.tag import UnigramTagger\n", "from nltk.tag import DefaultTagger\n", "\n", "tokens = nltk.word_tokenize(corpus)\n", "\n", "# Dessa vez utilizaremos o DefaultTagger para definir uma etiqueta padrão\n", "etiq_padrao = DefaultTagger('N')\n", "sentencas_treino = mac_morpho.tagged_sents()\n", "etiquetador = UnigramTagger(sentencas_treino, backoff=etiq_padrao)\n", "\n", "etiquetado = etiquetador.tag(tokens)\n", "\n", "etiquetado" ], "execution_count": null, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ "[('Giants', 'NPROP'),\n", " ('batem', 'V'),\n", " ('os', 'ART'),\n", " ('Patriots', 'N'),\n", " ('no', 'KC'),\n", " ('Super', 'NPROP'),\n", " ('Bowl', 'NPROP'),\n", " ('XLII', 'N'),\n", " ('Azarões', 'N'),\n", " ('acabam', 'VAUX'),\n", " ('com', 'PREP'),\n", " ('a', 'ART'),\n", " ('invencibilidade', 'N'),\n", " ('de', 'PREP'),\n", " ('New', 'NPROP'),\n", " ('England', 'NPROP'),\n", " ('e', 'KC'),\n", " ('ficam', 'V'),\n", " ('com', 'PREP'),\n", " ('o', 'ART'),\n", " ('título', 'N'),\n", " ('da', 'NPROP'),\n", " ('temporada', 'N'),\n", " ('04/02/2008', 'N'),\n", " ('-', '-'),\n", " ('01h07m', 'N'),\n", " ('-', '-'),\n", " ('Atualizado', 'N'),\n", " ('em', 'PREP|+'),\n", " ('04/02/2008', 'N'),\n", " ('-', '-'),\n", " ('09h49m', 'N'),\n", " ('Com', 'PREP'),\n", " ('um', 'ART'),\n", " ('passe', 'N'),\n", " ('de', 'PREP'),\n", " ('Eli', 'NPROP'),\n", " ('Manning', 'NPROP'),\n", " ('para', 'PREP'),\n", " ('Plaxico', 'N'),\n", " ('Burress', 'N'),\n", " ('a', 'ART'),\n", " ('39', 'NUM'),\n", " ('segundos', 'N'),\n", " ('do', 'NPROP'),\n", " ('fim', 'N'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('New', 'NPROP'),\n", " ('York', 'NPROP'),\n", " ('Giants', 'NPROP'),\n", " ('anotou', 'V'),\n", " ('o', 'ART'),\n", " ('touchdown', 'N|EST'),\n", " ('decisivo', 'ADJ'),\n", " ('e', 'KC'),\n", " ('derrubou', 'V'),\n", " ('o', 'ART'),\n", " ('favorito', 'N'),\n", " ('New', 'NPROP'),\n", " ('England', 'NPROP'),\n", " ('Patriots', 'N'),\n", " ('por', 'PREP|+'),\n", " ('17', 'NUM'),\n", " ('a', 'ART'),\n", " ('14', 'NUM'),\n", " ('neste', 'N'),\n", " ('domingo', 'N'),\n", " (',', ','),\n", " ('em', 'PREP|+'),\n", " ('Glendale', 'N'),\n", " (',', ','),\n", " ('no', 'KC'),\n", " ('Super', 'NPROP'),\n", " ('Bowl', 'NPROP'),\n", " ('XLII', 'N'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('resultado', 'N'),\n", " (',', ','),\n", " ('uma', 'ART'),\n", " ('das', 'NPROP'),\n", " ('maiores', 'ADJ'),\n", " ('zebras', 'N'),\n", " ('da', 'NPROP'),\n", " ('história', 'N'),\n", " ('do', 'NPROP'),\n", " ('Super', 'NPROP'),\n", " ('Bowl', 'NPROP'),\n", " (',', ','),\n", " ('acabou', 'VAUX'),\n", " ('com', 'PREP'),\n", " ('a', 'ART'),\n", " ('temporada', 'N'),\n", " ('perfeita', 'ADJ'),\n", " ('de', 'PREP'),\n", " ('Tom', 'NPROP'),\n", " ('Brady', 'NPROP'),\n", " ('e', 'KC'),\n", " ('companhia', 'N'),\n", " (',', ','),\n", " ('que', 'PRO-KS-REL'),\n", " ('esperavam', 'V'),\n", " ('fazer', 'V'),\n", " ('história', 'N'),\n", " ('ao', 'PREP'),\n", " ('levantar', 'V'),\n", " ('o', 'ART'),\n", " ('troféu', 'N'),\n", " ('da', 'NPROP'),\n", " ('NFL', 'N'),\n", " ('sem', 'PREP'),\n", " ('sofrer', 'V'),\n", " ('uma', 'ART'),\n", " ('derrota', 'N'),\n", " ('no', 'KC'),\n", " ('ano', 'N'),\n", " ('.', '.'),\n", " ('A', 'ART'),\n", " ('vitória', 'N'),\n", " ('dos', 'NPROP'),\n", " ('Giants', 'NPROP'),\n", " (',', ','),\n", " ('porém', 'KC'),\n", " (',', ','),\n", " ('também', 'PDEN'),\n", " ('ficará', 'V'),\n", " ('para', 'PREP'),\n", " ('a', 'ART'),\n", " ('história', 'N'),\n", " ('.', '.'),\n", " ('Pela', 'NPROP'),\n", " ('primeira', 'ADJ'),\n", " ('vez', 'N'),\n", " (',', ','),\n", " ('irmãos', 'N'),\n", " ('quarterbacks', 'N'),\n", " ('triunfam', 'N'),\n", " ('no', 'KC'),\n", " ('Super', 'NPROP'),\n", " ('Bowl', 'NPROP'),\n", " ('em', 'PREP|+'),\n", " ('temporadas', 'N'),\n", " ('consecutivas', 'ADJ'),\n", " ('.', '.'),\n", " ('No', 'KC'),\n", " ('ano', 'N'),\n", " ('passado', 'PCP'),\n", " (',', ','),\n", " ('Peyton', 'N'),\n", " ('Manning', 'NPROP'),\n", " (',', ','),\n", " ('irmão', 'N'),\n", " ('de', 'PREP'),\n", " ('Eli', 'NPROP'),\n", " (',', ','),\n", " ('chegou', 'V'),\n", " ('ao', 'PREP'),\n", " ('título', 'N'),\n", " ('máximo', 'N'),\n", " ('da', 'NPROP'),\n", " ('NFL', 'N'),\n", " ('pelo', 'PDEN'),\n", " ('Indianapolis', 'N'),\n", " ('Colts', 'N'),\n", " ('.', '.'),\n", " ('A', 'ART'),\n", " ('partida', 'N'),\n", " ('Os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('começaram', 'VAUX'),\n", " ('com', 'PREP'),\n", " ('a', 'ART'),\n", " ('posse', 'N'),\n", " ('de', 'PREP'),\n", " ('bola', 'N'),\n", " (',', ','),\n", " ('e', 'KC'),\n", " ('mostraram', 'V'),\n", " ('logo', 'ADV'),\n", " ('que', 'PRO-KS-REL'),\n", " ('iriam', 'VAUX'),\n", " ('alongar', 'V'),\n", " ('ao', 'PREP'),\n", " ('máximo', 'N'),\n", " ('suas', 'PROADJ'),\n", " ('posses', 'N'),\n", " ('de', 'PREP'),\n", " ('bola', 'N'),\n", " ('.', '.'),\n", " ('Misturando', 'N'),\n", " ('corridas', 'N'),\n", " ('com', 'PREP'),\n", " ('Brandon', 'N'),\n", " ('Jacobs', 'NPROP'),\n", " ('e', 'KC'),\n", " ('passes', 'N'),\n", " ('curtos', 'ADJ'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('time', 'N'),\n", " ('de', 'PREP'),\n", " ('Nova', 'NPROP'),\n", " ('York', 'NPROP'),\n", " ('chegou', 'V'),\n", " ('à', 'NPROP'),\n", " ('red', 'N|EST'),\n", " ('zone', 'N'),\n", " ('logo', 'ADV'),\n", " ('na', 'NPROP'),\n", " ('primeira', 'ADJ'),\n", " ('campanha', 'N'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('avanço', 'N'),\n", " (',', ','),\n", " ('no', 'KC'),\n", " ('entanto', 'KC'),\n", " (',', ','),\n", " ('parou', 'V'),\n", " ('na', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('17', 'NUM'),\n", " ('jardas', 'N'),\n", " ('e', 'KC'),\n", " ('Lawrence', 'NPROP'),\n", " ('Tynes', 'N'),\n", " ('converteu', 'V'),\n", " ('o', 'ART'),\n", " ('field', 'N|EST'),\n", " ('goal', 'N|EST'),\n", " ('de', 'PREP'),\n", " ('32', 'NUM'),\n", " ('jardas', 'N'),\n", " ('para', 'PREP'),\n", " ('abrir', 'V'),\n", " ('o', 'ART'),\n", " ('placar', 'N'),\n", " ('.', '.'),\n", " ('Eli', 'NPROP'),\n", " ('Manning', 'NPROP'),\n", " ('e', 'KC'),\n", " ('companhia', 'N'),\n", " ('ficaram', 'V'),\n", " ('9m54s', 'N'),\n", " ('com', 'PREP'),\n", " ('a', 'ART'),\n", " ('bola', 'N'),\n", " (',', ','),\n", " ('mas', 'KC'),\n", " ('o', 'ART'),\n", " ('ataque', 'N'),\n", " ('dos', 'NPROP'),\n", " ('Patriots', 'N'),\n", " ('não', 'ADV'),\n", " ('entrou', 'V'),\n", " ('em', 'PREP|+'),\n", " ('campo', 'N'),\n", " ('frio', 'N'),\n", " ('.', '.'),\n", " ('Logo', 'ADV'),\n", " ('no', 'KC'),\n", " ('retorno', 'N'),\n", " ('do', 'NPROP'),\n", " ('kickoff', 'N'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('running', 'N|EST'),\n", " ('back', 'N|EST'),\n", " ('Laurence', 'NPROP'),\n", " ('Maroney', 'N'),\n", " ('avançou', 'V'),\n", " ('43', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('deixando', 'V'),\n", " ('Tom', 'NPROP'),\n", " ('Brady', 'NPROP'),\n", " ('em', 'PREP|+'),\n", " ('boa', 'ADJ'),\n", " ('posição', 'N'),\n", " ('.', '.'),\n", " ('Com', 'PREP'),\n", " ('passes', 'N'),\n", " ('curtos', 'ADJ'),\n", " (',', ','),\n", " ('os', 'ART'),\n", " ('Patriots', 'N'),\n", " ('chegaram', 'V'),\n", " ('à', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('17', 'NUM'),\n", " ('jardas', 'N'),\n", " ('e', 'KC'),\n", " (',', ','),\n", " ('graças', 'PREP|+'),\n", " ('a', 'ART'),\n", " ('uma', 'ART'),\n", " ('penalidade', 'N'),\n", " ('(', '('),\n", " ('interferência', 'N'),\n", " ('de', 'PREP'),\n", " ('passe', 'N'),\n", " (')', ')'),\n", " ('do', 'NPROP'),\n", " ('linebacker', 'N'),\n", " ('Antonio', 'NPROP'),\n", " ('Pierce', 'NPROP'),\n", " (',', ','),\n", " ('alcançaram', 'V'),\n", " ('a', 'ART'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('uma', 'ART'),\n", " ('jarda', 'N'),\n", " ('.', '.'),\n", " ('Maroney', 'N'),\n", " ('avançou', 'V'),\n", " ('pelo', 'PDEN'),\n", " ('chão', 'N'),\n", " ('e', 'KC'),\n", " ('anotou', 'V'),\n", " ('o', 'ART'),\n", " ('primeiro', 'ADJ'),\n", " ('touchdown', 'N|EST'),\n", " ('do', 'NPROP'),\n", " ('jogo', 'N'),\n", " ('.', '.'),\n", " ('Os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('pareciam', 'V'),\n", " ('rumo', 'PREP|+'),\n", " ('à', 'NPROP'),\n", " ('virada', 'N'),\n", " ('na', 'NPROP'),\n", " ('campanha', 'N'),\n", " ('seguinte', 'ADJ'),\n", " ('.', '.'),\n", " ('Manning', 'NPROP'),\n", " ('achou', 'V'),\n", " ('Amani', 'N'),\n", " ('Toomer', 'N'),\n", " ('para', 'PREP'),\n", " ('um', 'ART'),\n", " ('avanço', 'N'),\n", " ('de', 'PREP'),\n", " ('38', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('e', 'KC'),\n", " ('o', 'ART'),\n", " ('time', 'N'),\n", " ('de', 'PREP'),\n", " ('Nova', 'NPROP'),\n", " ('York', 'NPROP'),\n", " ('entrou', 'V'),\n", " ('novamente', 'ADV'),\n", " ('na', 'NPROP'),\n", " ('red', 'N|EST'),\n", " ('zone', 'N'),\n", " ('.', '.'),\n", " ('Com', 'PREP'),\n", " ('a', 'ART'),\n", " ('bola', 'N'),\n", " ('na', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('14', 'NUM'),\n", " ('jardas', 'N'),\n", " ('dos', 'NPROP'),\n", " ('Patriots', 'N'),\n", " (',', ','),\n", " ('os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('sofreram', 'V'),\n", " ('um', 'ART'),\n", " ('revés', 'N'),\n", " ('.', '.'),\n", " ('Manning', 'NPROP'),\n", " ('passou', 'V'),\n", " ('para', 'PREP'),\n", " ('Steve', 'NPROP'),\n", " ('Smith', 'NPROP'),\n", " (',', ','),\n", " ('que', 'PRO-KS-REL'),\n", " ('soltou', 'V'),\n", " ('a', 'ART'),\n", " ('bola', 'N'),\n", " ('.', '.'),\n", " ('Ellis', 'NPROP'),\n", " ('Hobbs', 'N'),\n", " ('aproveitou', 'V'),\n", " (',', ','),\n", " ('tomou', 'V'),\n", " ('a', 'ART'),\n", " ('posse', 'N'),\n", " ('para', 'PREP'),\n", " ('os', 'ART'),\n", " ('Patriots', 'N'),\n", " (',', ','),\n", " ('e', 'KC'),\n", " ('avançou', 'V'),\n", " ('23', 'NUM'),\n", " ('jardas', 'N'),\n", " ('.', '.'),\n", " ('A', 'ART'),\n", " ('defesa', 'N'),\n", " ('de', 'PREP'),\n", " ('Nova', 'NPROP'),\n", " ('York', 'NPROP'),\n", " ('manteve', 'V'),\n", " ('o', 'ART'),\n", " ('jogo', 'N'),\n", " ('equilibrado', 'PCP'),\n", " ('.', '.'),\n", " ('Com', 'PREP'),\n", " ('dois', 'NUM'),\n", " ('sacks', 'N'),\n", " ('seguidos', 'PCP'),\n", " (',', ','),\n", " ('os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('forçaram', 'V'),\n", " ('o', 'ART'),\n", " ('punt', 'N'),\n", " ('e', 'KC'),\n", " ('recuperaram', 'N'),\n", " ('a', 'ART'),\n", " ('bola', 'N'),\n", " ('.', '.'),\n", " ('Mas', 'KC'),\n", " ('a', 'ART'),\n", " ('campanha', 'N'),\n", " ('seguinte', 'ADJ'),\n", " ('provou', 'V'),\n", " ('ser', 'VAUX'),\n", " ('outra', 'PROADJ'),\n", " ('decepção', 'N'),\n", " ('para', 'PREP'),\n", " ('Nova', 'NPROP'),\n", " ('York', 'NPROP'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('time', 'N'),\n", " ('chegou', 'V'),\n", " ('à', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('25', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('mas', 'KC'),\n", " ('Manning', 'NPROP'),\n", " ('sofreu', 'V'),\n", " ('um', 'ART'),\n", " ('sack', 'N'),\n", " ('e', 'KC'),\n", " ('cometeu', 'V'),\n", " ('um', 'ART'),\n", " ('fumble', 'N|EST'),\n", " (',', ','),\n", " ('e', 'KC'),\n", " ('o', 'ART'),\n", " ('ataque', 'N'),\n", " ('voltou', 'V'),\n", " ('para', 'PREP'),\n", " ('a', 'ART'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('39', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('não', 'ADV'),\n", " ('conseguindo', 'V'),\n", " ('pontuar', 'N'),\n", " ('mais', 'ADV'),\n", " ('uma', 'ART'),\n", " ('vez', 'N'),\n", " ('.', '.'),\n", " ('Os', 'ART'),\n", " ('Patriots', 'N'),\n", " ('tiveram', 'V'),\n", " ('uma', 'ART'),\n", " ('última', 'ADJ'),\n", " ('chance', 'N'),\n", " ('de', 'PREP'),\n", " ('marcar', 'V'),\n", " ('antes', 'ADV'),\n", " ('do', 'NPROP'),\n", " ('intervalo', 'N'),\n", " (',', ','),\n", " ('mas', 'KC'),\n", " (',', ','),\n", " ('a', 'ART'),\n", " ('22', 'NUM'),\n", " ('segundos', 'N'),\n", " ('do', 'NPROP'),\n", " ('fim', 'N'),\n", " ('do', 'NPROP'),\n", " ('segundo', 'PREP'),\n", " ('período', 'N'),\n", " (',', ','),\n", " ('Brady', 'NPROP'),\n", " ('foi', 'VAUX'),\n", " ('novamente', 'ADV'),\n", " ('sacado', 'PCP'),\n", " ('.', '.'),\n", " ('Desta', 'ADV'),\n", " ('vez', 'N'),\n", " (',', ','),\n", " ('ele', 'PROPESS'),\n", " ('cometeu', 'V'),\n", " ('o', 'ART'),\n", " ('fumble', 'N|EST'),\n", " ('e', 'KC'),\n", " ('os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('tomaram', 'V'),\n", " ('a', 'ART'),\n", " ('posse', 'N'),\n", " ('de', 'PREP'),\n", " ('bola', 'N'),\n", " ('.', '.'),\n", " ('Manning', 'NPROP'),\n", " ('tentou', 'V'),\n", " ('um', 'ART'),\n", " ('passe', 'N'),\n", " ('longo', 'ADJ'),\n", " (',', ','),\n", " ('de', 'PREP'),\n", " ('50', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('nos', 'PROPESS'),\n", " ('últimos', 'ADJ'),\n", " ('segundos', 'N'),\n", " (',', ','),\n", " ('mas', 'KC'),\n", " ('não', 'ADV'),\n", " ('teve', 'V'),\n", " ('sucesso', 'N'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('jogo', 'N'),\n", " ('continuou', 'V'),\n", " ('amarrado', 'PCP'),\n", " ('no', 'KC'),\n", " ('terceiro', 'ADJ'),\n", " ('quarto', 'N'),\n", " (',', ','),\n", " ('com', 'PREP'),\n", " ('as', 'ART'),\n", " ('defesas', 'N'),\n", " ('levando', 'V'),\n", " ('a', 'ART'),\n", " ('melhor', 'ADJ'),\n", " ('sobre', 'PREP'),\n", " ('os', 'ART'),\n", " ('ataques', 'N'),\n", " ('.', '.'),\n", " ('A', 'ART'),\n", " ('única', 'ADJ'),\n", " ('chance', 'N'),\n", " ('de', 'PREP'),\n", " ('pontuar', 'N'),\n", " ('do', 'NPROP'),\n", " ('período', 'N'),\n", " ('foi', 'VAUX'),\n", " ('dos', 'NPROP'),\n", " ('Patriots', 'N'),\n", " (',', ','),\n", " ('que', 'PRO-KS-REL'),\n", " ('chegaram', 'V'),\n", " ('à', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('31', 'NUM'),\n", " ('jardas', 'N'),\n", " ('dos', 'NPROP'),\n", " ('Giants', 'NPROP'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('técnico', 'N'),\n", " ('Bill', 'NPROP'),\n", " ('Bellichick', 'N'),\n", " (',', ','),\n", " ('porém', 'KC'),\n", " (',', ','),\n", " ('optou', 'V'),\n", " ('por', 'PREP|+'),\n", " ('uma', 'ART'),\n", " ('quarta', 'N'),\n", " ('descida', 'N'),\n", " ('em', 'PREP|+'),\n", " ('vez', 'N'),\n", " ('de', 'PREP'),\n", " ('um', 'ART'),\n", " ('field', 'N|EST'),\n", " ('goal', 'N|EST'),\n", " ('.', '.'),\n", " ('Brady', 'NPROP'),\n", " ('tentou', 'V'),\n", " ('um', 'ART'),\n", " ('passe', 'N'),\n", " ('para', 'PREP'),\n", " ('Jabar', 'N'),\n", " ('Gaffney', 'N'),\n", " (',', ','),\n", " ('mas', 'KC'),\n", " ('não', 'ADV'),\n", " ('conseguiu', 'V'),\n", " ('completar', 'V'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('último', 'ADJ'),\n", " ('período', 'N'),\n", " ('começou', 'VAUX'),\n", " ('arrasador', 'N'),\n", " ('para', 'PREP'),\n", " ('os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('.', '.'),\n", " ('na', 'NPROP'),\n", " ('primeira', 'ADJ'),\n", " ('jogada', 'N'),\n", " (',', ','),\n", " ('Manning', 'NPROP'),\n", " ('achou', 'V'),\n", " ('o', 'ART'),\n", " ('tight', 'N'),\n", " ('end', 'N'),\n", " ('Kevin', 'NPROP'),\n", " ('Boss', 'N'),\n", " (',', ','),\n", " ('para', 'PREP'),\n", " ('um', 'ART'),\n", " ('incrível', 'ADJ'),\n", " ('avanço', 'N'),\n", " ('de', 'PREP'),\n", " ('45', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('que', 'PRO-KS-REL'),\n", " ('deixou', 'V'),\n", " ('o', 'ART'),\n", " ('time', 'N'),\n", " ('na', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('35', 'NUM'),\n", " ('dos', 'NPROP'),\n", " ('Patriots', 'N'),\n", " ('.', '.'),\n", " ('Outro', 'PROADJ'),\n", " ('lançamento', 'N'),\n", " (',', ','),\n", " ('desta', 'PROADJ'),\n", " ('vez', 'N'),\n", " ('para', 'PREP'),\n", " ('Steve', 'NPROP'),\n", " ('Smith', 'NPROP'),\n", " (',', ','),\n", " ('marcou', 'V'),\n", " ('o', 'ART'),\n", " ('avanço', 'N'),\n", " ('até', 'PREP'),\n", " ('a', 'ART'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('12', 'NUM'),\n", " ('jardas', 'N'),\n", " ('.', '.'),\n", " ('Duas', 'NUM'),\n", " ('jogadas', 'N'),\n", " ('depois', 'ADV'),\n", " (',', ','),\n", " ('David', 'NPROP'),\n", " ('Tyree', 'N'),\n", " ('pegou', 'V'),\n", " ('um', 'ART'),\n", " ('passe', 'N'),\n", " ('de', 'PREP'),\n", " ('cinco', 'NUM'),\n", " ('jardas', 'N'),\n", " ('na', 'NPROP'),\n", " ('end', 'N'),\n", " ('zone', 'N'),\n", " ('para', 'PREP'),\n", " ('anotar', 'V'),\n", " ('o', 'ART'),\n", " ('touchdown', 'N|EST'),\n", " ('e', 'KC'),\n", " ('virar', 'V'),\n", " ('o', 'ART'),\n", " ('jogo', 'N'),\n", " ('.', '.'),\n", " ('Na', 'NPROP'),\n", " ('hora', 'N'),\n", " ('da', 'NPROP'),\n", " ('decisão', 'N'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('ataque', 'N'),\n", " ('dos', 'NPROP'),\n", " ('Patriots', 'N'),\n", " ('voltou', 'V'),\n", " ('a', 'ART'),\n", " ('funcionar', 'V'),\n", " ('.', '.'),\n", " ('Com', 'PREP'),\n", " ('uma', 'ART'),\n", " ('série', 'N'),\n", " ('de', 'PREP'),\n", " ('passes', 'N'),\n", " ('curtos', 'ADJ'),\n", " ('e', 'KC'),\n", " ('variados', 'PCP'),\n", " (',', ','),\n", " ('Brady', 'NPROP'),\n", " ('achou', 'V'),\n", " ('Wes', 'N'),\n", " ('Welker', 'N'),\n", " (',', ','),\n", " ('Randy', 'NPROP'),\n", " ('Moss', 'NPROP'),\n", " ('e', 'KC'),\n", " ('Kevin', 'NPROP'),\n", " ('Faulk', 'N'),\n", " ('seguidas', 'PCP'),\n", " ('vezes', 'N'),\n", " ('até', 'PREP'),\n", " ('chegar', 'V'),\n", " ('à', 'NPROP'),\n", " ('red', 'N|EST'),\n", " ('zone', 'N'),\n", " ('.', '.'),\n", " ('A', 'ART'),\n", " ('2m45s', 'N'),\n", " ('do', 'NPROP'),\n", " ('fim', 'N'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('quarterback', 'N|EST'),\n", " ('conectou', 'N'),\n", " ('mais', 'ADV'),\n", " ('uma', 'ART'),\n", " ('vez', 'N'),\n", " ('com', 'PREP'),\n", " ('Moss', 'NPROP'),\n", " (',', ','),\n", " ('que', 'PRO-KS-REL'),\n", " ('se', 'PROPESS'),\n", " ('desmarcou', 'N'),\n", " ('e', 'KC'),\n", " ('ficou', 'V'),\n", " ('livre', 'ADJ'),\n", " ('na', 'NPROP'),\n", " ('lateral', 'N'),\n", " ('direita', 'N'),\n", " ('da', 'NPROP'),\n", " ('end', 'N'),\n", " ('zone', 'N'),\n", " ('.', '.'),\n", " ('Quando', 'KS'),\n", " ('os', 'ART'),\n", " ('fãs', 'N'),\n", " ('de', 'PREP'),\n", " ('New', 'NPROP'),\n", " ('England', 'NPROP'),\n", " ('já', 'ADV'),\n", " ('comemoravam', 'V'),\n", " ('a', 'ART'),\n", " ('vitória', 'N'),\n", " (',', ','),\n", " ('o', 'ART'),\n", " ('inesperado', 'ADJ'),\n", " ('aconteceu', 'V'),\n", " ('.', '.'),\n", " ('Em', 'PREP|+'),\n", " ('uma', 'ART'),\n", " ('jogada', 'N'),\n", " ('incrível', 'ADJ'),\n", " (',', ','),\n", " ('Eli', 'NPROP'),\n", " ('Manning', 'NPROP'),\n", " ('se', 'PROPESS'),\n", " ('soltou', 'V'),\n", " ('de', 'PREP'),\n", " ('dois', 'NUM'),\n", " ('marcadores', 'N'),\n", " ('que', 'PRO-KS-REL'),\n", " ('o', 'ART'),\n", " ('seguravam', 'N'),\n", " ('pela', 'NPROP'),\n", " ('camisa', 'N'),\n", " ('e', 'KC'),\n", " (',', ','),\n", " ('na', 'NPROP'),\n", " ('corrida', 'N'),\n", " (',', ','),\n", " ('lançou', 'V'),\n", " ('para', 'PREP'),\n", " ('Amani', 'N'),\n", " ('Toomer', 'N'),\n", " ('.', '.'),\n", " ('O', 'ART'),\n", " ('wide', 'N|EST'),\n", " ('receiver', 'N'),\n", " (',', ','),\n", " ('bem', 'ADV'),\n", " ('marcado', 'PCP'),\n", " (',', ','),\n", " ('saltou', 'V'),\n", " ('e', 'KC'),\n", " ('conseguiu', 'V'),\n", " ('a', 'ART'),\n", " ('fazer', 'V'),\n", " ('recepção', 'N'),\n", " ('para', 'PREP'),\n", " ('um', 'ART'),\n", " ('avanço', 'N'),\n", " ('de', 'PREP'),\n", " ('32', 'NUM'),\n", " ('jardas', 'N'),\n", " (',', ','),\n", " ('deixando', 'V'),\n", " ('os', 'ART'),\n", " ('Giants', 'NPROP'),\n", " ('na', 'NPROP'),\n", " ('linha', 'N'),\n", " ('de', 'PREP'),\n", " ('24', 'NUM'),\n", " ('de', 'PREP'),\n", " ('New', 'NPROP'),\n", " ('England', 'NPROP'),\n", " ('.', '.'),\n", " ('Quatro', 'NUM'),\n", " ('jogadas', 'N'),\n", " ('depois', 'ADV'),\n", " (',', ','),\n", " ('a', 'ART'),\n", " ('39', 'NUM'),\n", " ('segundos', 'N'),\n", " ('do', 'NPROP'),\n", " ('fim', 'N'),\n", " (',', ','),\n", " ('Manning', 'NPROP'),\n", " ('achou', 'V'),\n", " ('Plaxico', 'N'),\n", " ('Burress', 'N'),\n", " ('na', 'NPROP'),\n", " ('end', 'N'),\n", " ('zone', 'N'),\n", " ('para', 'PREP'),\n", " ('conseguir', 'V'),\n", " ('o', 'ART'),\n", " ('touchdown', 'N|EST'),\n", " ('do', 'NPROP'),\n", " ('título', 'N'),\n", " ('.', '.')]" ] }, "metadata": {}, "execution_count": 36 } ] }, { "cell_type": "code", "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "ZH4_nHDI5Wo9", "outputId": "44b3b00b-f4cf-4f2d-b04a-32ba6222977d" }, "source": [ "from nltk.chunk import RegexpParser\n", "\n", "pattern = 'NP: { | }'\n", "analise_gramatical = RegexpParser(pattern)\n", "\n", "arvore = analise_gramatical.parse(etiquetado)\n", "print(arvore)" ], "execution_count": null, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "(S\n", " Giants/NPROP\n", " batem/V\n", " os/ART\n", " Patriots/N\n", " no/KC\n", " (NP Super/NPROP Bowl/NPROP)\n", " (NP XLII/N Azarões/N)\n", " acabam/VAUX\n", " com/PREP\n", " a/ART\n", " invencibilidade/N\n", " de/PREP\n", " (NP New/NPROP England/NPROP)\n", " e/KC\n", " ficam/V\n", " com/PREP\n", " o/ART\n", " título/N\n", " da/NPROP\n", " (NP temporada/N 04/02/2008/N)\n", " -/-\n", " 01h07m/N\n", " -/-\n", " Atualizado/N\n", " em/PREP|+\n", " 04/02/2008/N\n", " -/-\n", " 09h49m/N\n", " Com/PREP\n", " um/ART\n", " passe/N\n", " de/PREP\n", " (NP Eli/NPROP Manning/NPROP)\n", " para/PREP\n", " (NP Plaxico/N Burress/N)\n", " a/ART\n", " 39/NUM\n", " segundos/N\n", " do/NPROP\n", " fim/N\n", " ,/,\n", " o/ART\n", " (NP New/NPROP York/NPROP)\n", " Giants/NPROP\n", " anotou/V\n", " o/ART\n", " touchdown/N|EST\n", " decisivo/ADJ\n", " e/KC\n", " derrubou/V\n", " o/ART\n", " favorito/N\n", " (NP New/NPROP England/NPROP)\n", " Patriots/N\n", " por/PREP|+\n", " 17/NUM\n", " a/ART\n", " 14/NUM\n", " (NP neste/N domingo/N)\n", " ,/,\n", " em/PREP|+\n", " Glendale/N\n", " ,/,\n", " no/KC\n", " (NP Super/NPROP Bowl/NPROP)\n", " XLII/N\n", " ./.\n", " O/ART\n", " resultado/N\n", " ,/,\n", " uma/ART\n", " das/NPROP\n", " maiores/ADJ\n", " zebras/N\n", " da/NPROP\n", " história/N\n", " (NP do/NPROP Super/NPROP)\n", " Bowl/NPROP\n", " ,/,\n", " acabou/VAUX\n", " com/PREP\n", " a/ART\n", " temporada/N\n", " perfeita/ADJ\n", " de/PREP\n", " (NP Tom/NPROP Brady/NPROP)\n", " e/KC\n", " companhia/N\n", " ,/,\n", " que/PRO-KS-REL\n", " esperavam/V\n", " fazer/V\n", " história/N\n", " ao/PREP\n", " levantar/V\n", " o/ART\n", " troféu/N\n", " da/NPROP\n", " NFL/N\n", " sem/PREP\n", " sofrer/V\n", " uma/ART\n", " derrota/N\n", " no/KC\n", " ano/N\n", " ./.\n", " A/ART\n", " vitória/N\n", " (NP dos/NPROP Giants/NPROP)\n", " ,/,\n", " porém/KC\n", " ,/,\n", " também/PDEN\n", " ficará/V\n", " para/PREP\n", " a/ART\n", " história/N\n", " ./.\n", " Pela/NPROP\n", " primeira/ADJ\n", " vez/N\n", " ,/,\n", " (NP irmãos/N quarterbacks/N)\n", " triunfam/N\n", " no/KC\n", " (NP Super/NPROP Bowl/NPROP)\n", " em/PREP|+\n", " temporadas/N\n", " consecutivas/ADJ\n", " ./.\n", " No/KC\n", " ano/N\n", " passado/PCP\n", " ,/,\n", " Peyton/N\n", " Manning/NPROP\n", " ,/,\n", " irmão/N\n", " de/PREP\n", " Eli/NPROP\n", " ,/,\n", " chegou/V\n", " ao/PREP\n", " (NP título/N máximo/N)\n", " da/NPROP\n", " NFL/N\n", " pelo/PDEN\n", " (NP Indianapolis/N Colts/N)\n", " ./.\n", " A/ART\n", " partida/N\n", " Os/ART\n", " Giants/NPROP\n", " começaram/VAUX\n", " com/PREP\n", " a/ART\n", " posse/N\n", " de/PREP\n", " bola/N\n", " ,/,\n", " e/KC\n", " mostraram/V\n", " logo/ADV\n", " que/PRO-KS-REL\n", " iriam/VAUX\n", " alongar/V\n", " ao/PREP\n", " máximo/N\n", " suas/PROADJ\n", " posses/N\n", " de/PREP\n", " bola/N\n", " ./.\n", " (NP Misturando/N corridas/N)\n", " com/PREP\n", " Brandon/N\n", " Jacobs/NPROP\n", " e/KC\n", " passes/N\n", " curtos/ADJ\n", " ,/,\n", " o/ART\n", " time/N\n", " de/PREP\n", " (NP Nova/NPROP York/NPROP)\n", " chegou/V\n", " à/NPROP\n", " red/N|EST\n", " zone/N\n", " logo/ADV\n", " na/NPROP\n", " primeira/ADJ\n", " campanha/N\n", " ./.\n", " O/ART\n", " avanço/N\n", " ,/,\n", " no/KC\n", " entanto/KC\n", " ,/,\n", " parou/V\n", " na/NPROP\n", " linha/N\n", " de/PREP\n", " 17/NUM\n", " jardas/N\n", " e/KC\n", " Lawrence/NPROP\n", " Tynes/N\n", " converteu/V\n", " o/ART\n", " field/N|EST\n", " goal/N|EST\n", " de/PREP\n", " 32/NUM\n", " jardas/N\n", " para/PREP\n", " abrir/V\n", " o/ART\n", " placar/N\n", " ./.\n", " (NP Eli/NPROP Manning/NPROP)\n", " e/KC\n", " companhia/N\n", " ficaram/V\n", " 9m54s/N\n", " com/PREP\n", " a/ART\n", " bola/N\n", " ,/,\n", " mas/KC\n", " o/ART\n", " ataque/N\n", " dos/NPROP\n", " Patriots/N\n", " não/ADV\n", " entrou/V\n", " em/PREP|+\n", " (NP campo/N frio/N)\n", " ./.\n", " Logo/ADV\n", " no/KC\n", " retorno/N\n", " do/NPROP\n", " kickoff/N\n", " ,/,\n", " o/ART\n", " running/N|EST\n", " back/N|EST\n", " Laurence/NPROP\n", " Maroney/N\n", " avançou/V\n", " 43/NUM\n", " jardas/N\n", " ,/,\n", " deixando/V\n", " (NP Tom/NPROP Brady/NPROP)\n", " em/PREP|+\n", " boa/ADJ\n", " posição/N\n", " ./.\n", " Com/PREP\n", " passes/N\n", " curtos/ADJ\n", " ,/,\n", " os/ART\n", " Patriots/N\n", " chegaram/V\n", " à/NPROP\n", " linha/N\n", " de/PREP\n", " 17/NUM\n", " jardas/N\n", " e/KC\n", " ,/,\n", " graças/PREP|+\n", " a/ART\n", " uma/ART\n", " penalidade/N\n", " (/(\n", " interferência/N\n", " de/PREP\n", " passe/N\n", " )/)\n", " do/NPROP\n", " linebacker/N\n", " (NP Antonio/NPROP Pierce/NPROP)\n", " ,/,\n", " alcançaram/V\n", " a/ART\n", " linha/N\n", " de/PREP\n", " uma/ART\n", " jarda/N\n", " ./.\n", " Maroney/N\n", " avançou/V\n", " pelo/PDEN\n", " chão/N\n", " e/KC\n", " anotou/V\n", " o/ART\n", " primeiro/ADJ\n", " touchdown/N|EST\n", " do/NPROP\n", " jogo/N\n", " ./.\n", " Os/ART\n", " Giants/NPROP\n", " pareciam/V\n", " rumo/PREP|+\n", " à/NPROP\n", " virada/N\n", " na/NPROP\n", " campanha/N\n", " seguinte/ADJ\n", " ./.\n", " Manning/NPROP\n", " achou/V\n", " (NP Amani/N Toomer/N)\n", " para/PREP\n", " um/ART\n", " avanço/N\n", " de/PREP\n", " 38/NUM\n", " jardas/N\n", " ,/,\n", " e/KC\n", " o/ART\n", " time/N\n", " de/PREP\n", " (NP Nova/NPROP York/NPROP)\n", " entrou/V\n", " novamente/ADV\n", " na/NPROP\n", " red/N|EST\n", " zone/N\n", " ./.\n", " Com/PREP\n", " a/ART\n", " bola/N\n", " na/NPROP\n", " linha/N\n", " de/PREP\n", " 14/NUM\n", " jardas/N\n", " dos/NPROP\n", " Patriots/N\n", " ,/,\n", " os/ART\n", " Giants/NPROP\n", " sofreram/V\n", " um/ART\n", " revés/N\n", " ./.\n", " Manning/NPROP\n", " passou/V\n", " para/PREP\n", " (NP Steve/NPROP Smith/NPROP)\n", " ,/,\n", " que/PRO-KS-REL\n", " soltou/V\n", " a/ART\n", " bola/N\n", " ./.\n", " Ellis/NPROP\n", " Hobbs/N\n", " aproveitou/V\n", " ,/,\n", " tomou/V\n", " a/ART\n", " posse/N\n", " para/PREP\n", " os/ART\n", " Patriots/N\n", " ,/,\n", " e/KC\n", " avançou/V\n", " 23/NUM\n", " jardas/N\n", " ./.\n", " A/ART\n", " defesa/N\n", " de/PREP\n", " (NP Nova/NPROP York/NPROP)\n", " manteve/V\n", " o/ART\n", " jogo/N\n", " equilibrado/PCP\n", " ./.\n", " Com/PREP\n", " dois/NUM\n", " sacks/N\n", " seguidos/PCP\n", " ,/,\n", " os/ART\n", " Giants/NPROP\n", " forçaram/V\n", " o/ART\n", " punt/N\n", " e/KC\n", " recuperaram/N\n", " a/ART\n", " bola/N\n", " ./.\n", " Mas/KC\n", " a/ART\n", " campanha/N\n", " seguinte/ADJ\n", " provou/V\n", " ser/VAUX\n", " outra/PROADJ\n", " decepção/N\n", " para/PREP\n", " (NP Nova/NPROP York/NPROP)\n", " ./.\n", " O/ART\n", " time/N\n", " chegou/V\n", " à/NPROP\n", " linha/N\n", " de/PREP\n", " 25/NUM\n", " jardas/N\n", " ,/,\n", " mas/KC\n", " Manning/NPROP\n", " sofreu/V\n", " um/ART\n", " sack/N\n", " e/KC\n", " cometeu/V\n", " um/ART\n", " fumble/N|EST\n", " ,/,\n", " e/KC\n", " o/ART\n", " ataque/N\n", " voltou/V\n", " para/PREP\n", " a/ART\n", " linha/N\n", " de/PREP\n", " 39/NUM\n", " jardas/N\n", " ,/,\n", " não/ADV\n", " conseguindo/V\n", " pontuar/N\n", " mais/ADV\n", " uma/ART\n", " vez/N\n", " ./.\n", " Os/ART\n", " Patriots/N\n", " tiveram/V\n", " uma/ART\n", " última/ADJ\n", " chance/N\n", " de/PREP\n", " marcar/V\n", " antes/ADV\n", " do/NPROP\n", " intervalo/N\n", " ,/,\n", " mas/KC\n", " ,/,\n", " a/ART\n", " 22/NUM\n", " segundos/N\n", " do/NPROP\n", " fim/N\n", " do/NPROP\n", " segundo/PREP\n", " período/N\n", " ,/,\n", " Brady/NPROP\n", " foi/VAUX\n", " novamente/ADV\n", " sacado/PCP\n", " ./.\n", " Desta/ADV\n", " vez/N\n", " ,/,\n", " ele/PROPESS\n", " cometeu/V\n", " o/ART\n", " fumble/N|EST\n", " e/KC\n", " os/ART\n", " Giants/NPROP\n", " tomaram/V\n", " a/ART\n", " posse/N\n", " de/PREP\n", " bola/N\n", " ./.\n", " Manning/NPROP\n", " tentou/V\n", " um/ART\n", " passe/N\n", " longo/ADJ\n", " ,/,\n", " de/PREP\n", " 50/NUM\n", " jardas/N\n", " ,/,\n", " nos/PROPESS\n", " últimos/ADJ\n", " segundos/N\n", " ,/,\n", " mas/KC\n", " não/ADV\n", " teve/V\n", " sucesso/N\n", " ./.\n", " O/ART\n", " jogo/N\n", " continuou/V\n", " amarrado/PCP\n", " no/KC\n", " terceiro/ADJ\n", " quarto/N\n", " ,/,\n", " com/PREP\n", " as/ART\n", " defesas/N\n", " levando/V\n", " a/ART\n", " melhor/ADJ\n", " sobre/PREP\n", " os/ART\n", " ataques/N\n", " ./.\n", " A/ART\n", " única/ADJ\n", " chance/N\n", " de/PREP\n", " pontuar/N\n", " do/NPROP\n", " período/N\n", " foi/VAUX\n", " dos/NPROP\n", " Patriots/N\n", " ,/,\n", " que/PRO-KS-REL\n", " chegaram/V\n", " à/NPROP\n", " linha/N\n", " de/PREP\n", " 31/NUM\n", " jardas/N\n", " (NP dos/NPROP Giants/NPROP)\n", " ./.\n", " O/ART\n", " técnico/N\n", " Bill/NPROP\n", " Bellichick/N\n", " ,/,\n", " porém/KC\n", " ,/,\n", " optou/V\n", " por/PREP|+\n", " uma/ART\n", " (NP quarta/N descida/N)\n", " em/PREP|+\n", " vez/N\n", " de/PREP\n", " um/ART\n", " field/N|EST\n", " goal/N|EST\n", " ./.\n", " Brady/NPROP\n", " tentou/V\n", " um/ART\n", " passe/N\n", " para/PREP\n", " (NP Jabar/N Gaffney/N)\n", " ,/,\n", " mas/KC\n", " não/ADV\n", " conseguiu/V\n", " completar/V\n", " ./.\n", " O/ART\n", " último/ADJ\n", " período/N\n", " começou/VAUX\n", " arrasador/N\n", " para/PREP\n", " os/ART\n", " Giants/NPROP\n", " ./.\n", " na/NPROP\n", " primeira/ADJ\n", " jogada/N\n", " ,/,\n", " Manning/NPROP\n", " achou/V\n", " o/ART\n", " (NP tight/N end/N)\n", " Kevin/NPROP\n", " Boss/N\n", " ,/,\n", " para/PREP\n", " um/ART\n", " incrível/ADJ\n", " avanço/N\n", " de/PREP\n", " 45/NUM\n", " jardas/N\n", " ,/,\n", " que/PRO-KS-REL\n", " deixou/V\n", " o/ART\n", " time/N\n", " na/NPROP\n", " linha/N\n", " de/PREP\n", " 35/NUM\n", " dos/NPROP\n", " Patriots/N\n", " ./.\n", " Outro/PROADJ\n", " lançamento/N\n", " ,/,\n", " desta/PROADJ\n", " vez/N\n", " para/PREP\n", " (NP Steve/NPROP Smith/NPROP)\n", " ,/,\n", " marcou/V\n", " o/ART\n", " avanço/N\n", " até/PREP\n", " a/ART\n", " linha/N\n", " de/PREP\n", " 12/NUM\n", " jardas/N\n", " ./.\n", " Duas/NUM\n", " jogadas/N\n", " depois/ADV\n", " ,/,\n", " David/NPROP\n", " Tyree/N\n", " pegou/V\n", " um/ART\n", " passe/N\n", " de/PREP\n", " cinco/NUM\n", " jardas/N\n", " na/NPROP\n", " (NP end/N zone/N)\n", " para/PREP\n", " anotar/V\n", " o/ART\n", " touchdown/N|EST\n", " e/KC\n", " virar/V\n", " o/ART\n", " jogo/N\n", " ./.\n", " Na/NPROP\n", " hora/N\n", " da/NPROP\n", " decisão/N\n", " ,/,\n", " o/ART\n", " ataque/N\n", " dos/NPROP\n", " Patriots/N\n", " voltou/V\n", " a/ART\n", " funcionar/V\n", " ./.\n", " Com/PREP\n", " uma/ART\n", " série/N\n", " de/PREP\n", " passes/N\n", " curtos/ADJ\n", " e/KC\n", " variados/PCP\n", " ,/,\n", " Brady/NPROP\n", " achou/V\n", " (NP Wes/N Welker/N)\n", " ,/,\n", " (NP Randy/NPROP Moss/NPROP)\n", " e/KC\n", " Kevin/NPROP\n", " Faulk/N\n", " seguidas/PCP\n", " vezes/N\n", " até/PREP\n", " chegar/V\n", " à/NPROP\n", " red/N|EST\n", " zone/N\n", " ./.\n", " A/ART\n", " 2m45s/N\n", " do/NPROP\n", " fim/N\n", " ,/,\n", " o/ART\n", " quarterback/N|EST\n", " conectou/N\n", " mais/ADV\n", " uma/ART\n", " vez/N\n", " com/PREP\n", " Moss/NPROP\n", " ,/,\n", " que/PRO-KS-REL\n", " se/PROPESS\n", " desmarcou/N\n", " e/KC\n", " ficou/V\n", " livre/ADJ\n", " na/NPROP\n", " (NP lateral/N direita/N)\n", " da/NPROP\n", " (NP end/N zone/N)\n", " ./.\n", " Quando/KS\n", " os/ART\n", " fãs/N\n", " de/PREP\n", " (NP New/NPROP England/NPROP)\n", " já/ADV\n", " comemoravam/V\n", " a/ART\n", " vitória/N\n", " ,/,\n", " o/ART\n", " inesperado/ADJ\n", " aconteceu/V\n", " ./.\n", " Em/PREP|+\n", " uma/ART\n", " jogada/N\n", " incrível/ADJ\n", " ,/,\n", " (NP Eli/NPROP Manning/NPROP)\n", " se/PROPESS\n", " soltou/V\n", " de/PREP\n", " dois/NUM\n", " marcadores/N\n", " que/PRO-KS-REL\n", " o/ART\n", " seguravam/N\n", " pela/NPROP\n", " camisa/N\n", " e/KC\n", " ,/,\n", " na/NPROP\n", " corrida/N\n", " ,/,\n", " lançou/V\n", " para/PREP\n", " (NP Amani/N Toomer/N)\n", " ./.\n", " O/ART\n", " wide/N|EST\n", " receiver/N\n", " ,/,\n", " bem/ADV\n", " marcado/PCP\n", " ,/,\n", " saltou/V\n", " e/KC\n", " conseguiu/V\n", " a/ART\n", " fazer/V\n", " recepção/N\n", " para/PREP\n", " um/ART\n", " avanço/N\n", " de/PREP\n", " 32/NUM\n", " jardas/N\n", " ,/,\n", " deixando/V\n", " os/ART\n", " (NP Giants/NPROP na/NPROP)\n", " linha/N\n", " de/PREP\n", " 24/NUM\n", " de/PREP\n", " (NP New/NPROP England/NPROP)\n", " ./.\n", " Quatro/NUM\n", " jogadas/N\n", " depois/ADV\n", " ,/,\n", " a/ART\n", " 39/NUM\n", " segundos/N\n", " do/NPROP\n", " fim/N\n", " ,/,\n", " Manning/NPROP\n", " achou/V\n", " (NP Plaxico/N Burress/N)\n", " na/NPROP\n", " (NP end/N zone/N)\n", " para/PREP\n", " conseguir/V\n", " o/ART\n", " touchdown/N|EST\n", " do/NPROP\n", " título/N\n", " ./.)\n" ] } ] } ] }