
O pré-processamento textual é uma das etapas mais críticas do Processamento de Linguagem Natural (PLN), pois prepara os dados para que algoritmos possam
O pré-processamento textual é uma das etapas mais críticas do Processamento de Linguagem Natural (PLN), pois prepara os dados para que algoritmos possam
O pré-processamento textual é uma das etapas mais críticas do Processamento de Linguagem Natural (PLN), pois prepara os dados para que algoritmos possam compreender e analisar linguagem humana de forma eficiente. Uma das técnicas fundamentais desse processo é a remoção de stopwords, palavras de alto uso e baixo valor semântico, como preposições, artigos e conjunções. Essas palavras são úteis na comunicação humana, mas muitas vezes atrapalham a extração de significado nas análises automatizadas, especialmente em tarefas como classificação de texto, análise de sentimentos e mineração de tópicos.
Apesar de parecer simples, a definição do que deve ser considerado uma stopword depende do contexto da aplicação e exige decisões analíticas. Por exemplo, em uma análise jurídica, palavras como “considerando” ou “conforme” podem parecer irrelevantes, mas têm valor formal e estrutural. Já em uma análise de redes sociais, palavras emocionais como “mas” e “porém” podem indicar viradas no discurso e não deveriam ser removidas. Essa atividade propõe a você pensar como um especialista de PLN e tomar decisões estratégicas sobre como criar e aplicar uma lista de stopwords de forma lógica e adaptada a um problema real.
Imagine que você foi contratado por uma empresa para liderar a análise de comentários de clientes sobre um novo produto de tecnologia em redes sociais. Seu papel é preparar os textos para análise automatizada, decidindo que palavras devem ou não ser mantidas. Para isso, execute as tarefas a seguir, respondendo de forma prática, descritiva e fundamentada:
a) Elabore uma pequena lista com pelo menos 8 stopwords que você eliminaria dos comentários analisados.
Justifique por que cada uma dessas palavras pode ser considerada irrelevante nesse contexto.
b) Agora, cite 3 palavras que geralmente aparecem em listas de stopwords, mas que você optaria por manter nessa análise específica. Justifique por que essas palavras não devem ser descartadas, considerando o tipo de dado analisado (comentários sobre produto em redes sociais).
c) Descreva como você aplicaria uma lógica de filtragem adaptativa para remover palavras irrelevantes sem comprometer o sentido emocional ou a intenção crítica dos textos dos usuários.

Olá, somos a Prime Educacional!
Ficaríamos muito satisfeitos em poder ajudar você. Entre em contato conosco para solicitar o seu serviço.


