Mineração de texto

Text mining, ou mineração de texto em português, é uma técnica de seleção e extração de informações úteis de grandes quantidades de texto.

Categoria de Tecnologia

Postado em 28 março 2022

Atualizado em 27 dezembro 2022

Palavras-chave: text,mining,mineração,de,texto,tópico,automatizar,automização,detector,de,spam,walt,disney

Visualizações: 1415

Há uma imensa quantidade de informação acumulada na internet. Essas informações podem ser armazenadas em texto, imagem, vídeo e som.

Se pensarmos em um produto famoso em um site de comércio eletrônico como o amazon, podemos ter uma infinidade de avaliações escritas por vários usuários. Todas essas avaliações geram uma grande quantidade de informação úteis que podem ser aproveitadas. Porém processar esses dados manualmente pode se tornar uma tarefa difícil para humanos, uma vez que a quantidade de texto pode ser extremamente volumosa.

Invés de fazer análises de modo manual, podemos automatizar esses processos usando mineração de texto.

O que é mineração de texto?

A mineração de texto pertence a uma área da computação que foca no processamento de grandes quantidades de texto e na extração de informações úteis. Esse processo é realizado através de técnicas de processamento de linguagem natural (PLN), que permite que os computadores sejam capazes de compreender e interpretar o idioma humano.

Qualquer tipo de texto que esteja disponível em formato digital, incluindo documentos de texto, artigos, livros, páginas de internet, mensagens de e-mail e postagens em redes sociais podem ser processados. A mineração de texto pode processar textos em diferentes idiomas e formatos. Esses formatos podem ser textos não estruturados como o texto puro e textos estruturados como HTML, XML e JSON.

Técnicas de mineração de texto podem fazer uma diversidade de tarefas, como:

  • Classificação
  • Agrupamento
  • Extração
  • Associação
  • Sumarização

Classificação

Classificação de conteúdo baseando-se no texto. Exemplos de categorias que podem ser classificadas são: esportes, notícias, política e entretenimento. Essa técnica tem grande importância para o algoritmo poder filtrar as informações a serem pesquisadas em sistemas de busca.

Agrupamento

Agrupa textos baseando-se no seu conteúdo, significado e no parâmetro de pesquisa. Um exemplo disso é a sigla SP e a palavra São Paulo, ambos possuem o mesmo significado, porém são escritos de uma forma diferenciada. Porém, dependendo do conteúdo do texto a sigla pode ter um significado diferente. A mineração de texto consegue diferenciar esse tipo de informação de acordo com o contexto.

Extração

Organiza e registra os dados coletados de modo estruturado, possibilitando a integração de outras tecnologias como banco de dados, que contribuem para a conveniência e precisão de sistemas, como sistemas de busca ou sistemas que usam métodos de filtragem de conteúdo ou categoria.

Associação

Palavras que são usadas juntas com frequência. Um exemplo de associação é Japão e Samurai, ambas palavras são utilizadas em conjunto com bastante frequência. Essa associação pode ser aproveitada para buscas de conteúdos relacionados, aumentando a eficiência dos resultados da busca.

Sumarização

Resume um texto grande em um texto pequeno, juntando os principais pontos do conteúdo escrito. Técnica útil na divulgação de artigos ou notícias em redes sociais.

extração de porções importantes de um texto

O que é um texto puro ou texto simples na mineração de texto?

Um texto puro é um texto não estruturado, não possuindo códigos adicionais para representar título, subtítulo, parágrafo 1, parágrafo 2, etc. Ou seja o texto está todo junto, “armazenado” no mesmo espaço.

Nesse caso, é necessário a divisão desse texto em partes para tornar possível a análise de texto.

Divisão e análise, ambas são técnicas de mineração de texto.

Exemplos de textos em texto puro são:

  • Livros
  • Emails
  • Páginas na web

O que é texto estruturado na mineração de texto?

O texto estruturado é um texto divido em várias partes, como título, parágrafo 1, parágrafo 2, etc.

Um exemplo de estruturação de texto:

Se podemos sonhar, também podemos tornar nossos sonhos realidade.
– Walt Disney 1979

A citação acima é um exemplo de texto puro. Se estruturarmos o texto acima teremos a tabela abaixo:

Tópico Sonhos
Autor Walt Disney
Ano 1979

Ao extrairmos os dados acima, podemos obter informações de forma mais específica e detalhada, melhorando a mineração de texto de modo geral.

mineração de texto

Qual é a importância da mineração de texto?

Os minérios que extraímos da natureza, não possuem um grande valor na sua forma pura. Ao serem processados, esses minérios obtém mais valor, pois traz grandes utilidades para seus compradores. Na mineração de texto acontece a mesma coisa.

Ao processarmos uma grande quantidade de texto com um objetivo concreto em mente, podemos obter resultados extremamente benéficos para negócios ou empresas.

Como a mineração de texto é usada?

A mineração de texto possui várias funcionalidades, como:

  • Classificador de tópico (Usado em sites de notícias para separar os tópicos como econômia, esportes, tecnologia…)
  • Identificador de spam (Bastante usado nos emails, usado para filtrar spams)
  • Detecção de imitação de texto (Crimes de copiar texto de outros autores e publicar no próprio nome)
  • Autocorreção de textos (Erros de português)
  • Agrupamento de vários textos se baseando nas palavras usando com mais frequência (Usado nas avaliações de algum local no mapa do google maps)

Além dos exemplos acima, a mineração de textos tem muitos outras utilidades e funcionalidades. Se usada de forma super eficiente é até capaz de fazer a previsão do futuro da bolsa de valores.

Conclusão

A mineração de texto é uma prática que trabalha em conjunto com machine learning. Quanto mais dados armazenados no banco de dados, mais benéficos podem ser seus resultados.

Pode trazer grandes vantagens para empresas que trabalham com uma grande quantidade de dados, automatizando certos processos e fazendo análise.

Projetos práticos

Criando o esqueleto de um jogo de tiro 2D visto de cima usando P5.js

Usando lógicas matemáticas como trigonometria para criar e calcular o esqueleto de um jogo de tiro 2D em javascript

Criando um sistema de integração contínua (CI/CD)

Fazendo a integração contínua de Jenkins, Sonatype Nexus, Sonatype, JUnit e Gradle para automatizar processos repetitivos. Prática bastante usada em tecnologias de DevOps.

Integrando o PHP com Elasticsearch no desenvolvimento de um sistema de busca

Projeto de criação de um sistema de busca usando o framework Symfony e Elasticsearch. A integração com Kibana também é feito de modo remoto com um raspberrypi.

Usando dados fornecidos pelo TSE para simular o gráfico das eleições presidenciais de 2022

Simulação dos gráficos do segundo turno das eleições presidenciais, utilizando python e ferramentas de análise de dados, pandas e jupyter.

Desenvolvendo um jogo de quebra blocos em javascript

Programando um jogo clássico de arcade usando javascript e p5.js. O usuário deve quebrar os blocos utilizando uma bola ao mesmo tempo que evita que a bola saia pela parte inferior da tela

Veja também

Afinal, vale a pena gastar tempo com web marketing?

Expressões como gastar tempo e investir tempo andam lado a lado. Quando algo investido não tem o retorno esperado isso se torna uma perde de tempo...

Pessoas sem um endereço não podem utilizar os correios. Dispositivos sem um endereço não podem acessar a internet.

Quando nos conectamos à internet, nós recebemos um endereço IP. O endereço IP é o nosso endereço virtual que vai servir como localização para a transferência de dados na internet

Endereço MAC

Usado como identificador em uma rede local. Possui 48bits e mais de 280 trilhões de variações que podem ser atribuídas aos dispositivos.

Método scrum

Tem como objetivo entregar o projeto com velocidade e satisfazer as necessidades dos clientes entregando cada funcionalidade do software separadamente.

Aquisição verde

Seus objetivos são bem parecidos com os do CSR (Responsabilidade social corporativa), que visam em contribuir com a sociedade de alguma forma.

OSS Software de código aberto

O código aberto é disponível para a visualização, modificação e utilização, podendo ser utilizado por terceiros para fins comerciais.