Mineração de texto - Text mining

A mineração de texto , também conhecida como mineração de dados de texto , semelhante à analítica de texto , é o processo de derivar informações de alta qualidade do texto . Envolve "a descoberta por computador de novas informações anteriormente desconhecidas, extraindo automaticamente informações de diferentes recursos escritos". Os recursos escritos podem incluir sites , livros , e-mails , resenhas e artigos. Informações de alta qualidade normalmente são obtidas criando padrões e tendências por meio de aprendizado de padrões estatísticos . De acordo com Hotho et al. (2005) podemos diferenciar três perspectivas diferentes de mineração de texto: extração de informações , mineração de dados e um processo de KDD (Knowledge Discovery in Databases). A mineração de texto geralmente envolve o processo de estruturação do texto de entrada (geralmente análise, juntamente com a adição de alguns recursos linguísticos derivados e a remoção de outros, e subsequente inserção em um banco de dados ), derivando padrões dentro dos dados estruturados e, finalmente, avaliação e interpretação da saída. 'Alta qualidade' na mineração de texto geralmente se refere a alguma combinação de relevância , novidade e interesse. Tarefas típicas de mineração de texto incluem categorização de texto , agrupamento de texto , extração de conceito / entidade, produção de taxonomias granulares, análise de sentimento , resumo de documento e modelagem de relação de entidade ( ou seja , relações de aprendizagem entre entidades nomeadas ).

A análise de texto envolve recuperação de informações , análise lexical para estudar distribuições de frequência de palavras, reconhecimento de padrões , marcação / anotação , extração de informações , técnicas de mineração de dados , incluindo análise de link e associação, visualização e análise preditiva . O objetivo geral é, essencialmente, transformar texto em dados para análise, por meio da aplicação de processamento de linguagem natural (PNL), diferentes tipos de algoritmos e métodos analíticos. Uma fase importante desse processo é a interpretação das informações coletadas.

Uma aplicação típica é digitalizar um conjunto de documentos escritos em uma linguagem natural e modelar o conjunto de documentos para fins de classificação preditiva ou preencher um banco de dados ou índice de pesquisa com as informações extraídas. O documento é o elemento básico ao iniciar a mineração de texto. Aqui, definimos um documento como uma unidade de dados textuais, que normalmente existe em muitos tipos de coleções.

Analítica de texto

O termo analítica de texto descreve um conjunto de técnicas linguísticas , estatísticas e de aprendizado de máquina que modelam e estruturam o conteúdo de informações de fontes textuais para inteligência de negócios , análise exploratória de dados , pesquisa ou investigação. O termo é quase um sinônimo de mineração de texto; na verdade, Ronen Feldman modificou uma descrição de 2000 de "mineração de texto" em 2004 para descrever "analítica de texto". O último termo agora é usado com mais frequência em ambientes de negócios, enquanto "mineração de texto" é usado em algumas das primeiras áreas de aplicação, datando da década de 1980, principalmente em pesquisas de ciências biológicas e inteligência governamental.

O termo analítica de texto também descreve essa aplicação de analítica de texto para responder a problemas de negócios, independentemente ou em conjunto com consulta e análise de dados numéricos em campo. É um truísmo dizer que 80% das informações relevantes para os negócios se originam de forma não estruturada , principalmente texto. Essas técnicas e processos descobrem e apresentam conhecimento - fatos, regras de negócios e relacionamentos - que, de outra forma, está bloqueado na forma textual, impenetrável ao processamento automatizado.

Processos de análise de texto

As subtarefas - componentes de um esforço maior de análise de texto - normalmente incluem:

  • A redução da dimensionalidade é uma técnica importante para o pré-processamento de dados. A técnica é usada para identificar a palavra raiz para palavras reais e reduzir o tamanho dos dados do texto.
  • A recuperação de informações ou identificação de um corpus é uma etapa preparatória: coletar ou identificar um conjunto de materiais textuais, na Web ou mantidos em um sistema de arquivos, banco de dados ou gerenciador de corpus de conteúdo , para análise.
  • Embora alguns sistemas de analítica de texto apliquem exclusivamente métodos estatísticos avançados, muitos outros aplicam um processamento de linguagem natural mais extenso , como marcação de parte da fala , análise sintática e outros tipos de análise linguística.
  • O reconhecimento de entidades nomeadas é o uso de dicionários geográficos ou técnicas estatísticas para identificar recursos de texto nomeados: pessoas, organizações, nomes de lugares, símbolos da bolsa de valores, certas abreviações e assim por diante.
  • A desambiguação - o uso de pistas contextuais - pode ser necessária para decidir onde, por exemplo, "Ford" pode se referir a um ex-presidente dos Estados Unidos, um fabricante de veículos, uma estrela de cinema, uma travessia de um rio ou alguma outra entidade.
  • Reconhecimento de entidades identificadas por padrão: Recursos como números de telefone, endereços de e-mail, quantidades (com unidades) podem ser discernidos por meio de expressão regular ou outras correspondências de padrão.
  • Agrupamento de documentos: identificação de conjuntos de documentos de texto semelhantes.
  • Co - referência : identificação de sintagmas nominais e outros termos que se referem ao mesmo objeto.
  • Extração de relacionamento, fato e evento: identificação de associações entre entidades e outras informações no texto
  • A análise de sentimento envolve discernir material subjetivo (em oposição a factual) e extrair várias formas de informações atitudinais: sentimento, opinião, humor e emoção. As técnicas de análise de texto são úteis para analisar o sentimento em nível de entidade, conceito ou tópico e para distinguir o detentor da opinião e o objeto de opinião.
  • A análise quantitativa de texto é um conjunto de técnicas provenientes das ciências sociais em que um juiz humano ou um computador extrai relações semânticas ou gramaticais entre palavras para descobrir o significado ou padrões estilísticos de, geralmente, um texto pessoal casual com o propósito de perfil psicológico etc.

Formulários

A tecnologia de text mining agora é amplamente aplicada a uma ampla variedade de necessidades governamentais, de pesquisa e de negócios. Todos esses grupos podem usar mineração de texto para gerenciamento de registros e pesquisa de documentos relevantes para suas atividades diárias. Profissionais jurídicos podem usar mineração de texto para e-discovery , por exemplo. Os governos e grupos militares usam mineração de texto para fins de segurança e inteligência nacional . Pesquisadores científicos incorporam abordagens de mineração de texto em esforços para organizar grandes conjuntos de dados de texto (ou seja, abordando o problema de dados não estruturados ), para determinar ideias comunicadas por meio de texto (por exemplo, análise de sentimento em mídia social ) e para apoiar a descoberta científica em campos como as ciências da vida e a bioinformática . Nos negócios, os aplicativos são usados ​​para dar suporte à inteligência competitiva e à colocação automatizada de anúncios , entre várias outras atividades.

Aplicativos de segurança

Muitos pacotes de software de mineração de texto são comercializados para aplicativos de segurança , especialmente monitoramento e análise de fontes de texto simples online, como notícias da Internet , blogs , etc. para fins de segurança nacional . Também está envolvido no estudo de criptografia / descriptografia de texto .

Aplicações biomédicas

Um fluxograma de um protocolo de mineração de texto.
Um exemplo de protocolo de mineração de texto usado em um estudo de complexos de proteína-proteína ou docking de proteína .

Uma gama de aplicações de mineração de texto na literatura biomédica tem sido descrito, incluindo abordagens computacionais para ajudar com estudos em encaixe proteína , as interacções proteína , e associações proteína-doença. Além disso, com grandes conjuntos de dados textuais de pacientes no campo clínico, conjuntos de dados de informações demográficas em estudos populacionais e relatórios de eventos adversos, a mineração de texto pode facilitar os estudos clínicos e a medicina de precisão. Os algoritmos de mineração de texto podem facilitar a estratificação e indexação de eventos clínicos específicos em grandes conjuntos de dados textuais de pacientes de sintomas, efeitos colaterais e comorbidades de registros eletrônicos de saúde, relatórios de eventos e relatórios de testes diagnósticos específicos. Um aplicativo de mineração de texto online na literatura biomédica é o PubGene , um mecanismo de busca acessível ao público que combina mineração de texto biomédica com visualização de rede. GoPubMed é um mecanismo de busca baseado em conhecimento para textos biomédicos. As técnicas de mineração de texto também nos permitem extrair conhecimento desconhecido de documentos não estruturados no domínio clínico

Aplicações de Software

Métodos de mineração de texto e software também estão sendo pesquisados ​​e desenvolvidos por grandes empresas, incluindo IBM e Microsoft , para automatizar ainda mais os processos de mineração e análise, e por diferentes empresas que trabalham na área de pesquisa e indexação em geral como forma de melhorar seus resultados . No setor público, muitos esforços têm se concentrado na criação de software para rastrear e monitorar atividades terroristas . Para fins de estudo, o software Weka é uma das opções mais populares no mundo científico, atuando como um excelente ponto de entrada para iniciantes. Para programadores Python, existe um excelente kit de ferramentas chamado NLTK para propósitos mais gerais. Para programadores mais avançados, há também a biblioteca Gensim , que se concentra em representações de texto baseadas em incorporação de palavras.

Aplicativos de mídia online

A mineração de texto está sendo usada por grandes empresas de mídia, como a Tribune Company , para esclarecer informações e fornecer aos leitores maiores experiências de pesquisa, o que, por sua vez, aumenta a "aderência" e a receita do site. Além disso, no back-end, os editores estão se beneficiando ao poder compartilhar, associar e empacotar notícias entre propriedades, aumentando significativamente as oportunidades de monetizar o conteúdo.

Aplicativos de negócios e marketing

A análise de texto está sendo usada nos negócios, principalmente em marketing, como no gerenciamento de relacionamento com o cliente . Coussement e Van den Poel (2008) o aplicam para melhorar os modelos de análise preditiva para rotatividade de clientes (perda de clientes ). A mineração de texto também está sendo aplicada na previsão de retornos de ações.

Análise de sentimentos

A análise de sentimento pode envolver a análise de críticas de filmes para estimar o quão favorável uma crítica é para um filme. Tal análise pode precisar de um conjunto de dados rotulado ou rotulagem da afetividade das palavras. Recursos para afetividade de palavras e conceitos foram feitos para WordNet e ConceptNet , respectivamente.

O texto tem sido usado para detectar emoções na área relacionada da computação afetiva. Abordagens baseadas em texto para computação afetiva têm sido usadas em vários corpora, como avaliações de alunos, histórias infantis e notícias.

Mineração de literatura científica e aplicações acadêmicas

A questão da mineração de texto é importante para os editores que mantêm grandes bancos de dados de informações que precisam de indexação para recuperação. Isso é especialmente verdadeiro em disciplinas científicas, nas quais informações altamente específicas costumam estar contidas no texto escrito. Portanto, iniciativas foram tomadas, como a proposta da Nature para uma Interface de Mineração de Texto Aberto (OTMI) e a Definição de Tipo de Documento de Publicação de Periódicos (DTD) do National Institutes of Health que forneceria pistas semânticas para as máquinas responderem a perguntas específicas contidas no texto sem remover as barreiras do editor ao acesso público.

Instituições acadêmicas também se envolveram na iniciativa de mineração de texto:

Métodos para mineração de literatura científica

Métodos computacionais foram desenvolvidos para auxiliar na recuperação de informações da literatura científica. As abordagens publicadas incluem métodos de pesquisa, determinação de novidades e esclarecimento de homônimos entre relatórios técnicos.

Humanidades digitais e sociologia computacional

A análise automática de vastos corpora textuais criou a possibilidade para os estudiosos analisarem milhões de documentos em vários idiomas com intervenção manual muito limitada. As principais tecnologias de capacitação são análise, tradução automática , categorização de tópicos e aprendizado de máquina.

Rede narrativa das eleições dos EUA de 2012

A análise automática de corpora textuais permitiu a extração de atores e suas redes relacionais em uma vasta escala, transformando dados textuais em dados de rede. As redes resultantes, que podem conter milhares de nós, são então analisadas usando ferramentas da teoria da rede para identificar os principais atores, as principais comunidades ou partes e propriedades gerais, como robustez ou estabilidade estrutural da rede geral, ou centralidade de certos nós. Isso automatiza a abordagem introduzida pela análise narrativa quantitativa, em que os trigêmeos sujeito-verbo-objeto são identificados com pares de atores ligados por uma ação, ou pares formados por ator-objeto.

A análise de conteúdo tem sido uma parte tradicional das ciências sociais e estudos de mídia por muito tempo. A automação da análise de conteúdo permitiu uma revolução do " big data " nesse campo, com estudos em mídias sociais e conteúdo de jornais que incluem milhões de notícias. Viés de gênero , legibilidade , similaridade de conteúdo, preferências do leitor e até mesmo humor foram analisados ​​com base em métodos de mineração de texto em milhões de documentos. A análise da legibilidade, viés de gênero e viés de tópico foi demonstrada em Flaounas et al. mostrando como diferentes tópicos têm diferentes preconceitos de gênero e níveis de legibilidade; a possibilidade de detectar padrões de humor em uma vasta população analisando o conteúdo do Twitter também foi demonstrada.

Programas

Os programas de computador de mineração de texto estão disponíveis em muitas empresas e fontes comerciais e de código aberto . Consulte a lista de software de mineração de texto .

Lei de propriedade intelectual

Situação na Europa

Vídeo da campanha Fix Copyright explicando o TDM e suas questões de direitos autorais na UE, 2016 [3:52

De acordo com as leis europeias de direitos autorais e banco de dados , a mineração de obras protegidas por direitos autorais (como por mineração na web ) sem a permissão do proprietário dos direitos autorais é ilegal. No Reino Unido em 2014, por recomendação da revisão Hargreaves , o governo alterou a lei de direitos autorais para permitir a mineração de texto como uma limitação e exceção . Foi o segundo país no mundo a fazê-lo, depois do Japão , que introduziu uma exceção específica para mineração em 2009. No entanto, devido à restrição da Diretiva da Sociedade da Informação (2001), a exceção do Reino Unido permite apenas mineração de conteúdo para objetivos comerciais. A lei de direitos autorais do Reino Unido não permite que esta disposição seja substituída por termos e condições contratuais.

A Comissão Europeia facilitou a discussão das partes interessadas sobre mineração de texto e dados em 2013, sob o título de Licenças para a Europa. O fato de o foco na solução para essa questão legal serem as licenças, e não as limitações e exceções à lei de direitos autorais, levou representantes de universidades, pesquisadores, bibliotecas, grupos da sociedade civil e editoras de acesso aberto a abandonar o diálogo com as partes interessadas em maio de 2013.

Situação nos Estados Unidos

A lei de direitos autorais dos EUA , e em particular suas disposições de uso justo , significa que a mineração de texto na América, bem como em outros países de uso justo, como Israel, Taiwan e Coréia do Sul, é considerada legal. Como a mineração de texto é transformadora, o que significa que não suplanta a obra original, ela é considerada lícita sob o uso justo. Por exemplo, como parte do acordo do Google Book, o juiz presidente do caso decidiu que o projeto de digitalização do Google de livros protegidos por direitos autorais era legal, em parte por causa dos usos transformadores que o projeto de digitalização exibia - um deles é a mineração de texto e dados .

Implicações

Até recentemente, os sites costumavam usar pesquisas baseadas em texto, que encontravam apenas documentos contendo palavras ou frases específicas definidas pelo usuário. Agora, por meio do uso de uma web semântica , a mineração de texto pode encontrar conteúdo com base no significado e no contexto (em vez de apenas por uma palavra específica). Além disso, o software de mineração de texto pode ser usado para construir grandes dossiês de informações sobre pessoas e eventos específicos. Por exemplo, grandes conjuntos de dados baseados em dados extraídos de reportagens podem ser construídos para facilitar a análise de redes sociais ou contra-inteligência . Com efeito, o software de mineração de texto pode atuar em uma capacidade semelhante a um analista de inteligência ou bibliotecário de pesquisa, embora com um escopo de análise mais limitado. A mineração de texto também é usada em alguns filtros de spam de e - mail como uma forma de determinar as características das mensagens que provavelmente são anúncios ou outro material indesejado. A mineração de texto desempenha um papel importante na determinação do sentimento do mercado financeiro .

Futuro

Cada vez mais se está interessado na mineração de dados multilíngue: a capacidade de obter informações em vários idiomas e agrupar itens semelhantes de diferentes fontes linguísticas de acordo com seu significado.

O desafio de explorar a grande proporção de informações corporativas que se originam na forma "não estruturada" é reconhecido há décadas. É reconhecido na definição mais antiga de business intelligence (BI), em um artigo do IBM Journal de outubro de 1958 por HP Luhn, A Business Intelligence System, que descreve um sistema que irá:

"... utilizar máquinas de processamento de dados para auto-abstração e autocodificação de documentos e para criar perfis de interesse para cada um dos 'pontos de ação' em uma organização. Tanto os documentos recebidos quanto os gerados internamente são automaticamente abstraídos, caracterizados por uma palavra padrão e enviado automaticamente para os pontos de ação apropriados. "

Ainda assim, como os sistemas de informação de gerenciamento se desenvolveram a partir da década de 1960 e como o BI surgiu nos anos 80 e 90 como uma categoria de software e campo de prática, a ênfase estava em dados numéricos armazenados em bancos de dados relacionais. Isso não é surpreendente: o texto em documentos "não estruturados" é difícil de processar. O surgimento da analítica de texto em sua forma atual decorre de um redirecionamento da pesquisa no final da década de 1990, do desenvolvimento de algoritmo à aplicação, conforme descrito pelo Prof. Marti A. Hearst no artigo Untangling Text Data Mining:

Por quase uma década, a comunidade de linguística computacional viu grandes coleções de texto como um recurso a ser aproveitado para produzir melhores algoritmos de análise de texto. Neste artigo, tentei sugerir uma nova ênfase: o uso de grandes coleções de textos online para descobrir novos fatos e tendências sobre o próprio mundo. Sugiro que, para progredir, não precisamos de análise de texto inteligente totalmente artificial; em vez disso, uma mistura de análise orientada por computador e guiada pelo usuário pode abrir a porta para novos resultados empolgantes.

A declaração de necessidade de Hearst em 1999 descreve muito bem o estado da tecnologia e da prática analítica de texto uma década depois.

Veja também

Referências

Citações

Fontes

  • Ananiadou, S. e McNaught, J. (Editores) (2006). Text Mining for Biology and Biomedicine . Artech House Books. ISBN  978-1-58053-984-5
  • Bilisoly, R. (2008). Mineração de texto prática com Perl . Nova York: John Wiley & Sons. ISBN  978-0-470-17643-6
  • Feldman, R. e Sanger, J. (2006). O Manual de Mineração de Texto . Nova York: Cambridge University Press. ISBN  978-0-521-83657-9
  • Hotho, A., Nürnberger, A. e Paaß, G. (2005). “Um breve levantamento da mineração de texto”. Em Ldv Forum, Vol. 20 (1), pág. 19-62
  • Indurkhya, N. e Damerau, F. (2010). Handbook Of Natural Language Processing , 2ª edição. Boca Raton, FL: CRC Press. ISBN  978-1-4200-8592-1
  • Kao, A. e Poteet, S. (Editores). Processamento de linguagem natural e mineração de texto . Springer. ISBN  1-84628-175-X
  • Konchady, M. Text Mining Application Programming (Programming Series) . Charles River Media. ISBN  1-58450-460-9
  • Manning, C. e Schutze, H. (1999). Fundamentos do processamento estatístico de linguagem natural . Cambridge, MA: MIT Press. ISBN  978-0-262-13360-9
  • Miner, G., Elder, J., Hill. T, Nisbet, R., Delen, D. e Fast, A. (2012). Mineração de texto prática e análise estatística para aplicativos de dados de texto não estruturados . Elsevier Academic Press. ISBN  978-0-12-386979-1
  • McKnight, W. (2005). "Construindo inteligência de negócios: mineração de dados de texto em inteligência de negócios". Revisão do DM , 21-22.
  • Srivastava, A. e Sahami. M. (2009). Mineração de Texto: Classificação, Clustering e Aplicações . Boca Raton, FL: CRC Press. ISBN  978-1-4200-5940-3
  • Zanasi, A. (Editor) (2007). Text Mining e suas aplicações à inteligência, CRM e gestão do conhecimento . WIT Press. ISBN  978-1-84564-131-3

links externos