Sistema de filtragem de informações - Information filtering system

Um sistema de filtragem de informações é um sistema que remove informações redundantes ou indesejadas de um fluxo de informações usando métodos (semi) automatizados ou computadorizados antes da apresentação a um usuário humano. Seu principal objetivo é o gerenciamento da sobrecarga de informação e incremento da relação sinal-ruído semântica . Para fazer isso, o perfil do usuário é comparado a algumas características de referência. Essas características podem se originar do item de informação (a abordagem baseada em conteúdo) ou do ambiente social do usuário (a abordagem de filtragem colaborativa ).

Enquanto na transmissão de informações os filtros de processamento de sinais são usados ​​contra o ruído que interrompe a sintaxe no nível de bits, os métodos empregados na filtragem de informações atuam no nível semântico.

A gama de métodos de máquina empregados baseia-se nos mesmos princípios da extração de informações . Um aplicativo notável pode ser encontrado no campo de filtros de spam de e - mail . Assim, não é apenas a explosão de informações que requer alguma forma de filtros, mas também pseudo-informações introduzidas inadvertidamente ou maliciosamente .

No nível da apresentação, a filtragem de informações assume a forma de feeds de notícias baseados nas preferências do usuário , etc.

Os sistemas de recomendação e plataformas de descoberta de conteúdo são sistemas ativos de filtragem de informações que tentam apresentar ao usuário itens de informação ( filme , televisão , música , livros , notícias , páginas da web ) nos quais o usuário está interessado. Esses sistemas adicionam itens de informação às informações que fluem para o usuário, ao invés de remover itens de informação do fluxo de informação para o usuário. Os sistemas de recomendação normalmente usam abordagens de filtragem colaborativa ou uma combinação das abordagens de filtragem colaborativa e de filtragem baseada em conteúdo, embora existam sistemas de recomendação com base em conteúdo.

História

Antes do advento da Internet , já existiam vários métodos de filtragem de informações ; por exemplo, os governos podem controlar e restringir o fluxo de informações em um determinado país por meio de censura formal ou informal.

Por outro lado, vamos falar sobre filtros de informação se referem a editores de jornais e jornalistas quando eles fornecem um serviço que seleciona a informação mais valiosa para seus clientes, leitores de livros, revistas, jornais, rádio ouvintes e TV telespectadores. Esta operação de filtragem está também presente em escolas e universidades onde existe uma selecção de informação para prestar assistência com base em critérios académicos aos clientes deste serviço, os alunos. Com o advento da Internet, é possível que qualquer pessoa publique o que quiser a um custo baixo. Desta forma, aumenta consideravelmente a informação menos útil e consequentemente a informação de qualidade é divulgada. Com este problema, começou a conceber uma nova filtragem com a qual podemos obter as informações necessárias para cada tópico específico de forma fácil e eficiente.

Operação

Um sistema de filtragem deste estilo consiste em várias ferramentas que ajudam as pessoas a encontrar as informações mais valiosas, de forma que o tempo limitado que você pode dedicar para ler / ouvir / ver seja direcionado corretamente para os documentos mais interessantes e valiosos. Esses filtros também são usados ​​para organizar e estruturar as informações de forma correta e compreensível, além de agrupar as mensagens nos e-mails endereçados. Esses filtros são essenciais nos resultados obtidos nas ferramentas de busca na Internet. As funções de filtragem melhoram a cada dia para fazer download de documentos da Web e mensagens mais eficientes.

Critério

Um dos critérios utilizados nesta etapa é se o conhecimento é prejudicial ou não, se o conhecimento permite um melhor entendimento com ou sem o conceito. Neste caso, a tarefa de filtragem de informações para reduzir ou eliminar as informações prejudiciais com conhecimento.

Sistema de Aprendizagem

Um sistema de conteúdo de aprendizagem consiste, em regras gerais, principalmente em três etapas básicas:

  1. Primeiro, um sistema que fornece soluções para um conjunto definido de tarefas.
  2. Posteriormente, passa por critérios de avaliação que medirão o desempenho da etapa anterior em relação à solução de problemas.
  3. Módulo de aquisição cuja saída obteve conhecimentos que são utilizados no solucionador de sistemas da primeira etapa.

Futuro

Atualmente o problema não é encontrar a melhor forma de filtrar as informações , mas sim a maneira que esses sistemas exigem para aprender de forma independente as necessidades de informação dos usuários. Não só porque automatizam o processo de filtragem, mas também a construção e adaptação do filtro. Alguns ramos baseados nele, como estatística, aprendizado de máquina, reconhecimento de padrões e mineração de dados, são a base para o desenvolvimento de filtros de informação que aparecem e se adaptam na base para a experiência. Para realizar o processo de aprendizagem, parte da informação tem que ser pré-filtrada, o que significa que existem exemplos positivos e negativos que chamamos de dados de treinamento, que podem ser gerados por especialistas, ou via feedback de usuários comuns.

Erro

Conforme os dados são inseridos, o sistema inclui novas regras; se considerarmos que esses dados podem generalizar as informações dos dados de treinamento, então temos que avaliar o desenvolvimento do sistema e medir a capacidade do sistema de prever corretamente as categorias de novas informações . Esta etapa é simplificada separando os dados de treinamento em uma nova série chamada "dados de teste" que usaremos para medir a taxa de erro. Como regra geral, é importante distinguir entre os tipos de erros (falsos positivos e falsos negativos). Por exemplo, no caso de um agregador de conteúdo infantil, não tem a mesma gravidade para permitir a passagem de informações impróprias para elas, que mostrem violência ou pornografia, do que o erro de descartar alguma informação apropriada. Para melhorar o sistema para reduzir as taxas de erro e ter esses sistemas com capacidades de aprendizagem semelhantes aos humanos, exigimos o desenvolvimento de sistemas que simulem as habilidades cognitivas humanas, como a compreensão da linguagem natural , capturando o significado Comum e outras formas de processamento avançado para atingir a semântica de em formação.

Campos de uso

Atualmente, existem inúmeras técnicas para desenvolver filtros de informação, algumas delas atingem taxas de erro inferiores a 10% em diversos experimentos. Entre essas técnicas estão árvores de decisão, máquinas de vetores de suporte, redes neurais, redes Bayesianas, discriminantes lineares, regressão logística, etc. Atualmente, essas técnicas são utilizadas em diferentes aplicações, não apenas no contexto web, mas em questões temáticas como variava como reconhecimento de voz, classificação de astronomia telescópica ou avaliação de risco financeiro.

Veja também

Referências

links externos