Começando a entender como pesquisar na web
“Uma coisa é o artefato tecnológico: o computador, o vídeo, etc. A outra é o pensamento tecnológico, que requer o artefato, mas existe de modo independente. O pensamento tecnológico é a capacidade de pensar um problema, delineá-lo, armar um projeto para resolvê-lo, buscar os materiais necessários e conseguir solucioná-lo. O fundamental no sistema educativo é desenvolver o pensamento tecnológico, para aplicar o conhecimento na prática. Não é simplesmente por ter um computador que a escola e as aulas deixam de ser ultrapassadas”.
Inês Aguerrondo, socióloga, em entrevista à revista Nova Escola, março 2004. Citada no Manual Yahoo! de busca na Internet Versão PDF
Sites de busca e diretórios, segundo o manual do Yahoo!
* Os sites de busca são softwares – mais conhecidos como “robôs” – que, regularmente, percorrem toda a Web em busca de novos documentos e armazenam tudo num banco de dados. Eles possuem um maior volume de informações do que os diretórios, porém, não organizam nenhuma das informações coletadas.
* Os diretórios são como catálogos de endereços, contam com pessoas especializadas que fazem uma busca controlada nos documentos da Internet, um a um, e os organizam por assunto, ou seja, os diretórios tratam a informação, ao contrário dos sites de busca.
Quando usar os sites de busca automática ou os diretórios
1. Os sites de busca fazem a pesquisa através de um software que visita todos os documentos que encontra e os remete ao banco de dados do buscador. Este processo é chamado de crawling (engatinhar, arrastar-se, nadar estilo crawl). O processo automático de classificação e armazenamento destas informações é a indexação da web. O banco de dados do buscador é chamado de índice da web. O software ou robô navega automaticamente pela web pulando de link em link, recebe a página e:
* Extrai links da página para prosseguir com o crawl
* Passa o conteúdo da página para ser indexado
* Segue para a próxima página da lista
O software guarda as informações recolhidas da página no índice da web e atribui informações àquela página relacionadas com:
* País
* Idioma
Também:
* Mapeia links apontando para a página
* Associa informações escondidas da página
* Identifica páginas de conteúdo adulto
* Identifica páginas de spam
2. Os diretórios contam com o recurso de uma equipe especializada, que organiza, classifica e trata a informação, de forma que o usuário encontre no diretório um “filtro” para as suas pesquisas, obtendo dados importantes que evitarão perda de tempo e tentativas inúteis em busca da informação correta.
* Tal como os sites de busca, os diretórios são acessados via palavra- chave ou navegação;
* O diretório do Yahoo!, por exemplo, é o maior em língua portuguesa e contém mais de 400 mil sites organizados por assunto, em que os editores ou “surfistas” olharam um a um, verificaram a qualidade dos sites disponíveis e decidiram quais deveriam ser listados no diretório, com base em alguns critérios de seleção de informações.
* As fontes de pesquisa devem ser sempre analisadas com máximo cuidado. A Internet permite que muitas informações circulem livremente, por isso estabeleça alguns parâmetros para atestar a confiabilidade das fontes: quem é o autor desse site; como o assunto é abordado; quais as fontes que ele utilizou para construir o texto e a navegação; qual a periodicidade em que ele é modificado ou atualizado, etc;
*Vale ressaltar que os sites e textos disponíveis na Internet não são lineares, ou seja, apresentam links que nos remetem a outros sites e páginas que tratam sobre o mesmo assunto ou não. Assim, é importante estar atento ao o percurso da pesquisa e das fontes que foram aparecendo ao longo do processo.
> Quando quiser excluir algum elemento de sua busca, use o sinal “-“, por exemplo “Olimpíadas – história” ou, ainda, se desejar incluir algum item, use o sinal “+”, este procedimento garante o refinamento de sua busca;
> Buscadores ignoram a maioria das preposições e artigos. Nessa busca, a preposição “de” foi ignorada;
> Use pelo menos duas palavras por busca e seja o mais específico possível. Mais palavras equivalem a menos resultados!;
> Faça buscas por frases exatas usando aspas: “que a força esteja com você” …ao invés de: que a força esteja com você; este é um dos recursos mais poderosos e fáceis de usar para uma busca na web!;
> O ranking da busca nos sites de busca é afetado por:
* Presença do texto procurado na página
* Número de links provindos de outros sites
* Texto contido no link provindo de outro sites (anchor text)
* Presença do termo buscado no título, cabeçalho, negritos, tamanho da letra Freqüência do termo na página;
> As buscas na web são feitas em etapas:
* Formulação da busca
* Busca na Web
* Avaliação dos resultados
* Refinamento da busca;
> Os buscadores vasculham em bilhões de páginas da web, mas não conseguem pesquisar em:
* Páginas que exigem login (Ex.: Veja Online)
* Bancos de dados com regras de acesso fora de padrão
* Redes fechadas de empresas (Intranets)
* Documentos que não estão na web (Ex.: LexisNexis)
* Páginas que não têm nenhum link apontando para elas;
Deep Web ou web invisível.
What is the Deep Web?
The Deep Web is content that resides in searchable databases, the results from which can only be discovered by a direct query. Without the directed query, the database does not publish the result. When queried, Deep Web sites post their results as dynamic Web pages in real-time. Though these dynamic pages have a unique URL address that allows them to be retrieved again later, they are not persistent. (fonte: http://completeplanet.com/)
Exemplos: Largest Deep Web Sites
> Por isso, é importante frisar que somente cerca de 10% do conteúdo total da Internet está nos buscadores. Assim, ela não deve ser a única fonte de pesquisa utilizada. Livros, jornais, CDRoms e outros meios também devem ser consultados para garantir a amplitude de sua pesquisa;
> Clicar em “ajuda” é o procedimento mais seguro para o esclarecimento de todas as suas dúvidas com relação aos mecanismos de busca.
O buscador mais usado e com maior abrangência: Google
> Founded: September 1998 by Larry Page and Sergey Brin
> A “revolução” do PageRank algorithm.
> Cuidado: Cookies!
Explicações sobre o PageRank
A classificação das páginas (PageRank) confia na natureza excepcionalmente democrática da Web, usando sua vasta estrutura de links como um indicador do valor de uma página individual. Essencialmente, o Google interpreta um link da página A para a página B como um voto da página A para a página B. Mas o Google olha além do volume de votos, ou links, que uma página recebe; analisa também a página que dá o voto. Os votos dados por páginas “importantes” pesam mais e ajudam a tornar outras páginas “importantes.”
Sites importantes, de alta qualidade recebem uma nota de avaliação maior, que o Google grava a cada busca feita. Naturalmente, uma página importante não significa nada se não combinar com a sua busca. Assim, o Google combina os resultados de alta qualidade com a busca que você está realizando para que o resultado seja o mais relevante possível. O Google pesquisa quantas vezes a palavra procurada aparece nas páginas e examina todo o aspecto delas (e conteúdo das páginas ligadas a ela) para determinar o melhor resultado para a sua busca.
Não importa só o número de links para uma página para ela ter um bom ranking, mas também é levada em conta a palavra âncora do link (relevância com a pesquisa).
A importância do texto âncora do link
The consensus among observers is that PageRank is not nearly as important as it was up until mid-2003. Many sites with good PageRank are not doing well in Google, and many with poor PageRank are ranking well for keywords that are important to them. These days, the keywords in the anchor text of external links are more important than the mere fact of the link itself. (In its classic form, PageRank was computed from links without any consideration of content.) (do site www.google-watch.org)
- O Google não negocia classificações dentro dos resultados de busca (ou seja, não é possível comprar uma posição privilegiada na Listagem de Páginas).
- Google analiza a proximidade destes termos dentro da página. Ao contrário de muitos outros instrumentos de pesquisa, o Google dá prioridade aos resultados de acordo com a proximidade dos termos pesquisados
- Google só lista página com links externos pra ela ou log em servidores monitorados. Páginas que ainda não foram listadas provavelmente não foram incluídas porque outros sites ainda não oferecem link a ela — se outros sites não são ligaods a uma página, nós não podemos determinar um PageRank (nossa medida proprietária da importância de uma página) numa maneira razoável. Uma vez que outros tem links para uma página, nós a listaremos. O Google analisa como o link está conectado a outras páginas da web e os possibilita a abertura, na vasta natureza da internet para selecionar os resultados mais relevantes.
• File types searched include:
HyperText Markup Language (html)
Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Shockwave Flash (swf)
Text (ans, txt)
• Images: 880 million+
• Usenet messages: 845 million+
- Consultas com “e” automático
O Google só retorna páginas que incluam todos os seus termos de busca. Não há necessidade de incluir “and” entre os termos. Para restringir uma busca com mais profundidade basta incluir mais termos.
- Palavras Descartáveis
O Google ignora palavras e caracteres comuns, conhecidos como palavras descartáveis. O Google automaticamente descarta termos como “http” e “.com”, assim como dígitos ou letras isoladas, porque eles raramente ajudam na busca e podem torná-la consideravelmente mais lenta.
Use o sinal “+” para incluir palavras descartáveis na sua pesquisa. Tenha a certeza de incluir um espaço antes do sinal “+”. [Você pode também incluir o sinal “+” na busca de frases.]
Maiúsculas, minúsculas ou acentos interessam?
As buscas no Google não são sensíveis a maiúsculas e minúsculas. Todas as palavras, independentemente da forma como forem escritas, serão entendidas como minúsculas. Por exemplo, buscas por “google”, “GOOGLE” ou “GoOgLe” trarão os mesmos resultados.
As pesquisas padrões do Google não são sensíveis a acentos ou sinais diacríticos, ou seja, [Muenchen] e [München] encontrarão as mesmas páginas. Se quiser discriminar as duas palavras, use um sinal + tanto para [+Muenchen] como para [+München].
- A INTERFACE DO GOOGLE
> Web: (busca na internet)
> Imagens: 390 milhões de imagens indexadas e disponíveis para visualização
> Grupos
Usenet: A world-wide system of discussion groups, with comments passed among hundreds of thousands of machines. Usenet is completely decentralized, with over 10,000 discussion areas, called newsgroups.
- Diretório:
O Diretório Web Google organiza a web por tópicos, assim você pode navegar por categorias para procurar palavras-chave para usar em sua busca. Ou simplesmente clique links de uma determinada categoria até encontrar a página que você quer.
- Preferências
- Ferramenta de idiomas
- Pesquisa avançada (interface para usar os operadores do “cheat sheet”)
Com todas as palavras:
busca todas as palavras, não importa se juntas ou não na página (de preferência juntas) e ignora os caracteres comuns (de, da etc).
com a expressão: “exatamente a expressão”.
com qualquer uma das palavras: tanto faz uma quanto a outra.
sem as palavras: excluir dos resultados as páginas que contenham essa(s) palavra(s)
Os resultados:
Título
Contexto onde aparece na página o termo pesquisado.
URL – peso – em cachê – páginas semelhantes
[xls]
Google Zeitgeist (termos mais buscados)
Ajuda de pesquisa Google em português
Google Help: Cheat sheet – traduzida”)
A Data deste post foi atualizada para ficar em destaque para a turma de MDI 3 de 2008-2. O dia da primeira publicação foi 2 de agosto de 2005.
test Filed under Aulas, Internet | Tags: busca, exercícios, google | Comment (1)Um comentário para o post “Começando a entender como pesquisar na web”
Participe com seu comentário










[...] las — Rogerio @ 8:28 am
Post do blog IMd3 com “o básico da busca“.
[...]