Mecanismo de busca aprimora pesquisa por palavras e populariza estatísticas do idioma




O maior site de buscas da internet deixou sua marca não só na vida das pessoas como na do próprio idioma. Entre os neologismos que já produziu, "googlar" - sinônimo de pesquisar no Google - foi parar até no dicionário. Sem contar o bordão irônico "joga no Google", repetido sempre que alguém desconhece uma palavra. Essa espécie de "oráculo" da era digital, visto com desconfiança por alguns, adicionou ao seu método de pesquisa mais uma função, a "busca semântica", que está deixando os resultados de investigações na internet ainda mais interessantes e enriquecedores. Além desse recurso, o recém-lançado Google Insight for Search fornece aos internautas estatísticas sobre a incidência de palavras nas pesquisas realizadas por meio da ferramenta.
Funções matemáticas usadas pelo mecanismo de busca - os algoritmos - processam dados de 235 milhões de buscas feitas diariamente no mundo todo, criando associações a partir dos termos mais procurados e sites mais visitados, entre outros hábitos de navegação. Ao todo são mais de 200 critérios usados no processamento das informações hospedadas na rede mundial de computadores, com o intuito de organizá-las e torná-las acessíveis aos usuários.
Segundo o critério da busca semântica, ao digitar, por exemplo, a expressão "teoria da relatividade", além de conferir outros sites que possuam a mesma expressão, teremos no pé da página sugestões de termos afins como "física quântica", "Albert Einstein", "velocidade da luz" e até a fórmula mais popular da história, "e=mc2".
- Na verdade, a busca semântica é uma questão filosófica que ninguém definiu ainda. É uma expressão da ânsia de ir além do termo-chave, que às vezes se acha descontextualizado. Vemos isso como uma busca mais completa, que vai além da palavra. A busca hoje, como é concebida, depende da palavra. E não deveria ser. Deveria ser independente da palavra, mais completa, traduzindo a intenção ou o universo em torno do assunto buscado. Mas como o ser humano traduz o universo por meio da palavra, é por aí que começamos - afirma Felix Ximenes, diretor de comunicação do Google Brasil.
Estatísticas
Palavras corriqueiras como "bbb" ou "orkut" aparecem em quase todas as listas de termos mais procurados que o Google divulga anualmente - projeto conhecido como Google Zeitgeist ["espírito de época" em alemão]. À parte a pretensão de querer refletir sua época fixando as palavras mais populares, trata-se de uma lista interessante, porém limitada. Isso porque o mecanismo de busca é utilizado para diversos propósitos, não só como dicionário ou enciclopédia, inclusive por quem procura links ou atalhos para outros sites, o que pode "viciar" os resultados.
Digitar "orkut", por exemplo, nem sempre representa um interesse pela palavra em si, mas antes pelo acesso à rede social que leva esse nome. O mesmo engano se dá com as con soantes "bbb", que não se trata de uma palavra que requer exatamente uma definição, mas que é sobretudo índice de um universo semântico subjacente (pulverizado em expressões como reality show, "paredão", "eliminado", "capa da Playboy" etc.) Em resumo, uma coisa é a ocorrência da palavra em blogs e portais de notícias; outra é quantas vezes as pessoas a digitaram como "ponte" para outros domínios virtuais.  Tomado esse cuidado, a possibilidade aberta pelo Google é enorme ao campo da pesquisa do idioma.
Pesquisa das pesquisas
Insight for Search pode ser considerado um desdobramento do Zeitgeist mais interessante e democrático, pois "instrumentaliza" estatísticas sobre a incidência de buscas por palavras e as coloca à disposição. Pode-se pesquisar a popularidade de um vocábulo por país, estado, mês, dia, ano, ocorrência junto a outros vocábulos, entre outros parâmetros.  Essa espécie de "Google dos Googles" permite a qualquer pessoa obter números e gráficos sobre quão pesquisado foi o termo, além de listar seus correlatos. Mesmo que os números não sejam absolutos, deixando dúvidas sobre o universo da amostragem, seu mérito é organizar e facilitar um conhecimento que parecia impossível antes da internet. Para o bem ou o mal, agora todo internauta pode bancar o linguista amador e tirar suas conclusões acerca da popularidade das palavras.
Ligações perigosas
Basta digitar a palavra "crise", por exemplo, para que vejamos um gráfico registrando a incidência cada vez maior do temido termo ao longo de 2009. Trata-se, pois, de uma constatação empírica, e não é preciso ler vários jornais ou ver muita televisão para saber que se trata de um fato linguístico plausível. Porém, uma queda na quantidade de menções à palavra "crise" não significaria necessariamente um abrandamento da situação econômica; poderia sugerir antes certa prudência da imprensa e dos blogueiros em relação a um vocábulo que evoca privação.
Por outro lado, ao pesquisar palavras por estado, a característica interjeição "uai" dos mineiros é mais popular em seu estado de origem do que em São Paulo, o que é natural. O mesmo acontece com "tchê", que tem maioria esmagadora no Rio Grande do Sul; ao passo que "acarajé" é o campeão da Bahia não só em sabor como também em interesse entre os internautas baianos.


De posse dessa informação, ao depararmos com a expressão "receita de acarajé" ao pé da página, chegamos à conclusão de que os termos "acarajé" e "receita" vêm juntos na maioria das ocorrências e o desejo de aprender a receita deve ser uma das principais motivações dessas buscas. O céu é o limite para deduções acerca de estatísticas como essas, e é preciso cuidado com as generalizações.
Apesar da irresistível vontade de interpretar os resultados do Google indiscriminadamente, um caso ocorrido no começo do ano passado mostrou que todo sistema é passível de falhas. A cantora Preta Gil ameaçou processar o site de buscas, basea da no resultado "condicionado" de pesquisa sobre seu nome. Na busca por imagens da ferramenta, quando alguém digitava a expressão "atriz gorda" o mecanismo sugeria como possibilidade de busca: "experimente também preta gil".
A menção desabonadora havia sido "forjada" por um truque chamado Google bomb ("bomba Google"), feito por blogueiros com motivações políticas ou humorísticas. A manobra consiste em enganar os algoritmos da ferramenta, interferindo de maneira artificial na percepção sobre qual é a associação mais correta. Foi a primeira vez no país que o mecanismo de busca era acusado de ser tendencioso, sugerindo uma correlação indesejada. À época, a filha de Gilberto Gil recebeu uma ligação de Felix Ximenes, do Google Brasil, que lhe pediu desculpas. O caso acabou bem, mas o advogado de Preta Gil chegou a acusar a empresa de danos morais. Afinal, quais seriam os limites da ferramenta?
Linguística de corpus
Questionamento semelhante tem o crítico Andrew Keen, autor de O Culto do Amador (Jorge Zahar, 2009). Ele é taxativo em suas considerações sobre sites de busca e a internet em geral, e classifica o mecanismo como "uma agregação de milhões de perguntas feitas coletivamente ao Google", de modo que a ferramenta só nos diz "aquilo que já sabemos". Keen subestima o conhecimento produzido por uma coletividade que navega pela internet digitando interesses materializados em palavras e expressões que talvez configurem uma nova etapa na organização do conhecimento.

Embora as associações produzidas pela ferramenta de busca ainda sejam elementares, menos precisas do que os sinônimos dos dicionários, escritos por humanos, o novo tratamento dado à palavra já é sinal de um salto qualitativo. Porém, não se pode dizer que o banco de dados pesquisado, no qual se baseia o Google, seja representativo do idioma ou possua metodologia científica. A linguística de corpus há muito faz buscas mais complexas que as disponíveis na internet - por classes gramaticais, gêneros, falantes da língua etc. - em certos corpora [plural decorpus, "amostragem"]. 
- O corpus do Google é a totalidade de arquivos de computador que a empresa copiou da web e gravou em seus computadores. É uma "caixa preta" guardada na vasta rede da empresa - afirma Tony Berber Sardinha, professor de linguística da Pontifícia Universidade Católica de São Paulo (PUC-SP).
Segundo o professor, o corpus do Google é pouco representativo da conversação coloquial porque há poucas conversas transcritas disponíveis na internet. Por outro lado, o mecanismo representa melhor gêneros como blogs, por exemplo, que são "nativos" da grande rede mundial de computadores.
Abrangência
Só no Brasil são 40 milhões de internautas em atividade, segundo o Ibope/NetRatings. De um total de 6 bilhões de habitantes no planeta, "só" 1 bilhão acessa a internet, de modo que a adesão crescente de pessoas à rede resulta na incorporação de cada vez mais interesses e assuntos a esse "vocabulário" global. Os conteúdos não param de crescer. Segundo estatísticas do Google, de cada busca efetuada no mecanismo, 20% dos conteúdos apresentados são novos, não haviam aparecido na pesquisa anterior.
Já o projeto de digitalização de bibliotecas do planeta, pelo Google Livros, está a todo vapor, com novo fôlego depois de fechar acordo com representantes dos direitos autorais americanos. Acresça a esse banco de dados o crescente acervo do Google Acadêmico - ainda incipiente, com teses e dissertações acadêmicas - para concluir que em poucos anos essa base de dados será assustadoramente maior.
- O ideal seria ter um corpus tão vasto quanto o do Google, disponível para o grande público por meio de uma interface simples e rápida, mas que permitisse buscas mais detalhadas e trouxesse resultados mais confiáveis, coisas que o Google não permite. Mas esse mundo dos sonhos de internautas, professores e pesquisadores está cada vez mais perto - afirma o professor Berber, referindo-se ao Corpus Brasileiro, um projeto liderado por ele e financiado pela Fapesp, sediado na PUC-SP.
Trata-se de um corpus gigantesco do português brasileiro, com 1 bilhão de palavras, que estará disponível de graça na web a partir de 2010 e permitirá buscas rápidas e confiáveis, não só por palavras, como por expressões e classes gramaticais.
Se para a ciência as ferramentas do Google ainda se restringem ao campo da experimentação, a empresa vem se dedicando ao aperfeiçoamento de projetos já existentes, que aos poucos vão sendo lançados em outros idiomas, como o português.
- A língua portuguesa está na lista de prioridades do Google. Nossos produtos serão lançados no idioma em tempo real com outros países, já que o português é uma das principais línguas da internet hoje - afirma Ximenes.
Se, como quer o crítico Andrew Keen, o Google nos diz coisas que já sabemos, esse "nós" implica muita gente. Contribuir para um imenso banco de dados e utilizá-lo eticamente são os novos desafios que a era tecnológica nos impõe. Cabe aos internautas digerir as novidades e informações da rede mundial, policiando-se para não tirar conclusões precipitadas. Só o tempo, o grau de aprimoramento dessas ferramentas e o senso crítico do usuário poderão dizer o quanto podemos confiar nelas. Até lá, o universo de possibilidades de aplicação para o mecanismo é grande para a pesquisa. A palavra, ao que tudo indica, continuará a ter um papel vital na internet.
A importância do corpus
Bancos de dados ganham impulso na era da internet
Com a ascensão dos mecanismos de busca, em particular do Google, a discussão sobre a representatividade do corpus (ou corpora) ganhou vigor. O termo corpus vem do latim e, segundo o dicionário Houaiss, quer dizer "coletânea ou conjunto de documentos sobre determinado tema".
Tony Berber Sardinha, professor de linguística da PUC-SP, emprega "corpora" como plural de "corpus", forma possível que derivou do uso do termo em inglês. Francisco Borba, dicionarista e professor da Unesp de Araraquara, afirma que a forma emprestada do inglês não está errada, mas que a rigor termos tomados de outras línguas devem obedecer à morfologia da língua de chegada, neste caso o português. Assim, o plural de corpus seria corpus, tal qual ocorre com "lápis", também de origem latina. De acordo com Borba, ao se apropriar de uma palavra, o inglês obedece à morfologia da língua de partida, ao contrário do português, que obedece às próprias regras.
Sobre a "tradução" de corpus, a expressão "banco de dados" seria um bom equivalente, não fosse estar comprometida com a área de informática. "Amostragem", no caso, seria a mais justa.
Borba é responsável pelo Corpus de Araraquara, criado há mais de 21 anos com a finalidade de compor dicionários e gramáticas. Esse corpus possui 220 milhões de ocorrências de palavras, todas do português escrito no Brasil (desde 1500), incluindo os gêneros, entre eles prosa, poesia etc. Segundo o professor de Araraquara, esse material não está disponível on-line por algumas razões, entre elas por ser específico demais, voltado apenas a acadêmicos. Mas a razão principal é de ordem jurídica, ligada aos direitos autorais dos textos citados.

Além do Corpus de Araraquara e do Corpus Brasileiro, da PUC, outro importante é o da Universidade de Lisboa, chamado Corpus de Referência do Português Contemporâneo (CRPC), que atualmente conta com 334 milhões de palavras.

Por dentro do Google Insight for Search
Como funciona o mecanismo que pesquisa as buscas mais realizadas na internet
Insight for Search, o "Google dos Googles", fornece relatórios sobre a incidência de palavras e expressões mais buscadas. Ao digitar "acarajé", por exemplo, sabemos quanto foi pesquisado desde 2004. É possível detectar as palavras que geralmente acompanham um termo no momento da pesquisa. Um mapa aponta cidades e estados em que um termo é mais procurado. E uma lista traz buscas relacionadas que mais cresceram (em %). Os números não são absolutos, mas baseados em médias, o que pode mascarar resultados, sobretudo em estados menos populosos, como o Acre. 





Fonte:revistalingua.uol.com.br

Seja o primeiro a comentar

Postar um comentário

Related Posts Plugin for WordPress, Blogger...
Troca de Links - Parceiros RSS Search Site no Esquillo Directorio Twingly BlogRank Teaching Blog Directory GoLedy.com Divulgue seu blog! Blogalaxia BRDTracker Directory of Education/Research Blogs Top Academics blogs Education and Training Blogs - BlogCatalog Blog Directory blog directory Blog Search: The Source for Blogs Submit Your Site To The Web's Top 50 Search Engines for Free! Sonic Run: Internet Search Engine Estou no Blog.com.pt
http://rpc.twingly.com/

  ©Trabalhos Feitos / Trabalhos Prontos - Todos os direitos reservados.

Template by Dicas Blogger | Topo