Primeiro dicionário da lingua portuguesa

28 04 2008

Após quatro meses sem escrever, sem idéias para novos tópicos. Cá estou. Com emprego e notebook novos e com uma palestra no FISL no currículo ; )

Feita a introdução, vamos ao que interessa:

A USP, mais especificamente o IEB (Instituto de Estudos Brasileiros) em conjunto ($$$) com a FAPESP digitalizaram o primeiro dicionário da língua portuguesa, datado de 1712 – 1728. Interessante não ? Mas o que diabos isso tem a ver com o meu blog ?? Bom, a principio nada, mas se você visitar o site vai ver que eles recomendam o uso do IE. Como não tenho IE por aqui, tentei outra solução: Fazer o download de todas as imagens.

Como agora estou trabalhando bastante com shell, foi com um script que resolvi o problema. Fiz um pequeno script que corre o número de páginas seqüencialmente incrementando as letras do alfabeto. Isso pra poder seguir a lógica de endereço das imagens

#!/bin/bash
#Uso: getit.sh <numero da pagina para iniciar o download
vetor=( A B C D E F G H I J K L M N O P Q R S T U V X Y Z )
j=0
i=$1
#Valor máximo de página é 7011
while [ "$i" !=  "8000" ]
  #for i in `seq $1 8000`
  do

  wget -c -t 999 -T 20 http://143.107.31.150/dicionario/bluteau/tabBluteau${vetor[$j]}/$i.jpg -O    ${vetor[$j]}_$i.jpg
  exit_val=$?
  if [ $exit_val != 0 ]
    then
      #Remove arquivo com erro, incrementa letra e decremente o numero da pagina
      rm ${vetor[$j]}_$i.jpg
      j=`echo "$j + 1" | bc`
      i=`echo "$i - 1" | bc`
  fi
  i=`echo "$i + 1" | bc`
  sleep 5
  #Tenta todas as letras novamente
  if [ "$j" == "26" ]
    then j=0
  fi
done

ps. Desculpem pela falta de endentação, mas o wordpress não reconheceu esse código como código fonte

Mas enfim, basta rodar esse script em sua maquina linux que depois de algum tempo (3.XXGb depois) você vai ter todas as imagens do primeiro dicionário da língua portuguesa na sua máquina. É bom ter guardado em algum canto, nem que seja por curiosidade ; )

Edit: Obrigado Gaucho pela dica do <pre></pre>