Come rilevare automaticamente la codifica dei file di testo?
Ci sono molti file di testo semplice che sono stati codificati in charset diversi.
Voglio convertirli tutti in UTF-8, ma prima di eseguire iconv, ho bisogno di conoscere la sua codifica originale. La maggior parte dei browser ha un'opzione Auto Detect
nelle codifiche, tuttavia, non posso controllare quei file di testo uno per uno perché sono troppi.
Solo conoscendo la codifica originale, posso poi convertire i testi con iconv -f DETECTED_CHARSET -t utf-8
.
C'è qualche utility per rilevare la codifica dei file di testo semplice? NON deve essere perfetto al 100%, non mi importa se ci sono 100 file mal convertiti su 1.000.000 di file.