Text Dosyaları İçin Encoding Sorunu

Bildiğiniz üzere alfabemizdeki bazı karakterler kodlama sorunlarına yol açabiliyor. Bu sorun latex, altyazı vb dosyalarda sıkça karşımıza çıkar. Karakterleri tek tek değiştirmek oldukça zordur.  Peki kaydetmiş olduğumuz bir dosyadaki karakter sorununu nasıl halledebiliriz?

Önbilgi: Türkçe karakterler için utf-8, iso-8859-9 veya windows-1254 en ideal karakter kümeleridir ve çok tercih edilirler.

İşlemleri yine herhangi bir linux sürümünde gerçekleştireceğiz. Ben Ubuntu 14.04 kullanacağım.

Konsol ekranı üzerinden bu komutu çalıştırıyoruz.

file -bi dosya.txt

Komut size çıktı olarak charset hakkında bilgi verecektir. Şayet charset=unknown-8bit gibi bir bilgi veriyorsa işimiz biraz deneme yanılmaya kalacak demektir.

iconv -f windows-1254 -t utf-8 dosya.txt

-f : kodlamanın önceki değeri (önceki komuttaki charset bilgisi olmalı bu. unknown-8bit veriyorsa da windows-1254 olarak ayarlamanızı önerebilirim.)

-t dönüştürülecek kodlama tipi. utf-8 neredeyse tüm sistemler tarafından tanınır. bu nedenle utf-8 yapmanızda yarar var.

Komutu çalıştırdığınızda size ekran çıktısı verecektir. Ekran çıktısı doğru olarak oluşturulduysa yapmanız gereken bu bilgiyi bir dosyaya yazmak.

Kodu şu şekilde modifiye ediyoruz.

 iconv -f windows-1254 -t utf-8 dosya.txt > dosyaninyeniadi.txt

İşlem tamamdır 😉

Dipnot: Ben yılmam LaTEX 😛 Bu bildiri gidecek diyorsam gidecek!

Share