Text Dosyaları İçin Encoding Sorunu

Bildiğiniz üzere alfabemizdeki bazı karakterler kodlama sorunlarına yol açabiliyor. Bu sorun latex, altyazı vb dosyalarda sıkça karşımıza çıkar. Karakterleri tek tek değiştirmek oldukça zordur.  Peki kaydetmiş olduğumuz bir dosyadaki karakter sorununu nasıl halledebiliriz?

Önbilgi: Türkçe karakterler için utf-8, iso-8859-9 veya windows-1254 en ideal karakter kümeleridir ve çok tercih edilirler.

İşlemleri yine herhangi bir linux sürümünde gerçekleştireceğiz. Ben Ubuntu 14.04 kullanacağım.

Konsol ekranı üzerinden bu komutu çalıştırıyoruz.

file -bi dosya.txt

Komut size çıktı olarak charset hakkında bilgi verecektir. Şayet charset=unknown-8bit gibi bir bilgi veriyorsa işimiz biraz deneme yanılmaya kalacak demektir.

iconv -f windows-1254 -t utf-8 dosya.txt

-f : kodlamanın önceki değeri (önceki komuttaki charset bilgisi olmalı bu. unknown-8bit veriyorsa da windows-1254 olarak ayarlamanızı önerebilirim.)

-t dönüştürülecek kodlama tipi. utf-8 neredeyse tüm sistemler tarafından tanınır. bu nedenle utf-8 yapmanızda yarar var.

Komutu çalıştırdığınızda size ekran çıktısı verecektir. Ekran çıktısı doğru olarak oluşturulduysa yapmanız gereken bu bilgiyi bir dosyaya yazmak.

Kodu şu şekilde modifiye ediyoruz.

 iconv -f windows-1254 -t utf-8 dosya.txt > dosyaninyeniadi.txt

İşlem tamamdır 😉

Dipnot: Ben yılmam LaTEX 😛 Bu bildiri gidecek diyorsam gidecek!

Etiketler: , , , , , , ,
0 comments on “Text Dosyaları İçin Encoding Sorunu
1 Sinyaller/Geri izlemeler için "Text Dosyaları İçin Encoding Sorunu"
  1. […] önce şu yazıda durumu açıklamıştık. Pratik olması açısından kodu bir de perl dilinde yazmaya […]

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*

This site uses Akismet to reduce spam. Learn how your comment data is processed.