Avatar billede aliaz Nybegynder
15. september 2012 - 15:17 Der er 8 kommentarer og
1 løsning

UTF8 vs. ISO

Hej eksperter (måske primært Daleif)

Jeg kan læse af tidligere tråde her på Eksperten at alle burde anvende UTF8 tegnsæt. Det understøttes yderligere af at TeXMaker per default er opsat til UTF8. Derfor overvejer jeg også kraftigt at anbefale dette, men kan ikke lige finde ud af hvor moden tiden er. "Alle  burde skifte" kan således både betyde, at hovedparten stadig benytter andre tegnsæt, men at UTF8 er et bedre valg, men også betyde at kun få mangler at følge trop. Hvor tæt er verden/Danmark på at blive enige om noget?

Mit eksisterende kursusmateriale er skrevet med Windows' ISO-8859-1 tegnsæt. Tvinger jeg en fortolkning (beklager hvis terminologien er skæv) med UTF8 i TM, forvandles alle æøå til sære tegn. Jeg kan sagtens ændre alle disse tegn tilbage til æøå, så de i stedet gemmes i UTF8 tegnsæt.

Min bekymring går så på hvad der sker, når folk kopierer tekststumper ind fra Word, Notepad, www, ældre TeX-dokumenter og lign. Vil de være "hard-coded" i ISO, så alle æøå ikke fortolkes korrekt?

Jeg håber det giver mening! På forhånd tak!
Avatar billede scootergrisen Nybegynder
15. september 2012 - 15:55 #1
Det er ikke uden problemer at skifte til UTF-8.

Kommer an på hvor meget du vil være med på det nyeste.

Jeg kan sige der er massere af ulemper ved at bruge UTF-8 sammen med PHP fordi mange af de indbyggede funktioner ikke forstår multibyte kode. De opfatter 1 byte som 1 tegn og det er det også i ISO-8859-1 men i UTF-8 der er æøå osv 2 tegn også går det galt med de indbyggede funktioner i PHP, der findes så erstatningsfunktion til meget af det men ikke det hele.

Hvis du har en ISO-8859-1 åben i dit tekst program så burde det være let at konvert det. Nu bruger jeg ikke det program. Jeg bruger Notepad++ og der kan man bare gå op i en menu og konverter.
Du skal altså konverter, ikke tvinge til en anden fortolkning.

Der skulle ikke være nogen problemer med at kopier tekst bare du selv har gjort det rigtig til at starte med.
Men jeg også sagtens have nogen som fil ISO-8859-1 og andre som UTF-8 det op til dig hvor meget du vil konverter.
Avatar billede Slettet bruger
15. september 2012 - 18:08 #2
TeXMaker kan ikke skifte en encoding, den er god til at detektere og skifte lige nu, men man kan ikke bede den om at skifte encoding fra latin1 til utf8 på en given fil.

Dette skulle TMs onde fætter TeXStudio dog kunne.

Generelt vil jeg sige at vi anbefaler utf8 fordi de fleste editorer nu bruger dette som standard. Så er det langt nemmere at bede folk om at sætte en option til en pakke end at skulle forklare dem hvordan man ændre opsætning i en editor.

Kopiering fra andre programmer synes jeg ikke er det helt store problem, som oftest indsættes dette korrekt.

Det største problem er netop eksisterende dokumenter og så editorer som ikke selv kan identificere encoding, så får folk problemer.

Har man filer skrevet i latin som man ikke har tænkt sig at udveksle med andre, så kan man jo sagtens blive ved med at bruge latin1. Jeg bruger latin1 som standard på mit arbejde. Eksemplerne i  min bog er skrevet i latin1 (det skal jeg have kigget på).

Man skal bare huske på at fremtiden i LaTeX hedder utf8. Afløseren til pdftex vil kun acceptere utf8. Så vidt jeg husker er biber mest glad for utf8.

En LaTeX ting som ikke er glad for utf8 er listings, så generelt bør man anbefale studerende at dokumentere deres programmer på engelsk.

Hvad er det for noget kursusmateriale du taler om?
Avatar billede aliaz Nybegynder
16. september 2012 - 13:13 #3
Tak for Jeres svar!

@Scootergrisen: Jeg kommer ikke til at inddrage PHP, så det bliver ikke noget problem. Der bliver heller ikke tale om at konvertere - i hvert fald ikke for kursisterne. De er nybegyndere i LaTeX og jo mindre de kender til tegnsæt i første omgang, jo bedre er det, tror jeg.

@Daleif: Jeg ved ikke om vi snakker om det samme. Jeg har nogle "gamle" dokumenter (skrevet i latin1 i TeXnicCenter). Når jeg åbner dem i TeXMaker, detekterer den korrekt, at det er ISO og foreslår jeg benytter denne encoding. Overruler jeg dette og beder om UTF8, ændres alle æøå i dokumentet til ubrugelige tegn. Dokumentet er fra dette tidspunkt "ødelagt".

Kursusmaterialet er til et kursus i LaTeX jeg afholder hvert år. Insisterer jeg nu på at encode med UTF8 i alle dokumenter, kunne jeg hurtigt lige ændre de ubrugelige tegn tilbage til æøå, men det oprindelige spørgsmål gik på, om det ville være fordelagtigt. Kursisterne er absolut nybegyndere, så jeg vil helst ikke drage dem ind i ISO/UTF8 verdenen. Samtidig ønsker jeg dog ikke encoding-konflikter, hvis de nu kopierer tekststumper fra nettet, Word, PDF, whatever.

Den "eneste" måde de kunne få problemer på, er hvis de støver gamle .tex-filer op fra tidligere år med latin1 encoding.

Ellers er jeg helt enig. Håbet er jo, at jeg blot kan ændre til \usepackage[utf8]{inputenc} og slippe for at tage snakken om skift af encoding i editoren samt at det hele bare kører på skinner.
Avatar billede Slettet bruger
16. september 2012 - 13:26 #4
Hvis du holder LaTeX foredrag, så vil vi i DK-TUG lige vil have kontakt til dig, send venligst en mail til os (se tug.dk). Vi er meget interesserede i hvad de bliver gjort rundt omkring, og især hvad der bliver anbefalet til nye brugere. (jeg ved at vi på Fysik hos AU har skabeloner i omløb som bestemt ikke er god LaTeX, dem er vi ved at få manet i jorden).

Vedr. æøå som er ødelagt, så er det netop det jeg skrev. TM kan IKKE konvertere korrekt. Man konverterer IKKE ved at man beder den om at åbne en fil i en anden encoding. Filen skal åbnes i den rette encoding, og så gemmes i den nye encoding. Så vidt jeg kan se kan TeXStudio, og Emacs (som jeg selv anvender) er ret god til det. Men man skal passe meget på med den slags, husk at have backups.

Jeg vil sige at hvis det er nybegyndere, så vil du gøre dem en bjørnetjeneste at tvinge dem ind i en latin1 verden. Lær dem at bruge utf8. Jeg ved ikke hvad der sker når man kopierer fra et program til et andet. Det kommer vil også an på styresystemet.

Husk at moderne styresystemer i dag som standard anvender utf8. Det gælder så vidt jeg ved også Windows.

Jeg vil sig at får de problemer med encodings, så kan man tage snakken der. Men til et introforedrag er det nok bedst bare at nævne at utf8 er godt, brug det.

Umiddelbart burde det jo være meget lidt du skal rette i dit materiale. Tilhørerne behøver jo ikke vide at dit materiale er skrevet i latin1.
Avatar billede aliaz Nybegynder
16. september 2012 - 13:46 #5
Tak endnu engang for dine input - det har overbevist mig om at lære de nye om UTF8. Så må de kæfte op og blive introduceret, hvis problemerne opstår.

Lige for at være sikker. Når jeg skal "konvertere" gamle latin1 dokumenter (det bliver så manuelt, da TM ikke kan), er det så fint at tvinge en åbning i UTF8 encoding, ændre de ubrugelige tegn tilbage til æøå og så gemme (så dokumentet nu er UTF8)? Eller skal jeg, som du skriver, åbne i korrekt encoding og lave en slags "gem som" til UTF8? Og det kan TM ikke?

Ang. TUG vil jeg rigtig gerne kontakte Jer og modtage konstruktiv kritik (slagtning og latterliggørelse frabedes). Skal jeg bare skrive til bestyrelse@tug.dk eller nogen specifikt?
Avatar billede Slettet bruger
16. september 2012 - 14:05 #6
Du kan bare skrive til formanden (det er mig). Bemærk at vi altså også selv har folk som kan komme ud og holde foredrag hvis man er interesseret i at lægge lokaler til.

Jeg vil anbefale dig at prøve at installere TeXStudio, og så åbne en kopi af en latin1-fil i den, den detekterer at det er latin1 (iso-8859-1) og man kan åbne den i latin1.

I en af menuerne skulle man så lige kunne vælge den encoding som filen skal gemmes i. Prøv dette først, så er man fri for en masse søg og erstat. Ellers kan jeg oversætte den ret nemt med Emacs.
Avatar billede Slettet bruger
16. september 2012 - 15:06 #7
Kom lige i tanke om at man nok ikke får så meget ud af at skrive til bestyrelseslisten da den er lukket ned, og afsendere den ikke kender antages at være spam.
Avatar billede aliaz Nybegynder
16. september 2012 - 15:19 #8
Tusind tak for hjælpen, Daleif! Smid et svar for point.

Konverteringen til UTF8 lykkedes perfekt med TeXStudio! Til andre interesserede gøres det under Edit -> Setup Encoding.

Jeg skriver til formanden (formoder stadig den virker) engang, når jeg har pudset materialet af.
Avatar billede Slettet bruger
16. september 2012 - 15:25 #9
Svar
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester