Notifikationer

Markér alle som læst Log ud

hclarsen Nybegynder

24. august 2009 - 20:38 Der er 12 kommentarer og
1 løsning

Characters og tilsvarende integer

Hej

Jeg har leget lidt med

printf("%c", 97);

Dette giver mig et 'a'. I min C-bog har jeg en oversigt, hvor der er en søjle kaldet "DEC" og en søjle med det tilsvarende character.

"DEC" løber fra 0..255, hvorfor jeg har forstået det således: En byte (forudsat denne er 8 bit) kan antage 256 mulige værdier, i.e. 0..255.

Mine spørgsmål er:

#1: Hvordan ved printf, at 97 svarer til 'a' og vice versa?
#2: Hvad kaldes tallet "97" i denne sammenhæng?
#3: Er det korrekt at sige, at byten har værdien "97"?
#4: Kaldes tegnene i søjlen for ASCII-værdier? Hvis nej, hvad kaldes de så for?

Tak på forhånd.

Synes godt om

dennismp Nybegynder

24. august 2009 - 21:24 #1

#1
Fordi man har defineret en standard, hvor det er vedtaget at 97 er a. Der findes andre standarder, hvor dette ikke er tilfældet. Standarden hedder ASCII i dette tilfælde.

#2
ASCII værdien

#3
Det kan du sagents sige. I princippet kan du også bruge en integer til at gemme ascii værdier i. Men det er jo klart overkill, når vi kun bruger værdierne 0..255 :)

#4
Du har karakterne og ASCII værdien der repræsenterer dem (i denne contekst).

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:05 #2

Ok, tak. Jeg stiller nogle opfølgende spørgsmål, og svarene kan du ligge i et "Svar", så du kan få point :-)

#5: Er de 256 karakterer de mulige tegn, der forefindes på en computer? I.e., samtlige tegn overhovedet er blandt de 256?

Tak, du er god.

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:05 #3

Hov, jeg mente "lægge", ikke "ligge".

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:23 #4

Iøvrigt:

#6: Jeg har defineret en integer i. Hvis jeg sætter i=35000, så klager min compiler ikke. Hvorfor?

Jeg bruger MS Visual C++.

Synes godt om

arne_v Ekspert

25. august 2009 - 03:22 #5

ASCII har kun tegn 0-127
ISO-8859-1 og de andre har kun tegn 0-255
Unicode har ca. 100000 tegn 0-100000

ASCII, ISO-8859-1 og de andre gemmer et tegn i en enkelt byte

Unicode gemmer tegn ifoelge en encoding

den mest brugte encoding er UTF-8, med den vil et tegn blive gemt som 1-3 tegn (eller er det 1-4 ?)

den naestmeste brugte encoding er UTF-16, hvor et tegn gemmes som 2 byte (bortset fra visse special tilfaelde hvor det er 4)

i C/C++ bruger man typerne:
char = 1 byte : ASCII, ISO-8859-1 og Unicode i UTF-8
wchar_t = 2 byte : Unicode i UTF-16

Synes godt om

hclarsen Nybegynder

25. august 2009 - 08:58 #6

Så svarene til spørgsmål 1-4 er korrekte?

Synes godt om

hclarsen Nybegynder

25. august 2009 - 09:11 #7

Ok, så de 0..255 tegn er ISO-8859-1. Men hedder de tilsvarende integers stadig ASCII-værdier for alle tegnene?

Synes godt om

hclarsen Nybegynder

25. august 2009 - 09:33 #8

Er en ASCII-fil en fil indeholdende de 0..127 tegn, eller må 128-255 også være med?

Synes godt om

dennismp Nybegynder

25. august 2009 - 10:21 #9

Helt god er jeg ikke :) Arne har ret.

#5: Er de 256 karakterer de mulige tegn, der forefindes på en computer? I.e., samtlige tegn overhovedet er blandt de 256?

Nej, der findes langt flere. Husk på, at der findes jo mange varianter af fx e: é, è, ë, ê. Og der er jo tonsvis af tegn. Og vi har jo også kinesisk, arabisk, russisk etc.

Her kommer en lang smøre, som er hvad jeg *tror* verdenen ser ud. Så husk på din dansklære og hvad han fortalte om kildekritik :)

Dengang hvor ASCII/ISO-8859-1/osv blev brugt, var i den tid hvor computerens resourcer var noget mere begrænset end i dag. Dengang brugte man bare et tegnsæt (fx 8859-1 i danmark) og da alle gøre det, var det ikke et problem. Og ISO-8859-1 kan jo netop repræsenteres i en byte, som du selv er inde på. Nemt.

Begrænsningerne blev mere og mere tydeligt efterhånden som computerne kom i netværk, herunder især internettet. Pludselig kunne man blive præsenteret for tekster skrevet på sprog der indeholder tegn, der ikke fandtes i ISO-8859-1. (Da ISO-8859-1s "byte" var brugt op, kunne man ikke bare definere flere karakter).. Så der er mange forskellige alternativer til ISO-8859-1. Fx er russere ikke så interesseret i æøå, så de har deres egen med de tegn de bruger.

Hvis du har set en tekst/webside hvor æøå ser underligt ud, er det ofte fordi at man ikke er enig om hvilken standard der bruges. Fx, afsenderen har sendt teksten i en standard, hvor læseren tror det er en anden. I de fleste browsere kan du i "View" menuen finde en "Encoding" hvor du selv kan tvinge din browser til at bruge en bestemt encoding.

Det kunne jo så være smart, nu hvor computerens resourcer ikke er nær så begrænset som i "gamle dage", at lave en standard der indeholder "alle" (næsten alle) tegn der findes: Unicode.

Som arne er inde på, så er 1 byte ikke altid et tegn når vi snakker unicode. Da vi jo gerne vil have mange flere tegn end 256 tegn, bliver vi nød til at bruge mere end en byte pr tegn. Vi kunne jo bare sige, at nu fylder alle tegn 2 bytes (eller 3.. eller 4). Men det vil jo betyde at hvis du læser en ISO-8859-1 fil som unicode, vil alt være volapyk. Og samme tekst vil fylde dobbelt så meget.

Det ville jo være smartere at genbruge ISO-8859-1 (så har vi jo allerede en hel del af de tegn der bruges i eksisterende tekster, hvilket gør det nemmere for folk at "opgrader" til Unicode hvis der bruges UTF-8) og så udvide denne til at kunne indeholde "alt det andet". Og det gør unicode.

UTF-8, UTF-16 .. osv, er forskellige måder at repræsentere unicode karakterne.

#6: Jeg har defineret en integer i. Hvis jeg sætter i=35000, så klager min compiler ikke. Hvorfor?

Der er ikke noget underligt i at have 35000 som heltal. Så den del er gyldig.

Compileren ser argumenterne til printf() som gyldige (første argument er en string, næste en integer). Den ved ikke noget om, hvad indeholdet af string'en er, eller at typen af argumentet efter format-string, skal passe sammen med %c. Argumenterne er gyldige (set fra compileren). At det så semantisk ikke giver mening, er et andet problem. c er jo ret relativt lavniveaussprog, så det er dit ansvar at bruge printf() korrekt, så det giver mening.

Håber du kan bruge det.

Synes godt om

hclarsen Nybegynder

25. august 2009 - 10:40 #10

Det hjalp meget. Det eneste jeg er i tvivl om er det sidste spørgsmål:

#7: Altså 0..127 er så ASCII-tegnene, og 128-255 er udvidelsen - samlet kaldes det for ISO-8859. For intervallet 128-255, hedder de tilsvarende integers stadig ASCII-værdier eller er det "ISO-8859"-værdier? Eller noget helt tredje?

#8: Angående det med i = 35000: Jeg tænker på, at integers løber fra -32000 til 32000 (cirka), så hvordan kan 35000 være gyldig?

Synes godt om

dennismp Nybegynder

25. august 2009 - 11:02 #11

#7
Jeg tror at de fleste kalder det for ASCII tegn (selvom det er forkert). Men ellers er det vel bare (ISO-8859..)-tegn.

#8
Så vidt jeg husker, så definere C kun hvad en integer minimum skal være, ikke hvad den maks må være. Så en int kan på en platform indeholde flere værdier end en int på en anden platform.

Men en 32bit heltal kan indeholde værdier: -2.147.483.648 til 2.147.483.647.

En 16bit heltal ligger derimod i intervallet −32.768 - 32.767

I stdlib.h er der defineret typer som int16_t, int32_t, uint16_t olign. Samt INT16_MIN, INT32_MIN, INT16_MAX .. som indeholder minimum og maximum værdier du kan gemme i de forskellige typer.

Jeg vil tro at din integer er større end du tror :)

Synes godt om

hclarsen Nybegynder

25. august 2009 - 11:08 #12

Aha, ok. Tak.

Jeg tænkte, at arne burde lægge et svar også. Så deler jeg pointene.

Synes godt om

arne_v Ekspert

26. august 2009 - 00:21 #13

Hvis vi ser bort fra EBCDIC (gammel IBM tegnsaet til mainframe), saa bruger man samme betydning af tegn 0-127 (ASCII, ISO-8859-x, Unicode etc.).

Tegnene 128-255 findes ikke i ASCII men findes i ISO-8859-x og Unicode. Det er imidlertid vaerd at bemaerke at de har forskellig betydning i ISO-8859-1 (vesteuropaeisk) og ISO-8859-2 (oesteuropaeisk) og de andre.

ISO-8859-1 specielt i dens Windows faetter kaldet CodePage 1252 er stadig ret udbredte omend trenden absolut gaar mod Unicode med UTF-8 som encoding.

Hvis du vil se hvor stor din int er saa udskriv:

sizeof(int)

Hvis vi antager 8 bit bytes (hvilket ikke er givet i C standarden men som de facto er universel idag) og 2's complement for negative tal (ditto), saa vil range af int vaere -2^(8*n-1) ... 2^n(8*n-1)-1

Og jeg skal ikke have point her.

Dennis har svaret paa spoergsmaalene - jeg har bare suppleret.

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra C/C++ kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Delphi og API (woocommerce) Af juzas i C/C++	1	24/03/202221:15	25/03/202201:34
Erfaring med Cee Studio Compiler Af Marting i C/C++	43	24/01/202110:34	06/02/202121:51
omskrive linux CLI-cmd til brug i windows med en i686-w64-mingw32 Af prox1 i C/C++	8	04/05/202014:59	18/09/202016:35
Fordel ved Polymorphism Af prox1 i C/C++	8	29/03/202014:57	29/03/202018:07
Er 16 bit af CRC-32 lige så godt som CRC-16 Af Simon i C/C++	1	19/03/202009:18	19/03/202018:40

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS

17/10

Test: Lækker lyd med Sennheiser RS 195 - men et par alvorlige mangler trækker ned i vores karakter

17/10

10 vigtige punkter om it-sikkerhed fra Microsoft - har gennemgået hele markedet med en tættekam

17/10

Nørgaard: Taknemmelighed, venlighed og optimisme

17/10

Jobmulighederne for nyuddannede it-folk skrumper ind: AI overtager vigtige opgaver

17/10

Nomineret til Årets CISO 2025: Han står bag DR’s nødplan under kriser og cyberangreb

17/10

Google er klar med løsninger specifikt til Microsofts kunder: "Bryd fri af Microsoft 365’s bindinger, sårbarheder og nedbrud"

17/10

I 45 år har Steen, Kenn og Kenneth holdt liv i deres mainframe: Nu går de alle på pension, og mainframen lukker

17/10

Find dit nye job i efterårsferien - her er 12 friske it-stillinger, som du kan søge netop nu

17/10

Stranger Things nærmer sig sin afslutning: Den sidste kamp om Hawkins slutter med et brag

17/10

Her vil Aarhus Kommune begynde: Disse tre centrale initiativer skal sparke gang i stor frigørelse fra Microsoft

17/10

Windows 10’s død skaber stor fremgang i pc-salget: Her er de mest dominerende spillere på pc-markedet

Vis flere artikler

IT-JOB

Banedanmark

IT-infrastruktur specialist til drift, test og udviklingsmiljøer

Forsvarsministeriets Materiel- og Indkøbsstyrelse

Cyberdivisionen søger IT-Supporter til Lokal IT Servicecenter

Netcompany A/S

IT Manager

Spillehallen.dk ApS

Experienced System Administrator (Hybrid Infra + Azure + DevOps mindset)

Region Midtjylland

Ledelseskonsulent til Sekretariat og Porteføljestyring

Vis flere jobs

Seneste spørgsmål Seneste aktivitet

18/1020:59	Gentagen fejlmeddelelse. Af aj9430dk i Windows
18/1018:00	Min HP MFP176 falder hle tiden af lan-netværket. Kan det sparkes i gang? Af andershl i Printere
18/1016:26	Fejlmelding på 64 GB Philips USB-drev Af hudsonium i PC
16/1010:01	W11 opdatering stopper Af barth i Windows
15/1019:59	TOMTOM GO Af nu_igen i Andet hardware

White papers

Få automatisk styr på alle virksomhedens persondata
ComArchive
Revolutionér kundeoplevelsen med AI og automatisering
Sabio
Sådan får du succes med AI i hele organisationen
Salesforce
Er I klar til at tage næste skridt på den digitale retailrejse?
TDC Erhverv

Flere white papers »