Projekt Folketællinger/ konvertering fra DDD

Fra DS-Wiki
Version fra 18. maj 2012, 12:13 af Poul Wachmann (diskussion | bidrag) Poul Wachmann (diskussion | bidrag) (Oprettet, ej redigeret)
(forskel) ←Ældre version | Nuværende version (forskel) | Nyere version → (forskel)
Spring til navigation Spring til søgning

De allerede indtastede folketællinger kopieres fra Dansk Data Arkivs DVD, DDD11 med senere rettelser. Rettelserne er tilgængelige på http://ddd.dda.dk/opdateringer/ddd11erstatninger.zip. Før data kan lægges ind på Kildeportalen er det nødvendigt at tilpasse filerne. Tilpasningerne foretages i et regneark. Ved udarbejdelsen af denne vejledning har jeg benyttet 2 gratis programmer: Regneark: Open Office Calc Browser: Google Chrome De måske mere almindelige programmer som MS Internet Explorer© og MS Office (Excel)© kan formodentlig også benyttes, men de er ikke testet.

Konvertering af datafil

DDD11 er p.t. udsolgt fra DDA. Såfremt du ikke har DDD11, kan vi maile relevante filer til dig. En ny og opdateret DVD påregnes udgivet sidst på efteråret 2012. Når den bliver udgivet, vil vi anvende den nye DVD i stedet for DDD11. Åbn filen fra DDD11 i Calc og gem regnearket som en .ods fil. Arket omdøbes til kp_censusdata. Feltoverskrifterne erstattes med de tilsvarende feltnavne til Kildeportalens database. Det nemmeste er at kopiere dem fra en allerede konverteret fil for at undgå trykfejl i feltnavnene. Udfyld de ny felter: Første medlem af familien Billed-ID Personens nummer på siden Sognets ID Herredets ID Amtets ID Folketællingens ID Indtasterens ID Normaliser følgende felter Køn Civilstand Fødselsdato Gem filen og send den til admin for Kildeportalen.

Kvalitetssikring

De nye felter, som er indsat i regnearket, styrer hvordan billeder og data er parret på Kildeportalen. Det er derfor vigtigt, at de indtastede værdier er korrekte. En senere fejlretning er både besværlig og tidsrøvende. En hurtig og enkel kontrol af de indtastede data kan udføres med funktionen Autofilter i Calc: Marker et felt i titellinien i række 1 Vælg Data ? Filter ? Autofilter Ved feltnavnene vises et rullefelt. Åbnes rullefeltet vises indholdet af alle felter sorteret, dog uden dubletter. Det er her overskueligt at checke både de nye og de normaliserede indtastninger.

Feltbeskrivelser

(A) KIP nummer

KIPnrcen_KIPnr. De indtastede data overføres uændret.

(B) Løbenummer

Løbenrcen_lbnr. De indtastede data overføres uændret.

(C) Kildestednavn

Kildestednavncen_kildestednavn. De indtastede data overføres uændret.

(D) Husstands-/ familienummer

Husstands/familienr.cen_husstand_famnr. De indtastede data overføres uændret.

(E) Matrikelnummer/ adresse

Matr.nr./Adressecen_matnr_adr. De indtastede data overføres uændret.

(F) Kildenavn

Kildenavncen_kildenavn. De indtastede data overføres uændret.

(G) Køn

Køn ⇒ cen_sex.
Normalisering (tilladte værdier)
M (mandkøn)
K (kvindekøn)
”” (tomt felt)

(H) Alder

Alder cen_alder

I: Civilstand KIP data Kildeportalen

Civilstand cen_civilstand


Normalisering: G (gift) (tilladte værdier) U (ugift) E (enke eller enkemand) S (separeret) F (fraskilt) ”” (tomt felt)

Formel til konvertering: =HVIS(ELLER(I2="Enkemand";I2="Enke");"E";HVIS(I2="Gift";"G";HVIS(I2="Ugift";"U";HVIS(I2="Separeret";"S";HVIS(I2="Fraskilt";"F";"")))))

J: Nummer ægteskab KIP data Kildeportalen

Nr. ægteskab cen_num_mar

K: Kildeerhverv KIP data Kildeportalen

Kildeerhverv cen_kildeerhverv

L: Kommentar KIP data Kildeportalen

Kommentar cen_kommentar

M: Stilling i husstanden KIP data Kildeportalen

Stilling_i_husstanden cen_stilling_i_hus

N: Antal familier i husstanden KIP data Kildeportalen

Antal familier/hus cen_antal_fam

O: Fødested KIP data Kildeportalen

Kildefødested cen_birthplace

P: Trossamfund KIP data Kildeportalen

Trossamfund cen_trossamfund

Q: Handicap KIP data Kildeportalen

Handicaps cen_handicaps

R: Midlertidigt opholdssted KIP data Kildeportalen

Midlertidig opholdssted cen_midlertidigt_opholdssted

S: Hvornår flyttet til kommunen KIP data Kildeportalen

Flyttet til kommunen cen_flyttet_til_kommune

T: Hvornår gift KIP data Kildeportalen

Hvornår gift cen_gift_dato

U: Antal levende børn KIP data Kildeportalen

Antal levende børn cen_levende_child

V: Antal døde børn KIP data Kildeportalen

Antal døde børn cen_dead_child

W: Boligtælling KIP data Kildeportalen

Boligtælling cen_homecount

X: Erhvervssted KIP data Kildeportalen

Erhvervssted cen_erhvervssted

Y: Fødselsdato KIP data Kildeportalen

Født kildedato cen_borne_date


Normalisering: YYYY-MM-DD Ufuldstændige datoer erstattes af 0000-00-00. I FT er fødselsdatoen indtastet i forskellige formater. Konvertering til MySQL formatet kan i nogle tilfælde klares med en formel. Det er hensigtsmæssigt at konvertere datoerne til en ny søjle og efterfølgende at slette søjlen med de oprindelige datoer. Husk at fjerne formlerne før den oprindelige søjle slettes. Her er et par typiske eksempler: 1. Fast 2 cifre i dag og måned, f.eks. 01-04-1844: =SAMMENKÆDNING(HØJRE(P2;4);"-";MIDT(P2;4;2);"-";VENSTRE(P2;2)) Eller på engelsk: =CONCATENATE(RIGHT(P2;4);"-";MID(P2;4;2);"-";LEFT(P2;2))

2. 1 og 2 cifre i dag og måned med bindestreg, f.eks. 1-4-1844: =HØJRE(Y2;4)&"-"&HVIS((SØG("-";Y2)-SØG("-";Y2;4))=-3;MIDT(Y2;FIND("-";Y2)+1;2);"0" &MIDT(Y2;FIND("-";Y2)+1;1))&"-"&HVIS(SØG("-";Y2)=3;VENSTRE(Y2;2);"0"&VENSTRE(Y2;1)) Eller på engelsk: =RIGHT(Y2;4)&"-"&IF((FIND("-";Y2)-FIND("-";Y2;4))=3;MID(Y2;FIND("-";Y2)+1;2);"0" &MID(Y2;FIND("-";Y2)+1;1))&"-"&IF(FIND("-";Y2)=3;LEFT(Y2;2);"0"&LEFT(Y2;1)) 3. 1 og 2 cifre i dag og måned med punktummer, f.eks.1.4.1844: =HØJRE(Y2;4)&"-"&HVIS((SØG(".";Y2)-SØG(".";Y2;4))=-3;MIDT(Y2;FIND(".";Y2)+1;2);"0" &MIDT(Y2;FIND(".";Y2)+1;1))&"-"&HVIS(SØG(".";Y2)=3;VENSTRE(Y2;2);"0"&VENSTRE(Y2;1)) Eller på engelsk: =RIGHT(Y2;4)&"-"&IF((FIND(".";Y2)-FIND(".";Y2;4))=3;MID(Y2;FIND(".";Y2)+1;2);"0"& MID(Y2;FIND(".";Y2)+1;1))&"-"&IF(FIND(".";Y2)=3;LEFT(Y2;2);"0"&LEFT(Y2;1)) Andre datoformater kan eventuelt konverteres ved at udskifte ”-” eller ”.” med ”/” og ” ” (mellemrum) i ovennævnte formler. Formlen i pkt. 2 kan også benyttes i stedet for den simplere formel under pkt. 1. Z: Fødselsår KIP data Kildeportalen

Fødeår cen_born_year

AA: Sidste bopæl eller opholdssted KIP data Kildeportalen

Sidste bopæl/oph.sted cen_last_living


AB: Hvornår er ægtefælle er død KIP data Kildeportalen

Hvornår æf. død cen_when_dead


AC: Midlertidigt nærværende KIP data Kildeportalen

Midlertidigt nærværende cen_tmp_present


AD: Erhvervskommune KIP data Kildeportalen

Erhvervskommune cen_erhvervskommune

AE: Transportmiddel KIP data Kildeportalen

Transportmiddel cen_transportmiddel

AF: Adresse KIP data Kildeportalen

Adresse cen_adresse

AG: Matrikel KIP data Kildeportalen

Matrikel cen_martrikkel

AH: Indkomst KIP data Kildeportalen

Indkomst cen_indkomst

AI: Formue KIP data Kildeportalen

Formue cen_formue

AJ: Statsskat KIP data Kildeportalen

Statsskat cen_statsskat

AK: Kommuneskat KIP data Kildeportalen

Kommuneskat cen_kommuneskat

AL: Statsborger KIP data Kildeportalen

Statsborgerforhold cen_statsborgerskab

AM: Bopæl 1924 KIP data Kildeportalen

Bopæl_1924 cen_living_1924

AN: Gadenummer KIP data Kildeportalen

Gade nr. cen_gade_nr

AO: Etage KIP data Kildeportalen

Etage cen_etage

AP: Forhus eller baghus KIP data Kildeportalen

Forhus/Baghus cen_forhus_baghus

AQ: Skemanummer KIP data Kildeportalen

Skemanr cen_skemaer

AR: Skemaets løbenummer KIP data Kildeportalen

Skema lbnr. cen_skemalbnr

AS: År for folketælling KIP data Kildeportalen

FTår cen_FT_year

AT: Kildehenvisning KIP data Kildeportalen

Kildehenvisning cen_kildehenvisning



AU: Kildekommentar KIP data Kildeportalen

Kildekommentar cen_kildekom

AV: Første medlem af familien KIP data Kildeportalen

- cen_first_in_fam


Normalisering: 1 (første medlem) (tilladte værdier) 0 (øvrige medlemmer) AW: Billed-ID KIP data Kildeportalen

- cen_pic_id


Værdien til cen_pic_id findes i venstre side under billedet af det aktuelle opslag i folketællingen. Eksempel:

Opslaget i denne folketælling har billed-ID 31991.

AX: Personens nummer på siden KIP data Kildeportalen

- cen_number_on_page


Nummereringen startesmed 1 øverst på hver side i folketællingen og er fortløbende til sidste person på siden. Nummereringen benyttes til at bestemme rækkefølgen af de indtastede poster i skemaet under billedet på Kildeportalen. AY: Sognets ID KIP data Kildeportalen

- cen_sogn_id


Værdien af cen_sogn_id findes i URL til den aktuelle folketælling. Eksempel: Sognets ID er her 65 (Veksø)


AZ: Herredets ID KIP data Kildeportalen

- cen_herred_id


Værdien af cen_herred _id findes i URL til den aktuelle folketælling. Eksempel: Herredets ID er her 69 (Ølstykke Herred) BA: Amtets ID KIP data Kildeportalen

- cen_amt_id


Værdien af cen_amt_id findes i URL til den aktuelle folketælling. Eksempel: ID er her 5 (Frederiksborg Amt) BB: Folketællingens ID KIP data Kildeportalen

- cen_ft_id


Værdien af cen_ft_id findes i URL til den aktuelle folketælling. Eksempel: ID er her 350 (FT-1901, Veksø Sogn) BC: Indtasterens ID KIP data Kildeportalen

- cen_indtaster


Værdien af cen_indtaster sættes til 5 (Dansk Demografisk Database).