NorFa

En automatisk navnegjenkjenner for

norsk, svensk og dansk

(Innsatsområde 2)

0. Innledning

1. Mål: en automatisk navnegjenkjenner for norsk, svensk og dansk

2. Forskningen og forskerutdanningens status på dette området i Norden

3. Motivering for nordisk samarbeid

3.1 Gjensidig nytte i arbeidet med utviklingen av systemet

3.2 Språkteknologisk nytteverdi ved en navnegjenkjenner

3.2.1 Informasjonsgjenfinning

3.2.2 Automatisk oversettelse

3.3 Språkvitenskapelig verdi

3.3.1 Komparativ forskning

3.3.2 Ny kunnskap om navns syntaktiske kontekst

4. Plan for samarbeidsaktiviteter

5. Forskerstudenter, mål som skal oppfylles og fortsettelsen videre

6. Bakgrunnsmateriale

7. Metode

8. Litteraturreferanser

0 Innledning

Prosjektet har to siktemål som henger nøye sammen. Det ene er å bygge nettverk mellom fire forsknings- og utviklingsmiljøer ved UiO, UiB, GU og CST. Det andre er praktisk: å utvikle en automatisk navnegjenkjenner for norsk, svensk og dansk. (En automatisk navnegjenkjenner er et program som klarer å skille typer navn, som firmanavn, steds - og personnavn, fra hverandre). Vi tror det faktum at vi samarbeider om et felles, praktisk mål, vil ha positive konsekvenser for samarbeidet og nettverksbyggingen.

Prosjektet faller inn under innsatsområde 2:Tværsproglig informationsbehandling på de nordiske sprog: De tre deltagerspråkene har ulike navnetradisjoner, og samme navn kan gjerne være personnavn i ett land og steds- eller firmanavn i et annet. I et søkesystem er det viktig at det gis en mulighet til å søke etter navn innenfor de enkelte språkene, og at systemene som kjenner igjen ulike navnetyper, er utviklet på et språkspesifikt grunnlag. Uten en slik “intelligent” navnemodul vil ethvert informasjonsbehandlingssystem være mangelfullt. Prosjektet kan forøvrig også passe inn i prosjektet Interaktion på naturligt sprog mellem menneske og computer fordi det er viktig for ethvert interaksjonssystem at det er såpass intelligent at det gir mening å føre en dialog med det. Dersom systemet for eksempel får et spørsmål av typen “Gi meg informasjon om hva som skjer i Vangsnes”, bør svaret utelate informasjon om personer med navnet Vangsnes, men inkludere informasjon om fergestedet.

1 Mål: en automatisk navnegjenkjenner for norsk, svensk og dansk

Vi ønsker å utvikle en automatisk navneentitetsgjenkjenner (for enkelhets skyld også kalt navnegjenkjenner) for norsk (bokmål og nynorsk), svensk og dansk. Mens en vanlig grammatisk tagger vanligvis vil kjenne igjen et ord som egennavn, er det en helt annen sak å kjenne igjen hva slags type egennavn det er snakk om i de enkelte tilfellene. Navnegjenkjenneren skal kunne ta en hvilken som helst ukjent tekst og bestemme for hvert egennavn hva slags navneentitet det dreier seg om: om det er et personnavn, et stedsnavn eller et firmanavn.

Man skulle kanskje tro at en slik navnegjenkjenning ville være fort gjort om man bare hadde noen store navnelister, men i praksis er det ikke så lett. I Norge er det for eksempel vanlig at stedsnavn har gitt opphav til gårdsnavn, og så til etternavn. Bondi er for eksempel både et stedsnavn og et personnavn. Og overalt i verden er det vanlig at personnavn brukes som firmanavn: Arthur Andersen er både et firmanavn og et personnavn. Dessuten vil mange tekster, ikke minst fra aviser, ikke bare inneholde nasjonale navn, men navn fra hele verden.

2 Forskningen og forskerutdanningens status på dette området i Norden

Mens navneentitetsgjenkjenning (Named Entity Recognition) etterhvert har blitt et forskningsfelt ellers i verden, ikke minst som en følge av behovet for å avgrense treffene i informasjonssøkesystemer, er dette området lite utforsket i Norden (med få unntak, se Nelson 1999). Navneentitetsgjenkjenning er et spesielt interessant felt fordi det kombinerer metoder fra lingvistikk, filologi og informatikk i større grad enn det som er vanlig i andre former for språklig databehandling. Dertil er det muligheter for å variere hvor mye hver enkelt metode skal telle, og slik se hvilke resultater som følger. Området egner seg svært godt som et emne for språkteknologisk forskningsarbeid.

3 Motivering for nordisk samarbeid

3.1 Gjensidig nytte i arbeidet med utviklingen av systemet. For at man skal komme noen vei, er det nødvendig å ha en grammatisk tagger til rådighet. Dette begrenser antallet deltagerland. For øyeblikket finnes det taggere for norsk, svensk og dansk (og i tillegg finsk, men siden det finske språket er så forskjellig fra de skandinaviske språkene, er det lite å hente på et samarbeid her i første omgang). Det er i de miljøene hvor taggerne er utviklet (UiO (med UiB), GU og CST), at vi ønsker å utvikle navnegjenkjennere.

Vi ønsker å utvikle en navnegjenkjenner på grunnlag av flere delmetoder: navnelister, statistiske mål og regler basert på navnenes språklige kontekst. Alle tre metodene vil ha nytte av at arbeidet skjer på tvers av de nordiske landene. Vi kan utveksle navnelister med hverandre, og vi kan diskutere typer og detaljer av språklig kontekst. Videre er det statistiske arbeidet ikke trivielt, og det vil være nyttig med et større miljø rundt denne siden av utviklingsarbeidet.

3.2 Språkteknologisk nytteverdi ved en navnegjenkjenner. De nordiske landene har et felles behov for å utvikle programvare, slik at vi i fremtiden kan bruke våre egne språk i kommunikasjon med datamaskinen

3.2.1 Informasjonsgjenfinning. Fra et nyttesynspunkt er det informasjonssøking som peker seg spesielt ut for en navnegjenkjenner. Uansett hva slags søkesystem som brukes, er det viktig at man får det man søker etter uten for mye "støy". Det er to mulige bruksmåter for en navnegjenkjenner i et informasjonssøkesystem. Den mest opplagte er muligheten til å kunne kanalisere søkeresultatene slik at brukeren får det han eller hun vil ha, og ikke mye annet i tillegg. Er man for eksempel på jakt etter informasjon om Texas fordi man kanskje ønsker å dra på ferie dit, og så søker etter "Texas" på Internett, er det veldig irriterende om de fleste søkeresultatene gir artikler om firmaet Texas Instruments.

Den andre bruksmåten er det stikk motsatte av en kanalisering av søkeresultater - nemlig å sikre at søkeresultatene gis i en rekkefølge som gjør at man får så forskjellige typer treff som mulig. Vet man veldig lite om et navn, kan dette være ønskelig: Ved et søk får man raskt artikler om både steder, personer, firmaer og kanskje produkter som har dette navnet.

3.2.2 Automatisk oversettelse. For større språk har man kommet langt når det gjelder automatisk oversettelse. For at resultatet skal bli godt, er det selvfølgelig viktig at navn oversettes riktig. En svensk tekst som skal oversettes til engelsk inneholder kanskje navnene Gellerstam, Göteborg og Göteborg Energi AB. En oversetter av kjøtt og blod vet straks at det første og det tredje navnet skal forbli som det er, mens det andre bør endres til Gothenburg. Et automatisk oversettelsesprogram kan ikke vite noe av dette før det har en automatisk navnegjenkjenner til å hjelpe seg.

3.3 Språkvitenskapelig verdi

3.3.1 Komparativ forskning. Siden prosjektet omfatter både norsk, svensk, og dansk, vil vi kunne avdekke interessante likheter og forskjeller mellom språkene. På dette punktet føyer prosjektet seg inn i en nyere forskningstradisjon som søker å studere språk fra et sammenlignende, komparativt perspektiv.

3.3.2 Ny kunnskap om navns syntaktiske kontekst. Navneforskning er jo et tradisjonsrikt forskningsfelt. Bare ved UiO er det fire faste vitenskapelige stillinger samt en postdoktorstilling i faget. Til nå har all forskningen der dreid seg om navnene selv - innsamling, etymologi og morfologisk oppbygging - og ikke navnene sett i en større syntaktisk sammenheng. Dette til tross for at navn er svært frekvente: I Nusvensk frekvensordbok utgjør f.eks. navn hele 4,5 prosent av ordene.

4 Plan for samarbeidsaktiviteter

2001

• Januar: Et tredagers seminar med alle involverte deltagere (15) samt to-tre innbudte foredragsholdere som har arbeidet med navnegjenkjenning for andre språk. På seminaret vil alle deltagerne presentere seg selv og det de har av tidligere utviklet programvare, navnelister og annet som kan være nyttig for prosjektet. Planlegging av arbeidet videre.Sted: Norge.

• Juni: Arbeidsseminar med stipendiatene og lederne i hvert av de tre landene. Sted: Göteborg.

• Desember: Seminar med oppsummering av prosjektet så langt, med alle involverte deltagere. Sted: København.

• Gjennom første år: Den norske og den svenske stipendiaten arbeider for å få en oversikt over arbeid som er gjort med navnegjenkjenning tidligere. De legger ned et arbeid i å skaffe en oversikt over hva slags lister som finnes og kan brukes, samordner formater, og begynner arbeidet med de språklige kontekstreglene.

2002

• Februar: Arbeidsseminar med stipendiatene og lederne. Sted: Norge

• Juni: Arbeidsseminar med stipendiatene og lederne. Sted: Göteborg.

• Desember: Seminar med oppsummering for alle prosjektdeltagerne. Sted: København.

• Gjennom andre år: Stipendiatene arbeider med de statistiske modellene for navnegjenkjenning, og prøver ut ulike vektingsforhold mellom lister, kontekstregler og statistiske mål.

2003

Gjennom året: Stipendiatene fullfører utviklingsarbeidet. Videre evaluerer de de ulike metodene og vektingen mellom dem.

5 Forskerstudenter, mål som skal oppfylles og fortsettelsen videre

Det vil være minst to forskerstipendiater tilknyttet prosjektet, på doktorgrad- eller post-doktornivå - en ved GU og en ved UiO. Ved UiO ser vi også muligheten for å få tilknyttet en hovedfagsstudent til prosjektet. På grunn av kapasitetsproblemer har ikke CST muligheten til å knytte til seg en stipendiat for øyeblikket.

Ved prosjektets slutt bør de to stipendiatene ha fullført doktoravhandling/monografi. Vi skal ha utviklet en navnegjenkjenner for norsk, svensk og dansk. Vi skal ha lært mye om hverandres språkteknologiske og menneskelige ressurser.

Vi ser på dette arbeidet som begynnelsen på et videre samarbeid, og håper å samarbeide om større prosjekter også i fremtiden. Samtidig ser vi også muligheten for å inngå et nærmere samarbeid også med Finland, Island og de baltiske landene på sikt.

6 Bakgrunnsmateriale

En forutsetning for å utvikle en navnegjenkjenner, er at man minimum har tilgang til en morfosyntaktisk tagger som kan avgjøre at et gitt ord i en gitt tekst er et navn. Slike taggere finnes ved Tekstlaboratoriet, UiO, ved Språkbanken, GU, og CST. Nedenfor er et eksempel som viser at man kan søk på navn i tekster som er tagget på denne måten:

(1) Eksempel på søk etter egennavn i det svenske Parole-korpuset:

Søkeuttrykk: [msd="NP00N@0S"]

Søkeresultat:

sslaget , sa Lill . Sätt på dej så får mamma Katrin se ! Jan klädde sej , allvarlig men

t av Dalagatan . --- Katrin Karlsson Kalas i Klas , mumlade hon för sej själv . Det lät i rlsson . Kontoren ligger i Hjorthagen och på Lidingö . Jag har bil och kommer ni hit p vare sej på kontoret i Hjorthagen eller på Lidingö . Kalas och Ann-Charlotte hann inte ill , inte hade en karl och ungar längre som Lill , att hon var ensam och fattig , en

(2) Eksempel på søk etter egennavn i det norske Oslo-korpuset:

Søkeuttrykk: [tagg=".* subst.*" & tagg=".* prop.*" & (src="SK/AlKa/01" )]

Søkeresultat:
SK/AlKa/01: litt, for Evelyn Svendsen og KjellEide smilte svakt enten av henne, elle
SK/AlKa/01: Det var tydelig at Evelyn og Kjell yntes Frida avkledde seg selv og sin e
SK/AlKa/01: ran, Venezuela, Argentina, Liverpoolog Marseille. For det var det Bredo,
SK/AlKa/01: yret mitt. Det var skiføre i Marka, og jeg måtte få meg litt mosjon. Det
SK/AlKa/01: la, Argentina, Liverpool og Marseille. For det var det Bredo, eller dispone

Men for øyeblikket er det altså ikke mulig for noe søkeprogram å søke på typer av navn, såkalte navneentiteter. Når navnegjenkjenneren endelig er laget, vil det være mulig å søke spesifikt etter for eksempel stedsnavn, og få som søkeresultat Lidingö, men ikke Lill. Det vil bli mulig å søke etter personnavn, og få resultater som Kjell, men ikke Marseille.

7 Metode

Vi vil benytte metoden som er skissert i Mikheev, Moens og Grover (1999), Mikheev, Grover og Moens (1998) og Krupka og Hausman (1998) for engelsk. Denne metoden har vist seg å gi svært gode resultater. I tabellen nedenfor, med resultater fra navnegjenkjennere fra MUC-7-konferansen (Message Understanding Conference) er det Mikheev et al som står bak "Lang Tech Group":

(5)

System/Univers.	P - R	System/Univers.	P - R
BBN	92% - 89%	MITRE	86% - 85%
FACILE	87% - 78%	TAIWAN Univers.	73% - 66%
ISO QUEST1	93% - 90%	New York Univers.	93% - 85%
ISO QUEST2	93% - 74%	OKI	92% - 77%
Lang Tech Group	95% - 92%	Durham University	78% - 75%
Univers. Manitoba1 Univers. Mantitoba2	87% - 85% 89% - 79%	Sheffield University	89% - 83%

Presisjon (P): Antall riktig markerte/antall riktig markerte + antall feil markerte. Recall (R): Antall riktig markerte/antall riktig markerte + antall feilmarkerte + antall entiteter som ikke er markerte

I Mikheev et al.s to artikler er det beskrevet en metode som går over flere trinn:

1. Helt sikre regler/mønstre

2. Delvis match 1 (med probabilistisk analyse)

3. Løsere regler/mønstre - med navnelister

4. Delvis match 2 (med probabilistisk analyse)

5. Angivelse i overskriftene (på grunnlag av de fire ovenstående trinnene)

Regel- eller mønsterdelen utnytter at ord eller fraser i navnets umiddelbare kontekst kan gi nokså sikre hint om hva slags navn det dreier seg om. For eksempel vil tittel gi et nokså sikkert hint om at det dreier seg om et egennavn:

(6) a. Professor Lill Eide satt i kommisjonen

b. Lill Eide, professor i Tromsø, satt i kommisjonen

Noen ord og fraser peker mot at egennavnet er et firmanavn:

(7) a. Eide har aksjer i Ericsson

b. Telenor fusjonerer med Telia

Og noen ord og fraser tyder på at egennavnet er et stedsnavn:

(8) a. Oslo, Norges folkerikeste by, har visse problemer med transport

b. Kommunestyret i Bærum foretar de utroligste valg.

Den probabilistiske analysen kan også kjenne igjen et navn som ett sted er identifisert, selv om det forekommer i en noe annen form:

(9) a. For administrerende direktør Petter A. Stordalen i Choice Hotels Scandinavia er kasinodrift også svært interessant

b. Han mener at en kasinodrift aldri vil bli endel av Choice's forretningsområde.

Navnelister for personnavn, stedsnavn og firmanavn kommer i tillegg.

Mikheev et al. utviklet i tillegg noen ekstra tagger som kunne gjøre navnegjenkjenningen for engelsk lettere. Det inkluderte taggen <profesjon> for ord som endte på -yst og -ist (geologist, analyst) og enkelte ord som talsmann og direktør, og taggen <lokativ adjektiv> for adjektiver som sluttet på -an og -ese (American , Japanese). Noe lignende bør kunne gjøres for de skandinaviske språkene også.

8 Litteraturreferanser

Krupka, G. R. og K. Hausman. 1998. Isoquest Inc: Description of the Net-Owl (TM) extractor system as used for MUC-7. I Seventh Message Understanding Conference (MUC-7): Proceedings of a conference held in Fairfax, Virginia. http://www.muc.saic.com/proceedings/muc_7_toc.html

Mikheev, A., C. Grover og M. Moens. 1998. Description of the LTG system used for MUC-7. I Seventh Message Understanding Conference (MUC-7): Proceedings of a conference held in Fairfax, Virginia. http://www.muc.saic.com/proceedings/muc_7_toc.html

Mikheev, A., M. Moens og C. Grover. 1999. Named Entity Recognition without gazetteers. I Proceedings of EACL 99, Ninth Conference of the European Chapter of the Association for Computational Linguistics, s. 1-8.

Nelson, Mette. 1999. Identifying Proper Names in Danish News Text for the Use in Information Extraction Systems. Udkommer i Proceedings of 34^th Colloquium of Linguistics, Johannes Gutenberg-Universität, FASK Germersheim, Peter Lang- Verlag.

Nusvensk frekvensordbok. 1-4. 1970-1980.

Curriculum vitae for prosjektlederen

(Janne Bondi Johannessen)

I. Personopplysninger

Navn: Janne Margrete Bondi Johannessen

Født: 1. august 1960

Nåværende stilling: Professor ved Tekstlaboratoriet, HF, Universitetet i Oslo

Tidligere vitenskapelige stillinger:

- Forsker ved Tekstlaboratoriet, UiO, 1993-1996.

- Universitetsstipendiat ved ILF, UiO, 1988-1993.

II. Utdannelse og kurs

IIA. Utdannelse (i hovedsak fra UiO)

1994: Dr. Philos. (Avhandling: “Coordination. A minimalist approach”).

1988: Cand. Philol.

Lingvistikk hovedfag

(Hovedoppgave: “Automatisk morfologisk analyse og syntese”) Kar.: 1,8

1986: Cand. Mag.

1986: Edb for humanister, sem.emne Kar.: 1,7

1985: Engelsk grunnfag Kar.: 2,1

1985: Engelsk oversettelse sem.emne Kar.: 2,3

1983: Lingvistikk gr.fag + m.fagstillegg Kar.: 2,0

1979: Ex. phil. Kar.: 2,4

I tillegg: 1987: IN 105 Kar.: 1,2

1986: Edb for humanister, gr.fagstillegg Kar.: 1,9

1979: Examen artium

IIB. Kurs

1998-9: Kurs i universitetspedagogikk ved UiO. 14.-15. januar (fellesdel, samt modulene Vitenskapelig veiledning og Problembasert læring)

1996-7: Kurs i ledelse for kvinner i vitenskapelige stillinger. 7.-9. oktober og 14.-16. januar, Universitetene i Oslo og Bergen.

1996: Kurs i presentasjonsteknikk, 13.-13. oktober, Universitetet i Oslo.

1995: CETH (Center for Electronic Texts in the Humanities) Summer Seminar, 11.- 23rd May, Princeton University, USA.

1993: Kurs i nyere fonologiske teorier: ukentlige seminarer ved UiO V-93 pluss en ukes intensivkurs på Hadeland, 3.- 8. mai.

1990: Gjennomgått MSc Cognitive Science course, University of Edinburgh (1 år)

1989: Summer School on Comparative Syntax, Department of Scandinavian Languages, University of Lund, Sverige, 5. - 16. juni.

1983: Summer School in the Modern Greek Language. Thessaloniki, Hellas, 1.-31/8.

III Vitenskapelig konsulentarbeid + komitearbeid

2000: Medlem av Editorial Board i Nordic Journal of Linguistics.

2000: Konsulent for National Science Foundation, USA, for et prosjekt.

1999: Medlem i bedømmelseskomité for doktorgrad for Øystein Vangsnes ved Universitetet i Bergen.

1999: Medlem i bedømmelseskomité for et vikariat som førsteamanuensis i nordisk språkvitenskap ved Høgskulen i Stavanger. (Ekstraoppnevnte"ekspert"-medlem.)

1999: Medlem i bedømmelseskomité for et førsteamanuensisvikariat i lingvistikk ved Universitetet i Tromsø.

1999: Medlem i bedømmelseskomité for et førsteamanuensisvikariat i lingvistikk, UiB.

1997: For tidsskriftet Linguistic Inquiry (MIT, Mass.): Virket som anonym fagreferent .

1995: Referent for Norsk Referansegrammatikk (Red: Faarlund, J.T., S.Lie og K.I. Vannebo)IV Nyere prosjekter der søkeren (JBJ) er eller har vært prosjektleder:

2000:

Utredning om nytten av et språklig kompetent søkeprogram for Internett

Samarbeid mellom Tekstlaboratoriet, Kunnskapsforlaget og Fast Search & Transfer ASA,

4 månedsverk + hovedfagsstipend (to prosjektmedarbeidere), finanisert av Fast

Prosjektleder: Janne Bondi Johannessen.

Oppbygging av korpus for å studere skriftlig språkferdighet i fremmedspråk/annetspråk

(2000-2002)

Samarbeid mellom ILF (Norsk som annetspråk og Tekstlaboratoriet) og GI, UiO.

24 månedsverk (en prosjektmedarbeider i to år)

Forprosjektet er finansiert av Det historisk-filosofiske fakultet, UiO

Prosjektleder: Janne Bondi Johannessen

Videreutvikling av Oslo-korpusets web-side

5 månedsverk (Tekstlaboratoriets personale)

Finansiert av Tekstlaboratoriet

Prosjektleder: Janne Bondi Johannessen

1999:

En automatisk morfologisk tagger og analysator (1996-1999)

Samarbeid mellom Tekstlaboratoriet, Lingsoft, Inc. og Dokumentasjonsprosjektet (UiO)

(Sju årsverk, to-tre medarbeidere)

Finanisert av Forskningsrådet, Lingsoft, Dokumentasjonsprosjektet og Tekstlaboratoriet)

Prosjektleder: Janne Bondi Johannessen

Oslo-korpuset av taggede norske tekster (1998-1999)

8 månedsverk (en prosjektmedarbeider, samt Tekstlaboratoriets personale)

Finansiert av Tekstlaboratoriet

Prosjektleder: Janne Bondi Johannessen

Søkeren leder dessuten Tekstlaboratoriet, UiO, administrativt og faglig. Tekstlaboratoriet tar også del i flere prosjekter der andre er prosjektledere:

Grammatikksjekkerprosjekt (2000)

Tekstlaboratoriet og Lingsoft, Inc., Finland, 18 månedsverk,

Prosjektleder: Era Eriksson (Lingsoft)

Nyprogrammering av en uavhengig multitagger (2000-2001)

Tekstlaboratoriet og HIT-senteret, UiB. 10 månedsverk

Prosjektleder: Paul Meurer (HIT-senteret)

Språk i kontakt (1999-2001)

GI, IBA og ILF, deriblant Tekstlaboratoriet,

Prosjektleder: Cathrine Fabricius Hansen (GI)

Elektronisk database over norske språklyder (vokaler og konsonanter)

Tekstlaboratoriet og andre avdelinger ved ILF (UiO), samt Queen Margaret University College, Edinburgh.

Prosjektleder: Inger Moen (ILF)

Publikasjonsliste for søkeren

(Janne Bondi Johannessen)

Utvalgte, publiserte arbeider

Under utgivelse i konferanserapport: Med Anders Nøklestad. Mot et maksimalt brukervennlig korpus. Foredrag presentert på KORFU-99-konferansen i Växjö, 1999.

Under utgivelse i konferanserapport: Med Anders Nøklestad. Oslo-korpuset av taggede, norske tekster. Foredrag presentert på MONS-8, Tromsø, 1999.

2000: Med Kristin Hagen og Anders Nøklestad. A Web-Based Advanced and User Friendly System: The Oslo Corpus of Tagged Norwegian Texts. I Gavrilidou, M., G. Carayannis, S. Markantonatou, S. Piperidis og G. Stainhaouer (red.): Proceedings of the Second International Conference on Language Resources and Evaluation, Athens, Greece 31 May - 2 June 2000.

2000: Med Kristin Hagen og Anders Nøklestad.The shortcomings of a tagger. I Nordgård, T (red.) Nodalida '99 Proceedings form the 12th "Nordiske datalingvistikkdagar", Lingvistisk institutt, Universitetet i Trondheim.

2000: Med Kristin Hagen og Anders Nøklestad. A Constraint-based Tagger for Norwegian. I Lindberg, Carl-Erik og Steffen Nordahl Lund (red.): 17th Scandinavian Conference of Linguistics. Odense Working Papers in Language and Communication 19, 31-48, University of Southern Denmark, Odense.

1998: Med Kristin Hagen: Disambiguering uten syntaks. I Faarlund, J.T., Mæhlum, B. og T. Nordgård (red.) MONS 7, s. 68-79, Novus forlag, Oslo.

1998: Negasjonen ikke: Kategori og syntaktisk posisjon. I Faarlund, J.T., Mæhlum, B. og T. Nordgård (red.) MONS 7, s. 80-94, Novus forlag, Oslo.

1998: Elektroniske hjelpemidler - leksikografisk fornying. Norskrift. nr 97, p. 43-68.

1998. Tagging and the case of pronouns. Computers and the Humanities 32, p. 1-38.

1998: Med Hauglin, H. An Automatic Analysis of Norwegian Compounds. I Haukioja, T. (ed.): Papers from the 16th Scandinavian Conference of Linguistics, Turku/Åbo, Finland 1996 : 209-220.

1998: Coordination. Oxford University Press, New York, Oxford.

1998: Birgit Wesche, Symmetric Coordination. An Alternative Theory of Phrase Structure. Bokanmeldelse. Linguistische Berichte 173.

1997: Subjects in Modern Greek Subjunctive Clauses. I Drachman, G., A. Malikouti- Drachman, J. Fykias og C. Klidi (red.) Greek Linguistics ‘95. Proceedings from the 2nd International Conference on Greek Linguistics, Universitetet i Salzburg. W. Neugebauer Verlag GmbH, Graz, s. 493-504.

1996: DENNE. Norsk Lingvistisk Tidsskrift 14-1, p. 3-27.

1996: Partial agreement and coordination. Remarks and Replies. Linguistic Inquiry, MIT Press, Cambridge, Mass.

1995: Word order in Modern Greek subjunctive clauses. In Moen, I., H.G. Simonsen og H. Lødrup (red.): Papers rom the XVth Scandinavian Conference of Linguistics, Department of Linguistics, University of Oslo.

1994: A configurational theory of coordination. In Adger, D. , C. S. Rhys, and A. von Klop (eds): Working papers in cognitive science 8, Centre for Cognitive Science, University of Edinburgh.

1993: Coordinate-alpha and unbalanced coordination. Konferanseforedrag trykket i Kathol, A. og M. Bernstein (red.) ESCOL ‘93, s. 153-62, Cornell University, Cornell.

1990: Is two-level morphology a morphological model? I Pind, J. and E. Rögnvaldsson (red.): Papers from the Seventh Scandinavian Conference of Computational Linguistics, Reykjavik 1989, s. 51-60, Universitetet i Reykjavik.

1990: Automatisk morfologisk analyse og syntese. Novus forlag, Oslo.

Lokalt utgitte arbeider

2000: Om flertydighet ved Internett-søk. Med Gordana Ilic Holen og Janne Cecilie von Koss Torkildsen. Rapport om et samarbeid med Fast Search and Transfer.

2000: Om flertydighet ved leksikonsøk. Med Gordana Ilic Holen og Janne Cecilie von Koss Torkildsen. Rapport om et samarbeid med Fast Search and Transfer og Kunnskapsforlaget.

Presentasjon av deltagerne i nettverksgruppen

Universitetet i Oslo

• Janne Bondi Johannessen, f. 1960, dr.philos., professor, daglig leder av Tekstlaboratoriet, Institutt for lingvistiske fag. Prosjektleder. Se forøvrig prosjektleders CV annet sted i søknaden.

• Botolv Helleland, f. 1940, Cand.philol., førsteamanuensis, Seksjon for namnegransking, INL.Utvalgte publikasjoner:

–Adresser og stadnamn. Del 2. Stadnamn i offentleg og privat bruk. Kommuneforlaget, Oslo 1993.325 s.

–Namn på offentlege og private institusjonar. I Övriga namn. Handlingar från NORNA:s nittonde symposium i Göteborg 4-6 december 1991. Redigerade av Kristinn Jóhannesson, Hugo Karlsson & Bo Ralph. NORNA-rapporter 56. Uppsala 1994, s. 347-362.

–Slektsnamn av stadnamn. I: Avdeling for namnegransking. årsmelding 1996. Red. av Tom Schmidt. Universitetet i Oslo. Oslo 1997, s. 51-61.

–Stadnamn. Fra skuff til skjerm. Om universitetenes databaser for språk og kultur. Red. av Knut Aukrust og Bjarne Hodne. Universitetsforlaget, Oslo 1998, s. 143–156.

–Ortsnamen als Ursprung von Familiennamen in Norwegen. I: Onomastik. Akten des 18. Internationalen Kongresses für Namenforschung, Trier, 12.–17. April 1993. Band IV. Personennamen und Ortsnamen. In Zusammenarbeit mit Thorsten Andersson herausgegeben von Dieter Kremer. (Patronymica Romanica Band 17.) Tübingen 1999, s. 159–167.

–Hovudliner i norsk namnegransking 1897–1997. I: Den nordiska namnforskningen. I går, i dag, i morgon. Handlingar från NORNA:s 25:e symposium i Uppsala 7–9 februari 1997. (NORNA-rapporter 67.) Uppsala 1999, s. 77–118.

• Anders Nøklestad, f. 1969, overingeniør, Tekstlaboratoriet

Forsknings- og prosjektinteresser: Automatisk morfologisk og syntaktisk

tagging, preprosessering inkludert sammensetningsanalyse, morfologisk

analysator, korpusoppbygging, korpusgrensesnitt, informasjonsgjenfinning på

Internett, flertydighetsforskning, kunstige nevrale nettverk, artikulatorisk

modellering, talesyntese og -gjenkjenning, programmering.

–Statistisk disambiguerende tagging av norsk. I Faarlund, J.T., B. Mæhlum og T. Nordgård (red.) 1998: MONS 7. Utvalde artiklar frå det 7. Møtet Om Norsk Språk i Trondheim 1997.

–A Connectionist Model of Past Tense Acquisition in Norwegian. I Simonsen, H.G. og R.T. Endresen (red.), til trykking: The Verb in Cognitive Linguistics.

(Dessuten fem artikler med Janne Bondi Johannessen og Kristin Hagen, se publikasjonslisten til førstnevnte)

• Kristin Hagen, f. 1962, avdelingsingeniør, Tekstlaboratoriet, ILF.

Forsknings- og prosjektinteresser: Automatisk morfologisk og syntaktisk

tagging, preprosessering inkludert sammensetningsanalyse, morfologisk

analysator, korpusoppbygging, korpusgrensesnitt, leksikalske databaser

(Publikasjoner med Anders Nøklestad og Janne Bondi Johannessen, se sistnevntes publikasjonsliste)

• Stipendiat(er): ikke tilsatt ennå

Universitetet i Bergen - HIT-senteret

Paul Meurer, f. 1962, dr.scient, forsker, HIT-senteret, UiB.

Forsknings- og prosjektinteresser:

Morfologisk og syntaktisk parsing (spesielt mhp. bokmål, nynorsk og georgisk),

implementering av ulike parse- og taggealgoritmer (Constraint Grammar,

unifikasjonsbaserte metoder, endelige automater), termekstraksjon,

korpusgrensesnitt, programmering (særlig CommonLisp), kaukasuslingvistikk

Utvalgte publikasjoner

1. The Number of Rational Curves on Calabi-Yau Hypersurfaces in Weighted

Projective Space , Math. Scand. 78.1 (1996)

2. Gromov-Witten Numbers of Rational Curves on Calabi-Yau complete

Intersections in Weighted Projective Space, dr.scient-avhandling, 1996

3. Et verktøy for terminologiske databaser. I [Hjulstad, H. red.] Nordterm '97.

Oslo: RTT. (= Nordterm 9)

4. A Morphological Parser for Georgian. Proceedings of the Third International

Tbilisi Symposium on Language, Logic and Computation, Batumi, Georgia 1999

(under utgiving)

Gøteborgs universitet

• Martin Gellerstam, f. 1936, fil dr i nordiska språk, docent, leder av Språkbanken. Leder prosjektets svenske del. Utvalgte publikasjoner:

–Modern Swedish Text Corpora. (I: Directions in Corpus Linguistics. Mouton 1992).

–Ordförrådets härledning. (I: Arv och lån i svenskan. 1994 . Stockholm: Norstedts).

–Translations as a Source for Crosslinguistic Studies. (I: Aijmer & Altenberg (red.) Languages in Contrast. Lund University Press. 1996).

–Lexical Resources and their Application. (I: Proceedings from European Seminar: Language Resources for Language Technology. Tihany (Ungern) 1995.

• Dimitris Kokkinakis, f. 1965. Magister examen i datalingvistikk, 1994.

(Pågående doktorsavhandling, beregnet ferdig 2000-11-01)

Kokkinakis D. (Jan., 1998), AVENTINUS, GATE and Swedish Lingware, In Proceedings of the

11th Nordic Computational Linguistics Conference, NODALIDA, Copenhagen, Denmark

Kokkinakis D. (May, 1998), Subcorpora-Based Tuning of Swedish Generic Lexical Resources, In

the "Adapting Lexical and Corpus Resources to Sublanguages and Applications" LREC

Workshop, Velardi P. (ed), Granada, Spain

Kokkinakis D. (Aug., 1998), Extracting Lexical-Semantic Knowledge from Sub-Domains, In the

"Lexical Semantics in Context:Corpus, Inference and Discourse" 10th ESSLLI:

Workshop,Bos J. and Buitelaar P. (eds), Saarbrucken, Germany

Kokkinakis D. and Johansson Kokkinakis S. (June, 1999), A Cascaded Finite-State Parser for

Syntactic Analysis of Swedish, In Proceedings of the 9th EACL (European Chapter of The

Association of Computational Linguistics), Bergen, Norway

Kokkinakis D. (Nov., 1999), Ett verktygslåda för webb-baserade korpusexperiment, In Proceedings

of the ASLA Symposiet om KORFU (KORpusar i Forskning och Undervisning), Växjö,

Sweden

• Yvonne Cederholm, f. 1958. Mastersutbildning från Datalingvistlinjen vid Göteborgs universitet (1989).

–Automatisk konstruktion av en hyperonymtaxonomi baserad på definitioner i GLDB. (I: Från dataskärm och forskarpärm. Språkliga studier tillägnade Birgitta Ernby i juni 1999. Meddelanden från Institutionen för svenska språket 25. Göteborgs universitet).

–Tillsammans med Lindfors Viklund, M.: Chasing the Dragon – Drug Related Terminology i a –Multilingual Perspective. (I: Proceedings of the 9^th International Symposium on Lexicography in Copenhagen. Lexicographica, Series Maior. Max Niemayer, Tübingen. 1998).

–A Historical Lexical Database of Swedish. The OSA Project. (I: Euralex ’96 Proceedings, Göteborg 1996).

• Torgny Rasmark, f. 1952. Fil.mag. Mastersutbildning i datalingvistik (slutexamen 000530)

–Context Profile Clustering: Content Based Text Organization. (M:A:thesis, forthcoming)

–Review of Elman & Bates, & Johnson & Karmiloff-Smith & Parisi & Plunkett Rethinking Innateness. A Connectionist Perspective on Development. MIT Press, Cambridge, Massachusetts 1996. [Anmälan av boken utarbetad inom kursen Språkets ontogenes, se http://svenska.gu.se/

• Stipendiat(er): ikke tilsatt ennå

Center for Sprogteknologi, København

• Bolette Pedersen, f. 1962. Seniorforsker, CST. PhD i datalingvistikk, Københavns universitet, 1998. Leder prosjektets danske del. Utvalgte publikasjoner:

B.S. Pedersen & S. Nimb (2000) 'Semantic Encoding of Danish Verbs in

SIMPLE - Adapting a verb-framed model to a satellite-framed

language'. Proceeding from Second International Conference on

Language Resources and Evaluation, LREC 2000, Athens.

Pedersen, B.S. (under udgivelse) 'Den danske SIMPLE-ordbog. En

semantisk, ontologibaseret ordbog'. C. Povlesen (ed.) DALF 99,

Datalingvistisk Forenings årsmøde 1999, Center for Sprogteknologi.

Pedersen, B.S. (1999) 'Systematic verb polysemy in MT: a study of

Danish motion verbs with compraisons to Spanish', in: H. Somers (ed.)

Machine Translation Vol. 14, Issue 1, pp-39-86 , Kluwer Academic

Publishers, The Netherlands.

Pedersen; B.S. & Britt Keson (1999) 'SIMPLE - Semantic Information for

Multifunctional Plurilingual Lexica: Some Danish Examples on Concrete

Nouns', in: SIGLEX99: Standardizing Lexical Resources, Association of

Computational Linguistics, ACL99 Workshop, Maryland (10 p.).

Pedersen, B.S. (1997) Lexical Ambiguity in Machine Translation:

Expressing Regularities in the Polysemy of Danish Motion Verbs. PhD

thesis, University of Copenhagen.

Pedersen, B.S (1997) 'Danish Motion Verbs: Syntactic Alternations and

the Hypothesis of Semantic Determination', in: U. Nikkanne (ed.)

Nordic Journal of Linguistics vol. 18, Oslo.

Pedersen, B.S. (1997) 'Using Frame Semantics for Expressing

Regularities in Polysemy', in: R. Mitkov, N. Nicolov & N. Nikolov (eds.)

RANLP Proceedings 1997, Recent Advances in Natural Language

Processing, Tzicov Chark, Bulgaria.

• Mette Nelson, f. 1971. Også tilknyttet Syddansk Universitet. Ph.d.-stipendiat ved Institut for Datalingvistik, Handelshøjskolen i København. Ph.d.-afhandlingen er indleveret juli 2000.

–Nelson, Mette. 1999. Identifying Proper Names in Danish News Text for the Use in Information Extraction Systems. Udkommer i Proceedings of 34^th Colloquium of Linguistics, Johannes Gutenberg-Universität, FASK Germersheim, Peter Lang-Verlag.

–Nelson, Mette. 2000. Propriumsyntagmer i tekstresumeringssystemer. Ph.d.-afhandling indleveret til forsvar ved Handelshøjskolen i København, juli 2000.

• Dorte Haltrup Hansen, f. 1963. Afslutning af kandidatudd. i datalingvistik fra IAAS, Københavns Universitet (emne: " Evaluering af NP-genkendere).

Tidligere relevant arbeid: Assistent på EU-projektet PAROLE (se: Thomas Bilgram & Britt Keson, 1998: "The Construction of a Tagged Danish Corpus", i Proceedings fra NODALIDA '98) og assistent på Ontoquery-projektet (se: Dorte Haltrup Hansen, 2000: "TrÊning og brug af Brills tagger på danske tekster", Teknisk Rapport).

Budsjett for første år (= 2001)

Reiseutgifter:

Et tre-dagers seminar i Norge (Fefor høifjellshotell i Gudbrandsdalen) i januar:

15 deltagere fra Skandinavia

3 foredragsholdere fra Storbritannia (Claire Grover, Mikhail Mikheev, Hamish Cunningham)

Kost og losji:

18 personer * døgnpris 750 kr (=kost + losji) NOK 40 500

Reise:

3 personer (fra Storbritannia)* kr 3500 NOK 10 500

6 personer (fra Oslo) * kr 1000 NOK 6000

1 person fra Bergen * kr 2000 NOK 2000

8 personer fra Sverige og Danmark * kr 3000 NOK 24 000

Til sammen: = NOK 83 000

Et kortere seminar i Göteborg:

Til sammen seks deltagere (to fra Göteborg, fire tilreisende)

Kost (to dager à kr 600) og losji (en natt à kr 1400) (Den norske stats satser)

4 personer * kr 2600 NOK 10 400

Reise:

4 personer (fra Norge og Danmark) * kr 3000 NOK 12 000

Til sammen

= NOK 22 400

Et oppsummerende seminar i København

Til sammen 15 deltagere (tre fra København, 12 tilreisende)

Kost (tre dager à kr 650) og losji (to netter à kr 1100)

12 personer * kr 4150 NOK 49 800

Reise:

12 (fra Sverige og Danmark) NOK 36 000

Til sammen: NOK 85 800

Honorarer

3 foredragsholdere på det innledende seminaret i Norge à kr XX

Stipender

2 doktorgrads/Post-doc-stipend (inkludert sosiale utgifter): NOK 770 000

1 studentstipend (for hovedfag) NOK 70 000

Til sammen for 2001:

Budsjett for andre år (= 2002)

Et mindre seminar i Oslo:

Seks deltagere (tre fra Norge, tre tilreisende)

Kost (to dager à kr 450) og losji (en natt à kr 1090) (Den norske stats satser)

3 personer * kr 1990 NOK 5970

Reise:

3 personer (fra Sverige og Danmark) * kr 3000 NOK 9 000

Til sammen NOK 14 970

Et mindre seminar i Göteborg:

Til sammen seks deltagere (to fra Göteborg, fire tilreisende)

Kost (to dager à kr 600) og losji (en natt à kr 1400) (Den norske stats satser)

4 personer * kr 2600 NOK 10 400

Reise:

4 personer (fra Norge og Danmark) * kr 3000 NOK 12 000

Til sammen

= NOK 22 400

Et avsluttende seminar i København

Til sammen 15 deltagere (tre fra København, 12 tilreisende)

Kost (tre dager à kr 650) og losji (to netter à kr 1100)

12 personer * kr 4150 NOK 49 800

Reise:

12 (fra Sverige og Danmark) NOK 36 000

Til sammen: NOK 85 800

Stipender

2 doktorgrads/Post-doc-stipend (inkludert sosiale utgifter): NOK 770 000

1 studentstipend (for hovedfag) XX

Til sammen for 2002:

-1-