elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

The Open Web Index

Hendriksen, Gijs und Dinzinger, Michael und Farzana, Sheikh Mastura und Fatima, Noor Afshan und Fröbe, Maik und Schmidt, Sebastian und Zerhoudi, Saber und Granitzer, Michael und Hagen, Matthias und Heimstra, Djoerd und Potthast, Martin und Stein, Benno (2024) The Open Web Index. In: 46th European Conference on Information Retrieval, ECIR 2024, 14612, Seiten 130-143. Springer. European Conference for Information Retrieval, 2024-03-24, Glasgow, Scotland. doi: 10.1007/978-3-031-56069-9_10. ISBN 978-303156068-2. ISSN 0302-9743.

[img] PDF
1MB

Offizielle URL: https://link.springer.com/chapter/10.1007/978-3-031-56069-9_10

Kurzfassung

Only few search engines index the Web at scale. Third parties who want to develop downstream applications based on web search fully depend on the terms and conditions of the few vendors. The public availability of the large-scale Common Crawl does not alleviate the situation, as it is often cheaper to crawl and index only a smaller collection focused on a downstream application scenario than to build and maintain an index for a general collection the size of the Common Crawl. Our goal is to improve this situation by developing the Open Web Index. The Open Web Index is a publicly funded basic infrastructure from which downstream applications will be able to select and compile custom indexes in a simple and transparent way. Our goal is to establish the Open Web Index along with associated data products as a new open web information intermediary. In this paper, we present our first prototype for the Open Web Index and our plans for future developments. In addition to the conceptual and technical background, we discuss how the information retrieval community can benefit from and contribute to the Open Web Index—for example, by providing resources, by providing pre-processing components and pipelines, or by creating new kinds of vertical search engines and test collections.

elib-URL des Eintrags:https://elib.dlr.de/210780/
Dokumentart:Konferenzbeitrag (Vorlesung)
Titel:The Open Web Index
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Hendriksen, Gijsgijs.hendriksen (at) ru.nlhttps://orcid.org/0000-0003-0945-3148NICHT SPEZIFIZIERT
Dinzinger, MichaelUniversity of PassauNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Farzana, Sheikh MasturaSheikh.Farzana (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Fatima, Noor AfshanCERNNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Fröbe, MaikFriedrich-Schiller-Universität JenaNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Schmidt, SebastianLeipzig UniversityNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Zerhoudi, SaberUniversity of Passauhttps://orcid.org/0000-0003-2259-0462NICHT SPEZIFIZIERT
Granitzer, MichaelUniversity of PassauNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Hagen, MatthiasFriedrich-Schiller-Universität JenaNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Heimstra, DjoerdRadboud UniversityNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Potthast, Martinmartin.potthast (at) uni-leipzig.dehttps://orcid.org/0000-0003-2451-0665NICHT SPEZIFIZIERT
Stein, Bennobenno.stein (at) uni-weimar.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:2024
Erschienen in:46th European Conference on Information Retrieval, ECIR 2024
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Ja
In ISI Web of Science:Ja
Band:14612
DOI:10.1007/978-3-031-56069-9_10
Seitenbereich:Seiten 130-143
Herausgeber:
HerausgeberInstitution und/oder E-Mail-Adresse der HerausgeberHerausgeber-ORCID-iDORCID Put Code
Goharian, NazliNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Tonellotto, NicolaNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
He, YulanNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Lipani, AldoNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
McDonald, GrahamNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Macdonald, CraigNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Ounis, IadhNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Verlag:Springer
Name der Reihe:Lecture Notes in Computer Science
ISSN:0302-9743
ISBN:978-303156068-2
Status:veröffentlicht
Stichwörter:Web Crawling, Open Index, Information Retrieval, Web Data Preprocessing, Open Search
Veranstaltungstitel:European Conference for Information Retrieval
Veranstaltungsort:Glasgow, Scotland
Veranstaltungsart:internationale Konferenz
Veranstaltungsdatum:24 März 2024
HGF - Forschungsbereich:keine Zuordnung
HGF - Programm:keine Zuordnung
HGF - Programmthema:keine Zuordnung
DLR - Schwerpunkt:Digitalisierung
DLR - Forschungsgebiet:D DAT - Daten
DLR - Teilgebiet (Projekt, Vorhaben):D - OpenSearch@DLR
Standort: Rhein-Sieg-Kreis
Institute & Einrichtungen:Institut für Softwaretechnologie
Institut für Softwaretechnologie > Intelligente und verteilte Systeme
Hinterlegt von: Farzana, Sheikh Mastura
Hinterlegt am:16 Dez 2024 15:29
Letzte Änderung:16 Dez 2024 15:29

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.