Hendriksen, Gijs und Dinzinger, Michael und Farzana, Sheikh Mastura und Fatima, Noor Afshan und Fröbe, Maik und Schmidt, Sebastian und Zerhoudi, Saber und Granitzer, Michael und Hagen, Matthias und Heimstra, Djoerd und Potthast, Martin und Stein, Benno (2024) The Open Web Index. In: 46th European Conference on Information Retrieval, ECIR 2024, 14612, Seiten 130-143. Springer. European Conference for Information Retrieval, 2024-03-24, Glasgow, Scotland. doi: 10.1007/978-3-031-56069-9_10. ISBN 978-303156068-2. ISSN 0302-9743.
PDF
1MB |
Offizielle URL: https://link.springer.com/chapter/10.1007/978-3-031-56069-9_10
Kurzfassung
Only few search engines index the Web at scale. Third parties who want to develop downstream applications based on web search fully depend on the terms and conditions of the few vendors. The public availability of the large-scale Common Crawl does not alleviate the situation, as it is often cheaper to crawl and index only a smaller collection focused on a downstream application scenario than to build and maintain an index for a general collection the size of the Common Crawl. Our goal is to improve this situation by developing the Open Web Index. The Open Web Index is a publicly funded basic infrastructure from which downstream applications will be able to select and compile custom indexes in a simple and transparent way. Our goal is to establish the Open Web Index along with associated data products as a new open web information intermediary. In this paper, we present our first prototype for the Open Web Index and our plans for future developments. In addition to the conceptual and technical background, we discuss how the information retrieval community can benefit from and contribute to the Open Web Index—for example, by providing resources, by providing pre-processing components and pipelines, or by creating new kinds of vertical search engines and test collections.
elib-URL des Eintrags: | https://elib.dlr.de/210780/ | ||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Dokumentart: | Konferenzbeitrag (Vorlesung) | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Titel: | The Open Web Index | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Autoren: |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Datum: | 2024 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Erschienen in: | 46th European Conference on Information Retrieval, ECIR 2024 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Referierte Publikation: | Ja | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Open Access: | Ja | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Gold Open Access: | Nein | ||||||||||||||||||||||||||||||||||||||||||||||||||||
In SCOPUS: | Ja | ||||||||||||||||||||||||||||||||||||||||||||||||||||
In ISI Web of Science: | Ja | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Band: | 14612 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
DOI: | 10.1007/978-3-031-56069-9_10 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Seitenbereich: | Seiten 130-143 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Herausgeber: |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||
Verlag: | Springer | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Name der Reihe: | Lecture Notes in Computer Science | ||||||||||||||||||||||||||||||||||||||||||||||||||||
ISSN: | 0302-9743 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
ISBN: | 978-303156068-2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Status: | veröffentlicht | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Stichwörter: | Web Crawling, Open Index, Information Retrieval, Web Data Preprocessing, Open Search | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Veranstaltungstitel: | European Conference for Information Retrieval | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Veranstaltungsort: | Glasgow, Scotland | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Veranstaltungsart: | internationale Konferenz | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Veranstaltungsdatum: | 24 März 2024 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
HGF - Forschungsbereich: | keine Zuordnung | ||||||||||||||||||||||||||||||||||||||||||||||||||||
HGF - Programm: | keine Zuordnung | ||||||||||||||||||||||||||||||||||||||||||||||||||||
HGF - Programmthema: | keine Zuordnung | ||||||||||||||||||||||||||||||||||||||||||||||||||||
DLR - Schwerpunkt: | Digitalisierung | ||||||||||||||||||||||||||||||||||||||||||||||||||||
DLR - Forschungsgebiet: | D DAT - Daten | ||||||||||||||||||||||||||||||||||||||||||||||||||||
DLR - Teilgebiet (Projekt, Vorhaben): | D - OpenSearch@DLR | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Standort: | Rhein-Sieg-Kreis | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Institute & Einrichtungen: | Institut für Softwaretechnologie Institut für Softwaretechnologie > Intelligente und verteilte Systeme | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinterlegt von: | Farzana, Sheikh Mastura | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinterlegt am: | 16 Dez 2024 15:29 | ||||||||||||||||||||||||||||||||||||||||||||||||||||
Letzte Änderung: | 16 Dez 2024 15:29 |
Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags