tra - Travel Recommender Argent
1. Kurzbeschreibung
Die tra-Plattform soll folgende Funktionalitäten bereitstellen:
- Speichern und Vergleichen von Hotelbeschreibungen, Preisen, etc.
- Retrieval und Speicherung von Reviews populärer Internet-Reiseportale
- Ausgabe von Statistiken zu Städten, Hotels und Reviewern
- Anzahl Reviews (Popularity)
- Rating (Quality)
- Reviewer Rank (Anzahl von Reviews, Zustimmung zu den Reviews)
- Filter: nach Herkunft/Reviewer Rank
- Graphische Darstellung der Variablen über die Zeit
- Möglichkeit Reviews zu Annotieren
- Detektion von automatisiert erstellten und doppelten Einträgen
2. Mindestanforderungen an die Datenbanken
Die Datenbank sollte zumindest die folgenden Informationen zu jedem Eintrag erfassen:
- Stammdaten der Stadt (Name, ...)
- Stammdaten des Hotels: Name, Adresse, Preise, ...
- Quelle (Webseite, URL) und Zeitpunkt der Information
- Reviews
- Text
- Benutzer
- Rating (Achtung: unterschiedliche Skalen und Ratings möglich)
- Nilsimsa-Checksumme
- SHA1-Checksumme
- Bewertung des Reviews
- Sprache
- Reviewer
- Nickname
sowie, wenn verfügbar
- Herkunftsland
- Annotationen
- Target-Url
- Metadata-Type
- Metadata-Value
Fehleingaben (z.B. URLs ohne http://, fehlender Name von Hotels, etc.) sollen bereits auf
Datenbankebene abgefangen werden.
3. Anforderungen an die Applikationen
gruppe 1 - core application
--------------------------------------
- anzeigen von reviews / hoteldaten / reviewerdaten
- suche: tsearch2
- eingabe von daten via copy & paste
- eingabe von annotationen
- ausgabe: ähnliche hotels
ähnliche reviews (keywords, vector space model)
gruppe 2 - statistiken/grafix
--------------------------------------
- anzeigen von user-requests
- berichte für management/reisenden
- management => positive/negative reviews, entwicklung der reviews, ...
- reisender => top locations
- statistiken (ohne grafiken)
- aktivität der abfragen
- mirror statistiken
- optional:
* google-maps/map24 herkunft von reviewern / hotel locations (suchfunktion@google maps)
gruppe 3 - retrieval und spidering
---------------------------------------
- queuen von requests
- extraktion
- retrieval und speichern von web-seiten/gruppen von seiten on request
- statstiken für retrieval/storage
(url, user, anzahl bytes, ...)
- xml/rdf import/export
- excel import/export
- import von hotelinformationen von einer der folgenden quellen
* tripadvisor
* tiscover
* ...
- webservice für den import der daten
Schnittstellen
http://xmbalrog.ai.wu-wien.ac.at/~j0625050/sql2/retrieve?url=http://www.tripadvisor.com/...