Difference between revisions of "Zeno file format"

Jump to navigation Jump to search
13 bytes removed ,  19:59, 22 February 2009
Line 69: Line 69:
Ein Eintrag für V und W ist ein 4-Byte-Integer (Artikelindex), ein Eintrag für X ein 8-Byte-Integer (Artikelindex und Wortindex).  
Ein Eintrag für V und W ist ein 4-Byte-Integer (Artikelindex), ein Eintrag für X ein 8-Byte-Integer (Artikelindex und Wortindex).  
Nach dem abschließenden Nullbyte des Wortes in rExtra kommt ein Längenbyte für die nachfolgende Struktur, das stets <= 255 ist. Alle Integers sind komprimiert, siehe unten.  
Nach dem abschließenden Nullbyte des Wortes in rExtra kommt ein Längenbyte für die nachfolgende Struktur, das stets <= 255 ist. Alle Integers sind komprimiert, siehe unten.  
flags: die ersten vier Bit geben an, ob es einen Eintrag für die Gewichtung (0..3) gibt,
      auch dieses Byte ist (unnötigerweise) schon komprimiert, d.h. in komprimiertem
      Zustand sind die Bits um 2 nach links verschoben.


* flags: die ersten vier Bit geben an, ob es einen Eintrag für die Gewichtung (0..3) gibt, auch dieses Byte ist (unnötigerweise) schon komprimiert, d.h. in komprimiertem Zustand sind die Bits um 2 nach links verschoben.


Für jede Gewichtung folgt ein Eintrag:  
Für jede Gewichtung folgt ein Eintrag:  
Line 79: Line 77:
* firstWordIndex: nur bei X
* firstWordIndex: nur bei X


Der erste Eintrag einer jeden Gewichtung befindet sich somit in RZenoArticle und ist schnell zu lesen. Gibt es nur diesen einen Eintrag, ist len=0, ansonsten gibt es weitere Einträge in der Indexdatei.  
Der erste Eintrag einer jeden Gewichtung befindet sich somit in RZenoArticle und ist schnell zu lesen. Gibt es nur diesen einen Eintrag, ist len=0, ansonsten gibt es weitere Einträge in der Indexdatei.


== NamespaceCounts-Tabelle ==
== NamespaceCounts-Tabelle ==

Navigation menu