SPF: Chipcluster und Videoprozessoren

Zahlreiche massivparallele Rechenarrays sowie für HDTV ausgelegte En- und Decoder-Chips – oder beides in einem – rundeten den Prozessorreigen auf dem Spring Processor Forum in San José ab.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Lesezeit: 6 Min.
Von
  • Andreas Stiller

Zahlreiche massivparallele Rechenarrays sowie für HDTV ausgelegte En- und Decoderchips – oder beides in einem – rundeten den Prozessorreigen auf dem Spring Processor Forum in San José ab. PACT lässt grüßen, könnte man zumindest bei einigen der Designs sagen: Die deutsche Firma PACT hatte als erste vor 6 Jahren – ebenfalls auf dem Processor Forum – ihr massiv paralleles Design vorgestellt. Jetzt waren es ebenfalls kleinere Startups, die zum Teil ähnliche Entwicklungen präsentierten. Etwa die Firma Element CXI, die das Konzept ihres "Superclusters" vorstellte.

Wie Lego-Steine sollen kleine Elemente verschachtelt werden, die für verschiedene Aufgaben entwickelt wurden, aber mit gleichem "Footprint" der Input-, Output-, Konfigurations- und Statusports daherkommen. Sechs Maschinen-Elemente bilden zusammen mit einem Memory- und einem Status-Element einen Cluster und viele Cluster einen Clusterbaum. Konkrete Hardware gibt es aber noch nicht – da ist Intellasys mit ihrem SeaForth-24 schon deutlich weiter; die Firma will noch in diesem Jahr die Volumenproduktion aufnehmen. SeaForth ist ein Cluster mit 6×4-Knoten auf einem Chip, jeder hat sein eigenes kleines Betriebssystem beziehungsweise BIOS – und wie der Name schon sagt, läuft das Ganze unter einer neuen Forth-Version. Und niemand anders als Forth-Erfinder Chuck Moore – nicht zu verwechseln mit dem gleichnamigen AMD-Fellow, der am Vortag ein paar Details zum AMD Quad-Core verriet – hielt in seiner Eigenschaft als Cheftechnologe (CTO) von Intellasys die Präsentation. FFT, DCT für Multimediaaufgaben und so weiter – alles Anwendungsgebiete für den Cluster on a Chip bei einem Zielpreis von 10 Dollar. Sechs Knoten reichen für MPEG-2-Dekodierung, zwei verfügen über D/A-Wandler (9-bittig). Dann gibts noch A/D-Wandler (18-bittig) und diverse I/O-Ports. Mit 48K Mips pro Watt (bei 500 mW maximal) liegt die Technik bezüglich Energieeffizienz gut im Rennen. Das geplante Entwicklungsboard soll bis zu vier solcher Chips aufnehmen.

HDTV steht auch im Mittelpunkt des massivparallelen Prozessors (MPP) von Connex Technology. Ein riesiges Array von derzeit 1024 Zellen (CA1024), umgeben von einem Instruction Sequencer und einem I/O-Controller, verbunden über ein Switch Fabric, steht hier für Rechenaufgaben zur Verfügung. Die Zellen lassen sich zu einem Vektorrechner, etwa für FFT konfigurieren. Eine C-Erweiterung (CPL: Connex Programming Language) soll das Programmieren zum "Kinderspiel" machen. Die DCT-Performance beträgt laut Connex 0,35 Takte pro Pixel. Nach außen führen diverse Audio- und Videokanäle, Flash- und DDR-Speicheranschlüsse et cetera. Der CA1024 wird von TSMC im 0,13-µm-Prozess hergestellt, Muster soll es im Q3 geben.

Tarari – ein Spin-out von Intel – hat einen Beschleuniger für WMC-Encoding entwickelt. (Klicken für vergrößerte Ansicht)

Viel Trara macht auch das Intel-Spinout Tarari um HDTV. Ihr "Tarari Encoder Accelerator Grand Prix 6000" soll die HDTV-Encodierzeit eines 2,5-Stunden-Films von derzeit 78 Stunden auf 2,5 Stunden reduzieren – es also in Echtzeit schaffen. Dabei kümmert sich der aus zwei Xilinx-FPGAs und einem Controllerchip aufgebaute Beschleuniger vor allem um die Motion Estimation, die DCT und die Quantisierung, die den Löwenanteil der Rechenzeit verschlingen. Dank der guten Kontakte über die Mutterfirma ließ sich Microsoft bewegen, eine passende Schnittstelle für ihren WMV-Encoder im Mediaplayer einzuplanen. Man muss die PCI-X-Beschleunigerkarte also nur einstecken und ein paar DLLs laden – dann läuft alles Enkodieren wie von selbst 30-mal schneller, meint man bei der Firma. Aber man braucht dafür auch das nötige Kleingeld – die Beschleunigerkarte soll rund 10.000 Dollar (Einzelpreis) kosten.

Um deutlich günstiger HDTV de- und enkodieren zu können, hat die erst im Oktober 2005 gegründete Firma Vivace Semiconductor zwei Videoprozessoren für portable Media-Player (VSP200) und Digital-TV (VSP300) entwickelt. Der VSP200 beschränkt sich auf 720p-Auflösung und Stereo, der VSP300 kommt mit 1080p und 5.1-Surround zurecht. Die Prozessoren sind eigenlich eher vollständige Rechnersysteme, rund um einen Vivid genannten Kern, der aus vier DSPs aufgebaut ist (JazzDSPs), und einem ARM926-Kern, zusammen mit stattlicher Peripherie:USB, PCI-X, Ethernet mit 10/100/1000 MBit/s, SATA, Timer, Interrupt-, DMA,-, Flash- und Memory-Controller et cetera.

Die Systeme laufen unter Linux 2.6; Vivace hat auch an die nötigen Systeme zum digitalen Rechtemanagement samt einer Kryptoeinheit gedacht. Zum Enkodieren (D1) samt Audio benötigt man einen Vivid-Kern von 160 MHz, zum D1-Dekodieren reichen 145 MHz; für das einfache CIF-Format sind 50 MHz ausreichend. Im letzten Fall verbraucht der Vivid-Core nur 80 mW, fürs D1-Dekodieren schlagen 150 mW zu Buche (der ganze VSP300-Chip verbraucht 450 mW). Ab September sollen die ersten Muster, zunächst vom VSP200, erhältlich sein.

HDTV aus Hannover: Sci-worx Multistandard-Videode- und -Encoder Muvistar (Klicken für vergrößerte Ansicht)

Und dann konnte auf dem Forum auch wieder eine deutsche Firma mit einem neuen Design brillieren: Sci-worx. Die Hannoveraner sind vor gut einem Jahr eine Partnerschaft mit Tensilica eingegangen und präsentierten nun einen Multistandard-Videoen- und -decoder namens "Muvistar" rund um Tensilicas Xtensa. Sci-worx fügte Caches und RAM, Speicherinterfaces und Videoerweiterungen sowie einen "intelligenten" DMA-Controller hinzu, der on the fly Daten umordnen und ausrichten kann.

Der erste Vertreter Muvistar 4000 ist ein Single-Core-Chip mit 340 kGatter, der bei 150 MHz Takt die VGA/CIF-Auflösung (p:progressiv) sowie MPEG4-Dekoding schafft (H.264). Später im Jahr sollen die schnelleren Muvistars 5000 und 6000 hinzukommen, die für D1-Dekodieren (i und p) vorgesehen sind. Gegen Ende des Jahres soll der Dual-Core Muvistar 8000 fürs schnellere sEnkodieren von D1 und Anfang nächsten Jahres ein 4-Kern-Muvistar folgen. Der jetzt bereits erhältliche Muvistar 4000 ist nur 6 mm2 groß und verbraucht bei 1,2 V 0,29 mW/MHz.

Zum Spring Processor Forum siehe auch: (as)