[#81]
Re: Nowa, szybka konwersja chunky-to-planar
@kiero,
post #80
To ja wrzucę komentarz Ostera, który oczywiście potwierdza to co mówi Kiero:
"Nigdy nie robiłem porównania wydajnosci . Myślę, ze jezeli chodzi o ilość samych transformacji, to jestesmy blisko optimum i nie ma co tu za dużo mieszać bo uzysk nie bedzie istotny.. Zresztą tak jak ktoś mądry pisze w tym watku, największym ograniczeniem jest szybkość chip ramu. Dlatego w tych wersjach na 040 w górę, zapisy do chip ram są tak poprzestawiane żeby mogły się wykonać w ich "cieniu" jakieś inne instrukcje przed kolejnym zapisem do chip (muszą one być od siebie jak najbardziej oddalone). Dodatkowo kolejność instrukcji jest tak ustawiona, zeby unikać sąsiadujących odwołań do tych samych rejestrów (superskalarność na 060 jest i trzeba to wykorzystywać).
Jednak to wszystko to i tak za mało - chip ram rozwala całkowicie wydajność.
Miałem tutaj kilka dość karkołomnych pomysłów, np.
- C2P robić do fast, a nastepnie przepisywac po kawałku do chip w czasie kiedy procesor robi coś innego, np. liczy scenę lub cokolwiek innego, za pomoca jakiejś procedury działającej np. w przerwaniu, itd.. Ale trzeba by dokładnie zbadać jaki by to miało wpływ na wydajnosc żeby coś sensownego powiedzieć.
- Można to zoptymalizować o kopiowanie do chip tylko regionów które się zmieniły od ostatniej ramki, ale w demie które ma pełnoekranowe pikselowe efekty najczęściej zmienia się 100% bufora, wiec tutaj też uzysk dyskusyjny...
- W zasadzie wszystkie współczesne podejścia powinny się koncentrować jak maksymalnie szybko przepisać coś z fast do chip - tu jest potencjał. O czym ludzie w temacie doskonale wiedzą.
- Ktoś w wątku pisze o wykorzystaniu MMU - trudno powiedzieć czy to właściwy trop, trzeba by pokombinować.
Cały czas mamy jedną ciekawą rzecz, która była innowacyjna przy ograniczeniach A500, a mianowicie wersję z ditheringien skali szarości 256 -> 16 kolorów. Było nawet intro z tym ;)
Temat C2P jest maksymalnie wyeksploatowany - nie sądzę żeby jakiś przełom miał się tutaj urodzić, bo czysta matematyka i architektura chip vs fast na to nie pozwala."