Дейв Бурски
Современные модули памяти RDRAM, SGRAM, DDR SGRAM имеют высокое
быстродействие и низкую потребляемую мощность.
В мире графических подсистем имеются три ключевых технических требования, являющихся
краеугольными камнями характеристик системы — скорость, скорость, и еще раз скорость.
Разумеется, другие параметры, например, низкая стоимость, также играют важную роль при создании
доступных графических подсистем. Поэтому два, как правило, противоречащих друг другу направления
на повышение производительности и снижение потребляемой мощности совпадают, так как являются
основополагающими для графических подсистем и памяти.
Разработчики динамических ОЗУ (DRAM) в настоящее время работают над созданием модулей памяти с новыми
архитектурами, которые могли бы обеспечить требуемые характеристики и имели низкую стоимость. Такие
изделия необходимы в системах, где программное обеспечение требует очень высокой производительности,
или где для обработки видео и двух- и трехмерных анимационных изображений требуется быстродействующий
графический контроллер.
Для достижения требуемой производительности изготовители DRAM разработали несколько поколений архитектур,
которые могут быть использованы в графических приложениях. Сюда входят различные типы памяти, такие как
стандартные модули DRAM с быстрым страничным доступом, двухпортовые модули VDRAM, модули DRAM с расширенным
выходом данных, а также большое количество принципиально отличающихся архитектур нового поколения.
Это новое поколение включает в себя такие устройства, как Rambus DRAM, доступные сейчас в двух разновидностях:
Direct RDRAM и Concurrent RDRAM, синхронные графические DRAM (SGRAM), и новейшие SGRAM с удвоенной скоростью
передачи данных (DDR SGRAM).
По оценкам компании Hyundai Electronics America, сделанных на основе анализа рынка, на настоящее время
модули EDO DRAM составляют приблизительно 10% рынка графической памяти, модули SGRAM занимают около 70%,
модули RDRAM — приблизительно 10%, а оставшиеся 10% составляют все другие архитектуры (рис. 1). Некоторые
архитектуры памяти, не достигшие господствующего положения на рынке, в тоже время стали незаменимыми в
ограниченном кругу приложений. Сюда можно отнести специальные трехпортовые модули DRAM производства компании
NEC, многоблочную память MDRAM производства компании Mosys, кэш-память (в двух версиях, одна из которых
была разработана компанией Mitsubishi, а другая — компанией Ramtron, которая сейчас носит название
Enhanced Memory Systems), а также Window RAM производства Samsung. Из всего перечисленного, наиболее
интересными являются модули Window RAM, на настоящий момент находящиеся вне конкуренции, а модули
MDRAM были разработаны только для единичных графических подсистем.
Некоторые производители мощных графических рабочих станций пытались разрабатывать собственные модули
памяти исключительно для своего оборудования. Например, компания Sun Microsystems совместно с Mitsubishi
разработала уникальную графическую память для своих высокопроизводительных графических рабочих станций.
Помимо развития собственно архитектур памяти, графические контроллеры значительно расширили свои буферные
интерфейсы кадров. Ушли в прошлое 32-разрядные шины между графическим контроллером и буферной памятью.
Большинство современных графических контроллеров использует 64-разрядную шину (а некоторые из них даже
более широкие шины — от 128 до 192 разрядов) для перемещения больших объемов данных за каждый отдельный
цикл работы шины, а длительность этих циклов имеет тенденцию снижаться. Типичная для кристаллов
двухгодичной давности скорость шины, равная 50 МГц, сейчас кажется крайне низкой, поскольку новые модули
памяти позволяют передавать данные с тактовой частотой от 83 до 125 МГц.
В последнее время от портативных компьютеров также требуется большая производительность, но здесь имеется
одно дополнительное ограничение: системы должны иметь низкий уровень потребляемой мощности. Для выполнения
этого требования большинство производителей портативных графических контроллеров начали объединять модули
DRAM и контроллеры на одном кристалле. Такой подход значительно снижает потребляемую мощность и позволяет
достичь производительности, сравнимой с производительностью обычного настольного графического контроллера,
при стоимости, сопоставимой с многокристальным исполнением для настольных систем (обычно от $35 до $50 за
кристалл) (врезка “Встраивание DRAM”).
Для удовлетворения запросов рынка высококачественного графического оборудования начали появляться кристаллы
с 128-разрядными шинами, позволяющие передавать за один цикл вдвое больший объем данных. Однако, применение
таких широких шин на практике помещает в центр внимания одну из ключевых проблем памяти в графике: степень
ее детализации.
Большинство графических адаптеров и подсистем на материнской плате поставляется с базовым количеством
памяти. Они поддерживают большинство режимов работы монитора компьютера с разрешением 640 х 480, 800 х 600,
1024 х 768 точек, а некоторые — режимы с разрешением 1280 х 1024 или 1600 х 1200 точек. Большинство популярных
графических плат и компьютеров со встроенными графическими подсистемами на материнской плате имеют кадровый
буфер объемом 2 Мбайт. Этого объема памяти достаточно для нормальной работы в первых трех режимах, причем
в первых двух из них — для отображения истинного цвета (true color). При выборе более высокого разрешения
количество отображаемых цветов значительно снижается. Дополнительные 2 Мбайт памяти позволяют обеспечить
режим true color в большинстве популярных режимов разрешения.
Однако, в отличие от большинства вычислительных систем, где действует правило “чем больше — тем лучше”,
объем памяти графических систем обычно не превышает 4–8 Мбайт. Реализация такого объема памяти проблематична
при использовании стандартных модулей DRAM, которые, как правило, не производятся с шириной слова более 16
бит. Предположим, что требуется реализовать обычный для современного рынка кадровый буфер с объемом 4 Мбайт.
При использовании доступных 4-Мбит модулей памяти с 8-бит шиной данных потребовалось бы восемь таких устройств.
При этом реализация кадрового буфера с объемом памяти 2 Мбайт была бы невозможна, так как использованная
степень детализации (512 8-бит килослов) не допускает организацию буферов меньших размеров.
По мере повышения плотности модулей памяти, становится возможной их реализация с более широкими размерами
слова для удобства использования. Так произошло с 16-Мбит модулями DRAM. Сейчас имеются несколько различных
модулей памяти с 16-бит словом данных, обеспечивающих разработчиков одним 16-бит мегасловом, что дает
возможность строить кадровые буферы объемом 8 Мбайт на основе четырех кристаллов. Однако, для большинства
приложений нет необходимости в 8 Мбайт видеопамяти.
Для решения этой проблемы существуют три подхода: увеличивать ширину шины передачи данных до 32 бит, чтобы
для реализации 2- и 4-Мбайт буферов памяти были необходимы только два кристалла; уменьшать емкость памяти
до промежуточного уровня 8 Мбит (512 16-бит килослов или 256 32-бит килослов), чтобы для реализации 4-Мбайт
буфера потребовалось бы два или четыре кристалла; перейти к принципиально отличной архитектуре построения
памяти, например RDRAM.
В настоящее время модули RDRAM используют байт-последовательный интерфейс, но в ближайшее время станет
доступным слово-последовательный интерфейс с шириной слова 16 бит (Direct RDRAM). Интерфейс модулей RDRAM
позволил бы системам использовать только один 16-Мбит RDRAM для формирования 2-Мбайт буфера, или два
кристалла для формирования 4-Мбайт буфера. В отличие от широкого слова модулей DRAM, которые требуют
16- или 32-разрядной шины данных для связи с графическим контроллером, интерфейс модулей RDRAM требует
меньшего количества линий данных. Здесь требуется только 8 или 16 линий для передачи данных, а также
несколько линий для передачи сигналов управления. Это позволяет размещать модули RDRAM в корпусах с
меньшим количеством выводов по сравнению с 16- или 32-бит микросхемами DRAM, а также значительно снизить
число выводов разъема графического контроллера, что приведет к снижению его конечной стоимости. Для
улучшения пропускной способности контроллера в него может быть введен второй интерфейс RDRAM, что обеспечит
второй высокоскоростной канал передачи данных.
В течение нескольких лет ядро архитектуры графической памяти представляли собой модули VRAM —
двухпортовые модули DRAM, которые позволяют независимо записывать и считывать данные через любой из
портов. Главный порт здесь представляет собой стандартный порт со случайным доступом, в то время как
графический порт оптимизирован для пакетной передачи данных в графическую подсистему через два конвертирующих
регистра сдвига. Однако, выделение на кристалле дополнительной области под регистры сдвига и управляющие
цепи увеличило затраты на производство VRAM, поэтому конечные изделия оказались на 30–50% дороже по сравнению
со стандартными микросхемами DRAM.
Коренной перелом
Появление более высокопроизводительных модулей памяти с расширенным выходом данных
(EDO DRAM), а затем быстрое развитие архитектур синхронной памяти (SDRAM) приостановило разработку проектов,
основанных на VRAM архитектуре. В то же самое время это расчистило путь для развития модулей синхронной
графической памяти (SGRAM), и сейчас при-мерно каждый поставщик синхронной памяти предлагает на продажу
модули SGRAM.
Устройства SGRAM очень похожи на стандартные модули SDRAM, за исключением того, что они имеют
несколько дополнительных функций, повышающих их эффективность в графических системах. Функции
Block-Write и Write-Per-Bit были добавлены, чтобы сделать операции чтения и записи данных более
быстрыми и эффективными. Эти функции активизируются с помощью специальных режимных регистров и
дополнительных выводов управления, через которые загружается соответствующая информация.
Первое поколение модулей SGRAM представляет собой 8-Мбит устройства имеющие 256 32-бит килослов. Они
обычно выполнены в квадратном пластмассовом корпусе стандартной или малой толщины с 100 выводами,
расположенными по всем четырем сторонам корпуса. Для формирования 2-Мбайт кадрового буфера 64-разрядного
графического контроллера потребовалось бы только два таких устройства.
Сейчас большинство производителей поставляют 16-Мбит модули второго поколения. Эти устройства имеют
удвоенную глубину слова, поэтому на двух кристаллах будет построен уже 4-Мбайт буфер. Новые версии изделий,
выпуск которых запланирован на ближайшее время, предлагают разработчикам два подхода, направленные на повышение
производительности: более высокую тактовую частоту и удвоенную скорость обмена данными (DDR). Разными
разработчиками делаются попытки создания однокристальных 64-бит модулей SGRAM, но на настоящий момент ни одна
из компаний не объявила о выпуске такой микросхемы.
Большинство современных 8-Мбит модулей SGRAM имеют тактовую частоту передачи данных 83 или 100 МГц. К концу
прошлого года производители памяти предлагали устройства, работающие на частотах 125 и 143 МГц. Однако,
для 16-Мбит поколения разработчики применили метод, аналогичный используемому в модулях SDRAM. Для эффективного
удвоения скорости передачи данных здесь используются оба фронта тактовых импульсов. Поэтому последовательность
тактовых импульсов с частотой 100 МГц будет управлять передачей данных со скоростью 200 МГц. Это новое поколение
позволит довести пропускную способность модулей SGRAM до 800 Мбайт/с, обеспечивая графическим системам великолепную
производительность.
Высокие скорости шин модулей SGRAM могли легко стать причиной многих проблем, связанных с наличием шумов и
отражений в них. Однако, этого не происходит вследствие применения низковольтной TTL логики и расположения
микросхем памяти в непосредственной близости к контроллеру.
С другой стороны, разработчики серьезно изучают возможности применения в шинах со скоростями свыше 125 МГц интерфейсов,
выполненных по новой технологии последовательной нагруженной на концах логики (SSTL-2). Интерфейс SSTL-2
позволит без проблем рабо-тать с шинами с частотой 143 МГц и выше (166 и 180 МГц), которые планируется
применять в графических подсистемах ближайшего обозримого будущего.
Одним из самых быстродействующих современных устройств с максимальной тактовой частотой 150 МГц является
16-Мбит модуль DDR SGRAM производства компании IBM. Обеспечивая максимальную пропускную способность по сравнению
с любыми доступными модулями SGRAM, составляющую 300 Мбит/с для каждого вывода данных, эта микросхема достигает
пиковой скорости передачи данных по 32-разрядной шине, равной 1,2 Гбайт/с. Микросхема имеет организацию из 512
32-бит килослов, использует входной и выходной буферы, совместимые с интерфейсом SSTL-2, и имеет напряжение
питания 3,3 В. Центральный уровень сигналов SSTL Vref составляет 1,25 В относительно земли, постоянная составляющая
высокого и низкого входных уровней (Vih и Vil) равна Vref±0,18 В, а переменная составляющая равна Vref±0,35 В.
Как только входной сигнал достигает этих значений, он изменяется и переходит в новое состояние.
Внутренне микросхема SGRAM имеет четырехбанковую организацию из 128 32-бит килослов, разделенных синхронным
интерфейсом (все сигналы записываются в момент прихода положительного фронта синхроимпульса). Дополнительно
функции DQ и DQ-Mask срабатывают в момент времени, находящийся в середине между двумя тактовыми импульсами.
Блоки записываемых данных могут иметь длину 2, 4 или 8 адресов. Сигнал строба данных служит для разрешения
чтения данных в момент прихода каждого фронта тактовых импульсов. Память также имеет функции блочной записи
Block-Write для 16 столбцов данных и побитовой записи Write-Per-Bit, которые могут комбинироваться согласно
определенному состоянию линии управления DM0-DM3 (рис. 2).
Большинство остальных разработок микросхем SGRAM имеет двухбанковую архитектуру для 8- и 16-Мбит модулей
SGRAM с единичной скоростью чтения данных. Компании Etron, Fujitsu, Hitachi, Hyundai, Micron, Mitsubishi,
Mosys, NEC, Samsung, Siemens и некоторые другие взяли за основу и производят устройства с единичной скоростью
чтения данных. Все они разработали также готовое к производству собственное DDR исполнение. Двухбанковые
16-Мбит модули SGRAM про-изводства компании Mitsubishi являются типовым изделием, предлагаемым еще дюжиной
производителей (рис. 3).
В общем случае, модули SGRAM ведут себя аналогично SDRAM, где все входные сигналы записываются с приходом
положительного фронта тактового импульса, а данные могут быть записаны и считаны блоками из 1, 2, 4 или 8
бит, а также равными полной странице. После того как строка активизирована, для каждого блока требуется
только стартовый адрес столбца. Внутренний счетчик увеличивает адрес столбца в блоке данных для всех адресов
после первого. Когда параметры чтения или записи сконфигурированы, процесс продолжается до окончания блока
данных или до прерывания для работы с новыми данными, принимаемыми или передаваемыми на каждом такте блока.
Для перехода к новой строке текущая строка должна быть полностью предза-гружена. Активизация новой строки
будет возможна только после этого.
Модули SGRAM имеют много программируемых функций, поэтому разработчики должны создать систему, имеющую
возможность конфигурирования как в момент инициализации, так и во время обработки графических данных. Благодаря
небольшому встроенному интерпретатору команд производится начальная установка длины блока данных, значения
задержки строба адреса столбца, режима побитовой записи Write-Per-Bit, режима блочной записи Block-Write
для 8 столбцов данных и регистра цвета, а также изменение этих параметров по мере необходимости.
Хотя модули EDO DRAM и VRAM все еще используются приблизительно в 10% всех производимых графических систем,
фактически никаких новых разработок с этими архитектурами не ведется. Синхронная графическая память (SGRAM) в
настоящее время является наиболее популярным устройством, используемым приблизительно в 70% всех графических
систем. Оставшиеся 20% рынка используют RDRAM и WRAM, что скорее всего объясняется типом применяемых в
оборудовании разъемов. Кроме того, некоторые производители все еще используют MDRAMS и другие типы памяти.
Растет популярность самой последней реализации модулей памяти RDRAM — Direct RDRAM, которая имеет высокое
быстродействие и небольшую стоимость и может без особого труда использоваться в графических приложениях.
Предлагая удвоенную ширину слова по сравнению с оригинальными устройствами RDRAM, модули Direct RDRAM имеют
организацию на основе 16- или 18-разрядных слов (два дополнительных бита данных или контроля четности).
Они имеют глубину 2 или 4 мегаслова, и обеспечивают хранение 32/36 или 64/72 Мбит информации на одном
кристалле.
Выпуск этих перспективных модулей Direct RDRAM намечен на этот год. Они обеспечат скорости обмена
данными 1200 и 1600 Мбайт/с (для тактовых частот шины 600 и 800 МГц соответственно). Микросхемы выполнены
в малогабаритных корпусах (соизмеримых с размером кристалла), имеющих выводы с малой паразитной индуктивностью.
Чтобы достичь таких скоростей, используют собственную технологию RLS (Rambus signaling-level) для передачи данных.
Внутренняя многоблочная архитектура модулей RDRAM обеспечивает максимальную пропускную способность для
многократно повторяющихся, беспорядочно адресованных операций работы с памятью. Встроенные 16 банков хранения
данных памяти позволяют кристаллу одновременно обрабатывать до четырех 2-байт операций за 1,25 нс.
Кристаллы также разрабатывались с целью обеспечения минимального времени доступа. Для записи данных
используется встроенный буфер записи, который после пересылки данных позволяет хост-контроллеру перейти к
выполнению других задач. Три предзагрузочных механизма обеспечивают контроллеру памяти высокую гибкость,
а способность чередовать операции помогает повысить эффективность передачи данных.
В дополнение к высокой скорости обмена данными, модули Direct RDRAM очень экономичны. Передовые способы
управления питанием позволяют им снизить рабочий ток потребления. Модули Direct RDRAM имеют шесть
режимов, позволяющих снизить потребляемую мощность относительно базового значения за счет того, что
различные части схемы кристалла выключаются и включаются в зависимости от состояния сигналов управления.
Модули, выполненные по альтернативной технологии параллельной Concurrent RDRAM, позволяют выполнять
два набора операций одновременно с целью повысить скорость выполнения чередующихся операций. Такие
модули памяти будут работать с тактовой частотой шины до 600 МГц, что соответствует скорости передачи
данных до 1,2 Гбайт/с. По мнению разработчиков, использование микросхем Concurrent RDRAM позволит увеличить
производительность графических, мультимедийных и других приложений на 15% относительно обычных модулей
RDRAM. Модули Concurrent RDRAM имеют 16/18- и 64/72-Мбит исполнение при ширине слова 8 или 9 бит
соответственно. Низкое время доступа обеспечивается использованием 1- или 2-кбайт усилителя считывания
в качестве быстродействующего кэширующего буфера, а также использованием режима случайного доступа
(постраничного режима) для облегчения перемещения больших объемов данных.
Другие альтернативные типы памяти для графических систем, например, WRAM, MDRAM, и кэш-DRAM о
беспечивают разработчиков решением единичных задач для определенных графических приложений. В течение
последних двух лет скорость большинства графических подсистем со средней и высокой производительностью
намного превысила скорости систем, построенных на базе WRAM. Модули WRAM обеспечивают пиковую пропускную
способность приблизительно 200 Мбайт/с, что составляет приблизительно половину от скорости самых
медленных модулей SGRAM (83 МГц). Несмотря на это, вооруженные самыми последними технологическими процессами,
разработчики компании Samsung предполагают коренным образом улучшить характеристики этого типа памяти и
выдать рентабельное решение для применения в конечных системах.
Двухпортовые модули WRAM имели некоторый успех в качестве однокристального кадрового буфера.
Помимо 16-бит слово-последовательного видеопорта, микросхема WRAM KM4232W259A имеет два расщепленных
128-байт последовательных регистра. Эти регистры обеспечивают работу внутренней 256-разрядной шины
связи с главной матрицей памяти, обеспечивая внутреннюю скорость 2,1 Гбайт/с при пакетной передаче
данных на выходные регистры видеосигнала. Слово-последовательный выход, тем не менее, может передавать
информацию контроллеру дисплея с максимальной тактовой частотой 100 МГц (время доступа 10 нс).
На кристалле реализованы графические операции прокрутки и выравнивания пересылаемых блоков. Выровненные
битовые блоки пересылаются на выход со скоростью 640 Мбайт/с, и обеспечивают пропускающую способность
200 Мбайт/с при тактовой частоте 100 МГц.
Для применения в качестве быстродействующего кадрового буфера компания Mosys предлагает модули MDRAM,
имеющие многоблочную архитектуру, обеспечивающую скорость передачи данных 666 Мбайт/с через
32-разрядный интерфейс. Микросхемы MDRAM серии MD9xx представляют собой усовершенствованные синхронные
модули DRAM, имеющие малые задержки и обеспечивающие пересылку блоков данных длиной от 4 до 128 байт.
Модуль MDRAM может рассматриваться как набор нескольких независимых 256-кбит (32-кбайт) устройств DRAM
с 32-разрядным интерфейсом, соединенных общей внутренней шиной. Внешняя 32-разрядная шина соединяется
с внутренней шиной через специальный буфер, играющий роль репитера данных. Независимость банков памяти
облегчает работу с перекрытием или “сокрытием” стробов доступа к адресу строки и потерь на предзагрузку
так, чтобы среднее время доступа приблизилось по значению к времени доступа к стробу адреса столбца.
Даже модули кэш-DRAM находят применение в графических системах, правда здесь они используются не в
качестве кадровых буферов. Вместо этого они применяются в трехмерных графических системах для поддержки
памяти текстуры. Например, недавно выпущенный усовершенствованный модуль SDRAM глубиной в одно 16-бит
мегаслово производства компании Enhanced Memory Systems объединяет два блока DRAM (по 8 Мбит каждый)
с временем доступа 30 нс и с двумя блоками SRAM (по 4 кбит каждый) с временем доступа 12 нс,
используемыми в качестве кэшируюшего регистра строк. Кэширование снижает время инициации памяти по
сравнению со стандартными модулями SDRAM, и дает возможность синхронной записи и чтения блоков на
скоростях до 133 МГц. Память может иметь двухстраничную организацию, при этом обе страницы DRAM могут
открываться одновременно, что позволяет увеличить скорость передачи данных.
При несовпадении страницы активизируется блок DRAM, и данные передаются в усилители считывания DRAM.
При команде чтения строку данных целиком загружают в SRAM регистр строки, и определенный начальный
адрес формируется после времени ожидания строба адреса столбца. Архитектура позволяет реализовать малое
начальное время доступа к данным любого из двух регистров строк при совпадении страницы. Так как
строки данных фиксируются отдельно от усилителей считывания DRAM, модуль ESDRAM может выполнить
автоматическую или неавтоматическую предзагрузку сразу после записи строки, что позволяет снизить
задержку на несовпадение страницы при следующей операции случайного доступа.
Таким образом, в настоящее время разработчики имеют широкий выбор устройств памяти различных
типов, что позволяет им находить компромиссные варианты при проектировании систем, оптимизированных
по стоимости и производительности. Кроме того, устройства памяти продолжают развиваться и
совершенствоваться. Разработчики активно работают над созданием архитектур следующего поколения,
которые обеспечат пропускную способность данных свыше 2 Гбайт/с — что необходимо для обработки
высококачественной трехмерной графики.
Electronic Design, март 1998 г.
Перевод Ю. Потапова