Правильная ссылка на эту страницу
http://az-design.ru/Support/Archiv/Elc1991/D19910228Elc010.shtml

Цифровая техника

УДК 621.3.049.77:681.3

Дейв Бёрски (Dave Bursky)
Редакция Electronics

Dave Bursky. ISSCC: Digital technology, ED, 1991, No.3, pp.53—55, 58—59, 62—65.

Новые ЦП со встроенными средствами параллельной обработки и блоками памяти усиленно выходят на уровень производительности суперкомпьютеров.

В последние несколько лет часто используется броская фраза «система на кристалле» — она подчеркивает громадный скачок степени интеграции, достижимый в настоящее время для СБИС. Однако однокристальные ЦП, содержащие свыше миллиона транзисторов, логические ИС с несколькими сотнями тысяч логических вентилей и ИС памяти с 64 миллионами запоминающих элементов, о которых идет речь на МКИС-91, свидетельствуют о том, что наши прежние представления о системе на кристалле были в определенной мере рудиментарными, упрощенными. Новые уровни интеграции — это далеко не просто увеличение числа схемных элементов одного и того же вида, размещаемых на кристаллах. Новые технологии и архитектуры открывают путь к созданию гораздо более сложных и многофункциональных систем на одном кристалле.

Современные усовершенствованные ЦП обладают, например, гораздо более высокими техническими характеристиками, чем микропроцессоры, освоенные в производстве всего несколько лет назад. В них в гораздо более широких масштабах используется параллелизм работы функциональных блоков кристалла и имеется значительное число тесносвязанных встроенных подсистем памяти. Благодаря таким ресурсам процессоры в настоящее время достигают показателей быстродействия суперкомпьютеров — до 100 млн. команда/с.

Один подобный процессор 64-разрядный суперскалярный прибор с встроенным устройством для вычислений с плавающей точкой и дополнительными средствами для цифровой обработки сигналов (ЦОС), разработан в результате серьезной научно-исследовательской работы компанией National Semiconductor Corp. (Санта-Клара, шт.Калифорния). В этом процессоре используется 64-разрядная шина данных и содержатся два идентичных 64-разрядных целочисленных устройства, а также отдельный 64-разрядный конвейер для вычислений с плавающей точкой. Чтобы эту ИС было легче встраивать в системы, разработчики первоначально выбрали для него 25-МГц внекристальную тактовую частоту, а на кристалле разместили схему ФАПЧ, обеспечивающую удвоение внутренней рабочей тактовой частоты до 50 МГц. При работе с внутренней частотой 50 МГц ИС способна выполнять по две команды в каждом такте, благодаря чему, как заявляет компания-разработчик, предельное ее быстродействие достигает 100 млн. команда/с. Дополнительные средства ЦОС, размещенные на кристалле, позволяют прибору с успехом решать такие прикладные задачи, как передачи алфавитно-цифровых и речевых данных, управление факсимильными аппаратами и обработка изображений с показателями производительности, сравнимыми или даже превышающими показатели некоторых специальных цифровых процессоров сигналов (ЦПС) (более подробную информацию о процессоре компании National дает статья «Комбинация ЦП и ЦПС на кристалле с громадными функциональными возможностями», открывающая раздел «Методы, схемы, аппаратура».

Разработчикам компании Intel Corp. (Санта-Клара, шт.Калифорния) удалось повысить тактовую частоту своего процессора i486 до 100 МГц благодаря внедрению субмикронной технологии его изготовления (с 0,6-мкм эффективной длиной затворов). Эта технология предусматривает также использование трех слоев металлизации со сглаженными диэлектрическими слоями и вольфрамовыми контактными столбиками. При работе на тактовой частоте 100 МГц быстродействие процессора повышается на 300—400% по отношению к широко распространенному в настоящее время коммерческому 25-МГц варианту прибора i486. Модель процессора i486 с уменьшенными проектными нормами сейчас находится на стадии экспериментальной проработки; соответствующий кристалл имеет площадь, составляющую менее половины площади сегодняшнего кристалла, изготавливаемого по 1-мкм технологии. Такой выигрыш в площади достигнут главным образом благодаря трем слоям металлизации, причем с уменьшенным шагом прокладки проводников в каждом слое.

Хотя эта ИС, представляемая компанией Intel, реализует архитектуру процессора i486, в ней используются модифицированные схемные решения. Например, разработчики создали новую схему сумматора, в которой с целью повышения скоростных характеристик ограничено число проходных транзисторов в цепи переноса; благодаря этому прохождение переноса по 32-разрядному сумматору занимает всего 1,8 нc. С уменьшением площади кристалла уменьшаются и параметры паразитных элементов, снижающих быстродействие ИС. Кроме того, для уменьшения расфази-ровки тактовых сигналов и временных рассогласований при вводе-выводе разработчики применили также в схеме тактирования схему ФАПЧ. В подходе компании Intel схема ФАПЧ отличается от схемы компании National и обеспечивает сокращение времени удержания до нуля и минимизацию разбросов-времен установления и фиксации действительных выходных значений данных.

Суперконвейерная архитектура 32-разрядного процессора с управлением по данным, разработанного совместно компанией Mitsubishi Ltd (Итами, Япония) и Осакским университетом (Осака, Япония), позволила получить для этого однокристального прибора скорость выполнения векторных операций 50 млн. операций с плавающей точкой в секунду. Архитектура этого процессора имеет конфигурацию кольцевого типа и содержит интерфейсный блок, секцию компараторов памяти, память данных, память программ и арифметико-логическое устройство (АЛУ) с плавающей точкой (рис.1). АЛУ выполняет 32-разрядные целочисленные арифметические операции, а также 32-разрядные операции с плавающей точкой, например умножение. Блок памяти данных содержит пять независимых генераторов адресов, восемь секций памяти и матрицы коммутаторов, осуществляющих подключение генераторов адресов к секциям памяти. Блок позволяет осуществлять до пяти обращений к памяти параллельно.

Благодаря реализации принципов суперконвейерной архитектуры разработчикам компании Mitsubishi при построении процессора на основе потока данных удалос
Рис.1. Благодаря реализации принципов суперконвейерной архитектуры разработчикам компании Mitsubishi при построении процессора на основе потока данных удалось достичь скорости вычислений одинарной точности 50 млн. операций с плавающей точкой в секунду. Для предотвращения проблем, связанных с разводкой и расфазировкой высокочастотных синхросигналов, в процессоре использована схема самосинхронизации тактовых сигналов для различных функциональных блоков.

Слова данных поступают в прибор извне через его интерфесный блок. Эти слова сплетаются с циркулирующими внутри данными при помощи асинхронной схемы арбитража, которая осуществляет формирование пакетов данных, содержащих команду, тег назначения и операнды. В секции компараторов памяти тег поступающего пакета сравнивается с тегами всех пакетов, поступивших до него. Если обнаруживается совпадение, то образуется пара элементов данных для двухоперандной операции, посылаемая в память данных; в противном случае поступающий пакет остается в буфере секции компараторов. Векторные пакеты данных образуются каждые 20 нс, что соответствует предельной производительности 50 млн. операций с плавающей точкой в секунду.

Поскольку в машине на основе потока данных проблем перезаполнения конвейеров нет, такая суперконвейерная архитектура обладает хорошими показателями. В действительности каждый процессорный блок кристалла состоит из небольших конвейерных ступеней, число которых составляет от шести для секции компараторов памяти до 12 для АЛУ с плавающей точкой. Вместо того чтобы использовать высокую тактовую частоту, которая могла бы вызвать дополнительные проблемы проектирования из-за расфазировки тактовых сигналов и ухудшения параметров логических сигналов, разработчики применили способ самосинхронизации. Все функциональные блоки кристалла синхронизируются не от внешних, а от внутренних самосинхронизирующихся тактовых сигналов. Благодаря этому даже при очень высоком темпе следования пакетов данных процессор устойчиво сохраняет свою производительность, а его ток питания в ждущем режиме близок к нулю.

Разумная и эффективная самосинхронизация

Метод самосинхронизации применили также специалисты Станфордского университета шт.Калифорния при разработке КМОП-схемы 54-разрядного делителя с циклом 160 нс. Научно-исследовательская работа по созданию этой схемы финансировалась частично управлением DARPA, а частично по контракту SBIR (small business innovation research — «новаторские НИР для малых предприятий») через компанию Silicon Engines Inc. (Пало-Альто, шт.Калифорния). Кольцевая схема с самосинхронизацией, изготавливаемая по 1,2-мкм технологии, при выполнении операции деления с плавающей точкой вычисляет мантиссу частного по частям. При этом используется гораздо меньшая площадь кристалла, чем для схемы делителя на основе комбинационной логики. Средства локального управления предусматривают квитирование полностью асинхронных логических блоков, обеспечивающее самосинхронизацию всех операций. Чтобы избежать необходимости согласования задержек в различных трактах, во всей схеме в состав данных включается информация о завершении операций; при этом используются пары проводников с одинаковыми параметрами.

Кольцевой делитель организован в виде последовательности соединяемых каскадов, каждый из которых состоит из блоков с предзарядом (рис.2). Во избежание зависимости от сигналов управления, из-за которой могло бы снизиться быстродействие, число каскадов в контуре схемы выбрано таким, чтобы полностью использовать и перекрыть время, затрачиваемое на работу схем управления, так что задержки оказываются совершенно скрытыми. В схеме делителя имеется пять подобных каскадов. Поток обрабатываемых данных идет непрерывно с такой же скоростью, с какой он шел бы через «незацикленную» комбинационную матрицу. При этом время основных вычислений по сути суммируется с нулевыми «накладными расходами» на управление. Когда во входные регистры загружаются делимое и делитель, по сигналу пуска Go эта кольцевая схема с самосинхронизацией начинает выполнять свои итерации. Она выполняет максимум 11 циклов, чтобы заполнить пять сдвиговых регистров результатов двойной точности — всего 55 бит.

В схеме 54-разрядного модуля деления — пять вычислительных блоков с самосинхронизацией, каждый из которых содержит несколько сумматоров с запоминанием
Рис.2. В схеме 54-разрядного модуля деления — пять вычислительных блоков с самосинхронизацией, каждый из которых содержит несколько сумматоров с запоминанием переносов, сумматоры с распространением переносов и другие функциональные элементы. Каждый из этих пяти блоков реализует модифицированный алгоритм деления по основанию 2 с избыточностью. По мере определения значений двоичных разрядов частного происходит их накопление в пяти сдвиговых регистрах частного.

Для выполнения арифметических операций с высокой скоростью компаний Hewlett-Packard Co. (Форт-Коллинс, шт.Колорадо) и Texas Instruments Inc. (TI, Даллас) совместно разработали сопроцессор с плавающей точкой, способный при работе на тактовой частоте 65 МГц выполнять 33,2 млн. операция/с. Этот сопроцессор предназначается для поддержки RISC-процессора компании HP, и на его кристалле размером около 12,7*13,2 мм, изготавливаемом по технологии с 0,8-мкм топологическими нормами, размещается почти 640 тыс. транзисторов. Сопроцессор по сути дублирует конвейер команд архитектуры PA (Precision Architecture) компании HP и принимает 32-разрядные команды из той же самой командной кэш-памяти, которая «питает» ЦП. Слова данных переносятся по 64-разрядной шине в общую кэш-память данных. В схеме сопроцессора реализовано также несколько расширений по отношению к прибору компании HP, в частности для выполнения операций умножения с использованием трех регистров и независимых операций сложения или вычитания с использованием двух регистров. Далее, средства поддержки графических операций теперь предусматривают ускоренное выполнение проверок на отсечение, вычисление обратных величин для квадратных корней и целочисленное умножение.

Сопроцессор производит операции умножения и операции АЛУ с одинарной и двойной точностью с трехтактной задержкой. Его функциональные устройства способны принимать новую команду для выполнения в каждом втором такте. Чтобы свести к минимуму размер умножителя 64*64 бит, разработчики применили восьмеричное перекодирование данных. Частные произведения суммируются при помощи двоичного дерева. Благодаря 9-портовому регистровому блоку, содержащему 64 32-разрядных регистра, все секции кристалла получают данные с максимальной возможной скоростью. Регистровый блок имеет пять портов чтения, три порта записи и один сквозной порт, который не позволяет осуществлять запись в какой-либо регистр, но может служить источником данных для любого из портов чтения. Каждый из портов записи может также быть источником сквозной передачи данных в порт чтения.

Гибкий подпроцессор

Разработчики японской компании Hitachi Ltd. (Токио) не пошли путем повышения вычислительной мощности, а выбрали путь аппаратной эмуляции и разместили оригинальный программируемый подпроцессор на одном кристалле с ЦП. Этот подпроцессор предусматривает возможность задания гибкой конфигурации для реализации различных элементов, в том числе таймеров, последовательных связных портов и других функциональных блоков. Такой интеллектуальный подпроцессор способен разработать в многозадачном режиме — для этого используется один из видов планирования задач с разделением времени — и тем самым может эмулировать функции нужных периферийных устройств.

Работая с внешней тактовой частотой 20 МГц, подпроцессор выполняет микрокоманды с темпом 50 нс. Чтобы за столь короткий период времени сделать как можно больше, разработчики прибора применили длинное микрокомандное слово, позволяющее выполнять параллельно много операций. Каждое микрокомандное слово делится на четыре поля: это поля обработки данных, манипуляций с битами, нуллификации и программного управления. Каждое из этих полей осуществляет управление своей частью логической схемы кристалла, так что все эти секции работают в параллель. Для хранения информации о конфигурации на кристалле имеются два высокоскоростных СППЗУ — программная память емкостью 512 64-бит слов и память управления планированием емкостью 64 6-бит слов.

В состав подпроцессора входят также такие дополнительные блоки, как 16-разрядное исполнительное устройство, секция флагов периферийных интерфейсов — это 64 программируемых флага, в том числе 24 флага портовых интерфейсов,— а также различные линии внутренних флагов и сигналов прерывания. Все эти линии можно программировать для модификации конкретной операции АЛУ, управления выходом или нуллификации конкретной микрокоманды в зависимости от особых условий. Выполняя все эти управляющие действия параллельно, процессор может эмулировать сложные аппаратные функциональные блоки с затратой меньшего числа тактов, чем традиционный процессор. Например, для выполнения операции выдачи импульса при помощи счетчика событий здесь требуется только одна длинная микрокоманда, в то время как для достижения того же самого результата большинству микроконтроллеров потребовалось бы пять команд.

О высоком техническом уровне нового прибора свидетельствуют также его возможности многозадачного планирования. Средства планирования позволяют обеспечить псевдопараллельное выполнение до 12 задач благодаря использованию флаговых линий с разделением времени. Разработчики систем должны будут, как правило, выделять кванты времени для каждой конкретной задачи в соответствии с требованиями к быстродействию или к разрешающей способности для этой задачи. Назначение квантов времени и номера задач должны храниться в памяти управления планированием. Когда из ячейки этой памяти читается номер задачи, процессор может непосредственно приступить к ее выполнению без всяких накладных расходов времени на переключение задач. Таким образом, для каждой задачи показатель быстродействия можно рассчитать как произведение 20 млн. операция/с на коэффициент назначения кванта времени. Задачи можно считывать последовательно при помощи встроенных счетчиков, либо выбирать конкретные задачи по внешним запросам.

Еще один заслуживающий внимания процессор разработали совместно Университет шт. Северная Каролина (Чейпел-Хилл) и организация MCNC (Рисерч-Трайэнгл-Парк, шт. Северная Каролина); этот процессор предназначается для решения задачи сравнения структур ДНК в биомедицинских системах. Процессор содержит на кристалле 1,5 млн. транзисторов, работает с тактовой частотой 50 МГц и реализует базовую функцию, характерную для нескольких широко распространенных алгоритмов анализа последовательностей. При работе на частоте 50 МГц процессор способен выполнять 6,8 млрд. 16-разрядных вычислений/сравнений в секунду. Математическая функция процессора состоит в том, что он обрабатывает две последовательности символов и вычисляет величину, характеризующую степень совпадения этих последовательностей.

Прибор содержит 2196 процессорных элементов (ПЭ), вычисляющих инкрементные суммы для различных диагональных путей. Эти пути представляют схему поиска и последовательность базы данных для цепочек ДНК. Процессорные элементы обрабатывают данные, поступающие из встроенного ЗУПВ с организацией 448 28-бит слов. Из-за большого числа одновременно выполняемых всеми процессорными элементами операций мощность потребления прибора близка к 4 Вт. Почти 75% этой мощности приходится на долю схем синхронизации, поскольку для работы каждой из четырех глобально распределенных цепей синхронизации на большие емкостные нагрузки (520 пФ) пришлось применить способ двухфазной синхронизации без перекрытия импульсов.

На МКИС будут представлены три доклада по такому перспективному направлению вычислительной техники, как нейронные сети, выполняющие операции самообучения и вычисления предположительно по образу и подобию человеческого мозга; будут описаны некоторые из наиболее сложных существующих в настоящее время однокристальных нейронных процессоров. Самый крупный из таких процессоров, разработанный совместно компаниями Inova Microelectronics Inc. (Санта-Клара, шт.Калифорния) и Adaptive Solutions Inc. (Бивертон, шт.Орегон), содержит 11 млн. транзисторов на кристалле и способен выполнять 1,6 млрд. соединений в секунду. Процессор реализует многополевую модель представления изображений и разделяет задачу между 64 расположенными на кристалле процессорными элементами с одним потоком команд и многими потоками данных (SIMD), {Электроника, 1990, №23/24, с.8}. Два других нейронных процессора строятся на принципах аналоговой схемотехники. Первый, разработанный компанией Mitsubishi, содержит в эквиваленте 336 нейронов и 28 тыс. синапсов. Второй процессор, созданный компанией AT&T Bell Laboratories (Холмдел, шт.Нью-Джерси), реализует 4096 синапсов и может программироваться для работы с минимум 16 нейронами, имеющими по 256 входов каждый, или максимум 256 нейронами по 16 входов — или это может быть любая промежуточная комбинация.

Разработчики компании Mitsubishi предполагают строить нейронную сеть на двух ИС с архитектурой BNU (branch-neuron-unit — разветвленное нейронное устройство). Эти ИС можно соединять с многими приборами, чтобы увеличить общее число нейронов в 200 раз (в предположении, что для каждого нейронного устройства коэффициент полезного действия составляет 30%, а флуктуация 1%). Подобная сеть будет содержать 3300 нейронов и 5,6 млн. синапсов— что эквивалентно 11,2 млн. симметричных соединений. Метод BNU предусматривает распределение нейронной сети по многим ИС, при этом быстродействие оказывается независимым от числа соединенных ИС. Кроме того, хотя данный метод требует двух типов ИС — прибора, содержащего только синапсы, и прибора, представляющего комбинацию нейронов и синапсов,— для изготовления подобных ИС вполне можно воспользоваться методологией проектирования на основе базового кристалла типа вентильной матрицы.

Каждая ИС синапсов имеет схему управления обучением, реализующую алгоритм обучения машины Больцмана (впервые этот алгоритм описали Дейвид Акли и др. в журнале Cognitive Science, v.9, no.1, январь-март 1985г.). Время обучения не превышает 4 мкс в расчете на один шаблон обучения. Это время, которое затрачивается на попеременное сдвигание данных шаблона обучения и собственных данных нейронов, время установления для каждой фазы обучения и время на модификацию каждого синаптического весового коэффициента.

Разработчикам программируемого аналогового нейронного процессора из компании AT&T удалось достичь среднего быстродействия 5 млрд. переключений/соединений в секунду на кристалле размером всего 4,5*7 мм. Все внутренние вычисления производятся при помощи аналоговых функциональных схем, а все входы и выходы кристалла являются цифровыми. Вычисления выполняются с точностью 6 бит для весовых коэффициентов и 3 бита для состояний — этого вполне достаточно для многих прикладных задач классификации образов.

Основная функция ИС состоит в том, чтобы параллельно вычислять несколько логических произведений для векторов состояния и весовых коэффициентов и осуществлять нелинейную обработку — усреднение результатов. Реальные вычисления производятся при помощи восьми блоков векторных умножителей, каждый из которых содержит регистр-защелку для хранения вектора состояния, и восьми векторных АЛУ с 64 синапсами в каждом. Выходные данные векторных умножителей поступают на нейронные тела через мультиплексор, конфигурацию которого можно задавать таким образом, чтобы он коммутировал выходные значения от одного до четырех векторных умножителей. Подобные средства управления маршрутизацией и средства программирования встроенного сдвигателя и регистрового файла позволяют разработчикам задавать общую конфигурацию рассматриваемых процессоров.

Рост сложности вентильных матриц

В последнее время растут размеры и сложность не только заказных ИС — в аналогичном направлении идет развитие и таких более стандартных логических ИС, как вентильные матрицы. Одной из самых крупных в мире вентильных БиКМОП-матриц является разработанная компанией Toshiba Corp. (Кавасаки, Япония) ИС, содержащая 2 млн. транзисторов. В этой бесканальной матрице применен новый оригинальный БиКМОП-элемент, содержащий p-канальный МОП-транзистор в дополнение к традиционному КМОП-элементу с выходным прп-транзистором (рис.3). Новая ИС расссчитана на работу от 3,3-В источника питания и имеет средние задержки 230 пс/вентиль (при коэффициенте разветвления по выходу 7).

Введение дополнительного небольшого p-канального МОП-транзистора и инвертора между эмиттером и базой выходного npn-транзистора в логическом БиКМОП-вен
Рис.3. Введение дополнительного небольшого p-канального МОП-транзистора и инвертора между эмиттером и базой выходного npn-транзистора в логическом БиКМОП-вентиле позволило разработчикам компании Toshiba обеспечить его переключение с полным перепадом напряжения питания без снижения скорости. Кроме того, указанный транзистор с успехом играет роль элемента нагрузки, необходимого для построения триггеров или запоминающих элементов.

Полученную структуру компания называет BiPNMOS-структурой; здесь небольшой дополнительный p-канальный МОП-прибор используется для увеличения выходного перепада сигнала до полного напряжения питания. Для этого затвором транзистора управляет небольшой инвертор, формирующий инверсное значение выходного сигнала. Этот сигнал открывает или закрывает транзистор, причем без какого-либо тока утечки от следующего каскада логической схемы. Простой резистор здесь использовать нельзя, поскольку его сопротивление невозможно сделать малым — малое сопротивление шунтировало бы ток базы, что привело бы к утечке тока из следующего каскада. В результате произошо бы снижение быстродействия npn-транзистора.

Применение этих p-канальных МОП-транзисторов малого размера дает еще одно дополнительное преимущество: они удобны для реализации отдельных триггеров, регистров или запоминающих элементов ЗУПВ, поскольку для таких элементов не требуется, чтобы нагрузочные р-канальные МОП-транзисторы работали на длинные линии. На основе подобных элементов можно строить блоки ЗУПВ, ориентированные на высокое быстродействие либо высокую плотность упаковки. Вариант с высоким быстродействием характеризуется временем выборки 2,7 нс (при коэффициенте разветвления по выходу 7), а вариант с повышенной плотностью упаковки имеет время выборки около 4 нс. На кристалле размером почти 12,7*12,7 мм размещаются в общей сложности 237120 логических вентилей плюс 1044 элементов ВВ.

Стремясь к достижению максимального быстродействия вентильных матриц, компании Fujitsu Ltd. (Ацуги, Япония) и Rockwell International (Таузанд-Окс, шт. Калифорния) разработали подобные матрицы на основе арсенида галлия. Матричная СБИС компании Fujitsu для достижения высокой плотности упаковки выполнена на транзисторах с высокой подвижностью электронов (ВПЭ-транзисторы), тогда как прибор компании Rockwell при невысокой плотности упаковки отличается сверхвысокой скоростью и выполнен на биполярных гетеропереходных транзисторах (БГП-транзисторы). Прибор компании Fujitsu содержит 45 тыс. логических вентилей — это самое большое число вентилей на ВПЭ-транзисторах на кристалле на сегодняшний день,— причем это вентили двух типов. Вентили на полевых транзисторах с непосредственными связями (ПТНС) имеют задержки 35 пс/вентиль, а буферизованные ПТНС-вентили — 50 пс/вентиль. Буферизованный ПТНС-вентиль состоит из логического ПТНС-каскада, за которым идет буферный каскад на истоковом повторителе, что позволяет ему работать на более значительные нагрузки по сравнению с простым ПТНС-вентилем.

Чтобы получить максимальный коэффициент использования логических вентилей, на кристалле имеются четыре слоя металлических межсоединений, а в качестве межслойного диэлектрика применяется специальный кремнийорганический компаунд с малой диэлектрической проницаемостью (ε=3). При коэффициенте использования логических вентилей около 80% и питании от источников напряжением —1,4 и —2 В рассматриваемая арсенид-галлиевая матричная БИС потребляет всего около 11 Вт. Такая сравнительно небольшая мощность потребления позволяет применять прибор в системах с принудительным воздушным охлаждением.

Перед разботчиками арсенид-галлиевой матричной СБИС на основе ВПЭ-транзисторов компании Rockwell ставилась задача получить максимальное быстродействие. Новая ИС может работать с частотами переключения триггеров до 15,6 ГГц — это почти вдвое больше, чем показатели любых из когда-либо демонстрировавшихся вентильных матриц. Общая мощность потребления ИС составляет от 2 до 3 Вт в зависимости от коэффициента использования вентилей и мощности в расчете на вентиль, заложенной в процессе проектирования конкретных схем. Схемотехническое решение ИС похоже на схемы двухуровневой дифференциальной логики на переключателях тока, причем для каждой логической ветви можно выбирать ток 0,5, 1, 2 или 3 мА. Эти варианты выбора позволяют разработчикам с целью экономии мощности снижать быстродействие для тех участков схемы, для которых временные параметры не критичны.

Еще более быстродействующие схемы можно создавать на основе технологии приборов с переходами Джозефсона (ППД), о чем свидетельствуют два доклада представителей компании Fujitu. В первом из этих двух докладов научные сотрудники компании Fujitsu рассказывают о криогенной системе, совместно разработанной ими с компаниями Shinko Electric Industries Co. Ltd. (Нагано, Япония) и Toyo Sanso Co. Ltd. (Кавасаки) для компьютеров с субнаносекундными тактовыми частотами. Одна из основных проблем, с которой сталкиваются разработчики машин на базе таких приборов, заключается в обеспечении связи ППД-секции машины с остальными схемами. Пропустив кабели ВВ через вакуумную камеру, разработчики смогли реализовать совместное применение ППД-приборов и полупроводниковых логических схем с внесением задержки длительностью всего 130 пс. Для ППД-кристаллов рабочая температура 4,4 К обеспечивается при помощи З-Вт настольной установки охлаждения с замкнутым циклом. Благодаря новой конструкции этого криостата удалось получить длину кабелей всего 24 мм, что сводит к минимуму задержку сигналов. Кабели соединяются со схемами, не требующими глубокого охлаждения. Компания подтвердила, что ранее описанный ею 4-разрядный ППД-микропроцессор способен работать при тактовых частотах до 1,1 ГГц.

В другом докладе научные сотрудники компании Fujitsu описывают самый быстродействующий из известных 24-разрядный сумматор с выбираемым переносом. Этот 360-пс сумматор на основе ППД-схем имеет также время распространения переноса 300 пс. Для построения сумматора используется более тысячи логических вентилей, но эти вентили потребляют очень малую мощность— всего 1,8 мВт в режиме полного быстродействия.

На секции 11 специалисты компании National Semiconductor Corp. (Санта-Клара) представляют доклад о применении приборов квантовой электроники для выполнения арифметических и логических операций со скоростями, близкими к предельным. В качестве новых логических приборов предлагаются резонансные туннельные транзисторы со структурами GaAs/AlGaAs/InGaAs. Преимуществом этих приборов является то, что они имеют отрицательное дифференциальное сопротивление. Такие транзисторы можно с успехом использовать для построения логических элементов, поскольку выходные сигналы переноса плюс результаты логических функций И и ИЛИ они позволяют получать всего лишь с одной приборной задержкой — вместо нескольких таких задержек, типичных для современных логических схем.

Новые кристаллы динамических ЗУПВ

Новейшее поколение динамических ЗУПВ (ДЗУПВ), представляемое на конференции, приближается, по-видимому, к уровню истинно квантовой электроники — для их изготовления применяется фотолитографическое оборудование, обеспечивающее минимальные размеры элементов менее 0,4 мкм. На 6-й секции запланированы шесть докладов, описывающих пять 64-Мбит БИС памяти и схему организации резервирования для достижения максимального выхода годных; в этих докладах будут рассматриваться минимальные и максимальные предельные параметры одновременно. Исследование проблемы резервирования избыточности, проведенное специалистами компании Mitsubishi, позволило сделать два вывода в отношении ДЗУПВ емкостью 64 Мбит и более. Во-первых, если используются субблоки емкостью менее 1 Мбит, то на кристалле необходимо иметь более двух резервных строк и столбцов. Во-вторых, чтобы получить выход годных 80% при двух запасных строках и столбцах на каждый мегабитный блок памяти плотность дефектов должна составлять 5*1-4 или менее.

В пяти остальных докладах, представленных компаниями Hitachi, Matsushita Electric Industrial Co. Ltd. (Осака, Япония), Mitsubishi, Fujitsu и Toshiba, описываются подходы к построению 64-Мбит ДЗУПВ с временами выборки от 33 до 50 нс. Все эти ИС изготавливаются с минимальными размерами критических элементов от 0,3 до 0,4 мкм и работают от источников питания напряжением 3,3 В. Прибор компании Toshiba, имеющий среднее время выборки по стробу адреса строки (RAS) 33 нс, является самым быстродействующим из всех анонсированных на сегодняшний день 64-Мбит ДЗУПВ.

Для достижения высокой плотности компоновки разработчики создали асимметричный запоминающий элемент с многослойной конденсаторно-транзисторной структурой в глубокой канавке, размещенный между спаренными разрядными линиями. А для сокращения времени выборки в схеме кристалла было скомбинировано несколько технических решений — это словарно-управляющая линия с предвозбуждением, обходная управляющая линия усилителя считывания и трехкаскадный дифференциальный усилитель с непосредственно управляемым буфером выходных данных.

Словарно-управляющая линия с предвозбуждением компенсирует RC-задержки в длинных и сильно нагруженных словарных и управляющих линиях, проходящих через дешифраторы строк, благодаря чему время выборки сокращается на 3 нс. Увеличение емкостей разрядных линий из-за роста емкости матрицы памяти приводит к задержкам в фиксации сигнала на разрядной линии. Чтобы улучшить этот временной параметр, управляющие транзисторы усилителей считывания помещаются в областях шунтирования словарных линий, а линии питания Vss прокладываются вдоль разрядных линий во втором слое металлизации.

При запуске словарной линии заряд разрядной линии происходит не при помощи основной управляющей линии; он осуществляется при помощи обходной линии. Благодаря этому время срабатывания разрядной линии при фиксации сокращается на 5 нс. А для уменьшения времени считывания данных их необходимо считывать и передавать в непрерывном режиме при малых перепадах напряжения. Для этого используется квазистатический способ считывания данных ВВ с комплементарным сдвигателем уровня. По сравнению с обычной схемой считывания ВВ, включающей динамический регистр-защелку, этот новый способ позволяет уменьшить время считывания и передачи данных на 4 нс.

Компания Matsushita в своем докладе описала первое 64-Мбит ДЗУПВ с длиной слова 16 бит. В этом приборе используется сетчатая структура линий питания на поверхности кристалла, что позволяет свести к минимуму проблемы падений напряжения на линиях питания в моменты одновременного переключения многих линий ВВ. В структуре кристалла предусмотрены также экранные заземленные области вокруг периферийных схем, что способствует снижению помех в матрице памяти (рис.4). Сетчатая структура линий разводки питания позволяет эффективно разделить питание усилителей считывания и питание периферийных схем, благодаря чему подавляются перекрестные помехи между схемами ВВ и усилителями считывания.

Разработчики компании Matsushita снизили уровень обычных и перекрестных помех в своем однокристальном 64-Мбит ДЗУПВ благодаря применению сетки линий п
Рис.4. Разработчики компании Matsushita снизили уровень обычных и перекрестных помех в своем однокристальном 64-Мбит ДЗУПВ благодаря применению сетки линий питания и экранной области земли Vss. Это позволило им построитьвариант кристалла с 16-разрядной шиной данных без ухудшения характеристик из-за переключательных помех, возникающих внутри ИС

Снижению уровня перекрестных помех способствует также наличие экранных Vss-областей, уменьшающих связь между глобальными сигнальными линиями. Этот экран делается между полицидным слоем и верхним слоем металлизации, причем нижний слой металлизации соединяется с экранным слоем. Благодаря наличию таких экранов, а также другим схемотехническим решениям, время выборки по адресу составляет в ДЗУПВ 50 нс при токе потребления 130 мА.

64-Мбит прибор компании Fujitsu характеризуется не только впечатляющим 40-нс средним временем выборки, но и предусматривает режим «сжатого» тестирования, при котором в процессе каждого обращения проверяются сразу 64 бита, что ускоряет испытания прибора. Несколько менее быстродействующее 45-нс ДЗУПВ компании Mitsubishi превосходит прибор фирмы Fujitsu с точки зрения тестирования,— его архитектура тестирования с использованием совмещенных линий совпадения дает возможность проверять параллельно 64 кбит памяти, т.е. на все испытания ДЗУПВ затрачивается 1024 цикла.

Разработчики компании Hitachi, вместо того чтобы уделять основное внимание проблемам тестирования или повышения быстродействия, пошли по пути уменьшения размеров запоминающего элемента и матрицы памяти. В результате их научно-исследовальской работы был создан прибор, который компания называет «блочно-ориентированным ЗУПВ». В этой памяти используется матрица последовательно соединенных элементов, в которой к одному усилителю подключается в 64 раза больше запоминающих элементов, что уменьшает общее число необходимых усилителей. При этом емкость линии данных, подключаемой к усилителю, может быть уменьшена в восемь раз, что способствует сокращению времени выборки ЗУ. 64-Мбит ДЗУПВ, которые характеризуются высокой плотностью и малыми размерами элементов, считаются сейчас одними из самых перспективных, однако не менее активно осуществляется сегодня и совершенствование ИС памяти меньшей емкости. Так, корпорация IBM в своем научно-исследовательском центре имени Т.Уотсона (Йорктаун-Хайтс, шт.Нью-Йорк) разработала специальный прибор — 4-Мбит КМОП ДЗУПВ, на примере которого было доказано, что при температурах жидкого азота (85°K) ДЗУПВ с элементами в глубоких канавках могут иметь времена хранения более 50 мин. В рассматриваемом ДЗУПВ, которое предназначается для применений при низких температурах, используются р-ка-нальные МОП-транзисторы с поликремниевыми p+-затворами и n-канальные МОП-транзисторы с поликремниевыми n+-затворами, в результате чего оба типа транзисторов работают как приборы с поверхностными каналами (рис.5). А это важно, поскольку приборам с поверхностными каналами не свойствен паразитный эффект «вымораживания» носителей при низких температурах.

Чтобы упростить решение проблемы регенерации данных посредством создания низкотемпературных ИС, разработчики корпорации IBM модифицировали свою технол
Рис.5. Чтобы упростить решение проблемы регенерации данных посредством создания низкотемпературных ИС, разработчики корпорации IBM модифицировали свою технологию с целью обеспечения работоспособности ИС при температурах жидкого азота. Была изменена поликремниевая область затвора и добавлен силицид титана в области контактов истока и стока для уменьшения электрического сопротивления контактов. Кроме того, были уменьшены пороговые напряжения транзисторов, поскольку ИС работает при пониженном напряжении питания. Эти изменения отражены в таблице.

Напряжение питания было также снижено до 2,5 В, чтобы свести к минимуму проблемы горячих носителей и уменьшить мощность рассеяния. Кроме того, поскольку при низкой температуре пред-пороговые токи уменьшаются, для повышения быстродействия в ЗУ можно выбрать более низкое пороговое напряжение VT при малых температурах — 0,4 В вместо 0,7 В. Опытные образцы приборов, изготовленные с 0,7-мкм топологическими проектными нормами, проверялись при температуре 85°K. При работе от источника питания напряжением 2,5 В их запоминающие элементы способны сохранять данные более 50 мин.

Высокое быстродействие

Повышение быстродействия ДЗУПВ является постоянной целью их разработчиков. Один из возможных способов достижения этой цели, который должен вызвать интерес специалистов, описали представители компании Toshiba. Им удалось получить 17-нс время выборки для 4-Мбит ДЗУПВ благодаря использованию немультиплексированной шины адресов и схемы прямого считывания разрядных линий с двухкаскадным усилителем пропорционального тока («токовое зеркало»). Высокая чувствительность этого усилителя позволяет усиливать малый сигнал разрядной линии, не дожидаясь начала фиксации сигнала на данной линии, что способствует сокращению времени выборки. Кроме того, в. этом ЗУ традиционная линия ВВ была разделена на .линии входных и выходных данных.

Опытный образец-прибора был произведен по технологии, применяемой компанией при изготовлении своих 16-Мбит ДЗУПВ; новая ИС имеет кристалл размером 11,06*4,76 мм, который можно смонтировать в 32-контактный малогабаритный корпус с j-образными выводами. Используемая технология предусматривает три слоя поликремния, два слоя металлических межсоединений, 0,6-мкм минимальные размеры элементов и структуру с тремя типами карманов на подложке n-типа. На прибор подается напряжение питания 5 В, однако внутренний преобразователь снижает это напряжение до 4 В.

Вместо того чтобы использовать увеличенное количество контактов или снижать рабочие температуры, разработчики компании Hitachi для достижения такого же 17-нс времени выборки и 40-нс времени цикла пошли по пути применения БиКМОП-технологии с 0,8-мкм проектными нормами. При работе с длительностью цикла 60 нс их прибор потребляет ток питания 120 мА. Для достижения малого времени выборки разработчики использовали помехоустойчивый каскадный усилитель, обеспечивающий более быстрое считывание сигналов, и выходной буфер с перекрестными связями и сдвигом уровней для минимизации выходной задержки.

В области высокоскоростных 4-Мбит статических ЗУПВ (СЗУПВ) также устанавливаются новые рекордные показатели. Компания Fujitsu представила два доклада, в которых сообщается, что ей удалось довести время выборки для ТТЛ-совместимого БиКМОП СЗУПВ до всего лишь 10 нс, а для ЭСЛ-совместимого варианта — до 7 нс. Чтобы для ТТЛ-варианта снизить время выборки до 10 нс, разработчики применили 0,5-мкм КМОП-технологию при изготовлении матрицы запоминающих элементов и 0,8-мкм технологию для периферийных схем. Время считывания уменьшено благодаря использованию двухкаскадных усилителей считывания. Кроме того, они разработали комбинированный МОП-преобразователь уровней с перекрестными связями на p и n-канальных приборах, что позволило уменьшить задержку при преобразовании выходного сигнала биполярного дифференциального усилителя в КМОП-сигналы.

Одной из оригинальных особенностей ЭСЛ-совместимого СЗУПВ является предусмотренный в нем режим параллельного 16-бит тестирования, позволяющий сократить время испытаний прибора. Прибор предусматривает также возможность задания конфигурации 4М*1, 2М*2, 1М*4 или 512К*8 бит.

Сверхбыстродействующие микросхемы памяти всегда требуются разработчикам кэш-памяти и даже основной памяти для быстродействующих контроллеров или компьютеров. На конференции представлены три доклада, в которых сообщается о некоторых новых предельных возможностях, достигнутых разработчиками. Так, разработчики корпорации IBM создали, по-видимому, самое быстродействующее ЭСЛ-совместимое КМОП СЗУПВ — 512-кбит прибор с длительностью цикла 4 нс и временем доступа 2 нс. Столь высокая скорость была достигнута благодаря широкому применению конвейеризации и шеститранзисторных запоминающих КМОП-элементов.

Компании Fujitsu удалось добиться времен выборки менее 2 нс — она представила 1,2-нс арсенид-галлиевую ИС памяти емкостью 64 кбит, построенную с применением ВПЭ-транзисторов. Это ЗУПВ, имеющее ЭСЛ-совместимые линии ВВ,— самая крупная однокристальная БИС на ВПЭ-приборах на сегодняшний день. Прибор изготавливается по технологии с 0,6-мкм топологическими нормами, имеет организацию 8К*8 бит и требует трех источников питания с напряжениями — 1 В, —2 В и —3,6 В.

Разработчики компании Toshiba в своем докладе представляют однокристальную подсистему вторичной кэш-памяти — 64-кбайт кэш-память с механизмом слежения за шиной, ориентированную на подключение к микропроцессорам 80486 и 80386. Разработчикам удалось разместить на кристалле функциональные блоки ЗУПВ данных емкостью 64 кбайт с побайтовым контролем по четности, 68-кбит память тегов, 16-кбит память действительных флагов и 2-кбит память LRU-флагов (least-recently used — «первой заменяется дольше всего не использовавшаяся страница»). Подсистема построена как двухканальная множественно-ассоциативная кэш-память с 2048 множествами и реализует протокол сквозной записи для обеспечения когерентности (соответствия содержимого кэш-памяти и основной памяти).

Дочерние статьи:

Первое представление советской полупроводниковой технологии

Выходные данные:

Журнал "Электроника" том 64, No.03 (856), 1991г - пер. с англ. М.: Мир, 1991, стр.17

Electronics Design Vol.39 No.01 January 10, 1991 A Penton Publication

Electronics Design Vol.39 No.03 February 14, 1991 A Penton Publication

Dave Bursky. ISSCC: Digital technology, ED, 1991, No.3, pp.53—55, 58—59, 62—65.

Раздел: МЕТОДЫ, СХЕМЫ, АППАРАТУРА

Тема:     МКИС-91





Дата последнего изменения:
Thursday, 21-Aug-2014 09:10:55 MSK


Постоянный адрес статьи:
http://az-design.ru/Support/Archiv/Elc1991/D19910228Elc010.shtml