на тему рефераты Информационно-образоательный портал
Рефераты, курсовые, дипломы, научные работы,
на тему рефераты
на тему рефераты
МЕНЮ|
на тему рефераты
поиск
Процессор персонального компьютера
p align="left">8. Hyper - Threading

До недавнего времени повышение скорости работы процессоров связывали исключительно с увеличением их тактовой частоты и размера кэша. Но одновременное выполнение нескольких потоков также приводит к росту скорости работы процессора, причем более существенному. Именно в обработке нескольких потоков заключается суть новой технологии Hyper - Threading.

Как известно, процессор оперирует набором нескольких команд, которые необходимо выполнить. Для этой цели используется счетчик команд, который указывает на ячейки памяти, где хранится следующая для исполнения команда. После каждой команды значение этого регистра увеличивается до самого завершения потока. По окончании выполнения потока в счетчик команд заносится адрес следующей подлежащей исполнению инструкции. Потоки могут прерывать друг друга, но процессор запоминает значение счетчика команд в стеке и загружает в счетчик новое значение. Общеизвестный способ решения данной проблемы состоит в использовании двух процессоров - если один процессор в каждый момент времени может выполнять один поток, то два процессора за то же время могут выполнять уже два потока. Способность распределить выполнение нескольких потоков по ресурсам компьютера называют многопоточностью.

Что-то подобное многопоточности предлагает и новая технология от компании Intel под названием Hyper - Threading. Появилась она в ответ на проблему неполного использования исполнительных блоков процессора. Hyper - Threading - это название технологии одновременной многопоточности (Simultaneous Multi - Threading - SMT). Один физический процессор, по сути, эмулирует ОС как два логических. В процессоре с Hyper - Threading каждый логический процессор имеет свой набор регистров (включая и отдельный счетчик команд), а чтобы не усложнять технологию, в ней не реализуется одновременное исполнение некоторых команд в двух потоках.

9. Классический поток команд процессора

Когда команды извлекаются из кэша (или оперативной памяти), их необходимо декодировать и отправить на исполнение. Эти операции (получение команд, декодирование и отправка на исполнение) выполняются на препроцессоре. Из препроцессора они направляются на постпроцессор, где и выполняются. После этого результат попадает обратно в кэш (оперативную память).

Как видно, весь процесс обработки команды состоит из четырех шагов, что и определяет так называемый 4 - ступенчатый процесс (конвейер).

1. Извлечение из кэша (оперативной памяти).

2. Декодирование (разборка команды).

3. Исполнение команды (применение действий).

4. Запись в кэш (оперативную память).

Каждую из этих ступеней команда должна проходить ровно за один такт. Поэтому чем быстрее каждая из ступеней выполняет свои функции, тем быстрее работает весь процессор и тем выше его тактовая частота. Выполнение всех этих четырех команд определяет цикл. Большинство процессоров действительно исполняют команды за один цикл, но существуют сложные команды, для которых требуется несколько циклов. При исполнении сложных команд различные устройства задействуют собственные исполнительные конвейеры, тем самым, добавляя еще несколько ступеней к основному конвейеру процессора. Количество ступеней определяет глубину конвейера.

10. Поток команд процессора

В отличие от классического варианта, когда весь конвейер состоит из четырех ступеней, в большинстве современных процессоров конвейер разбивается на семь и более ступеней (гиперконвейерная обработка), для чего требуется более высокая тактовая частота.

Технология гиперконвейерой обработки предполагает удвоение длины конвейера по сравнению с предыдущей микроархитектурой Р6. например, один из основных элементов конвейера - блок предсказания ветвлений и восстановления работы - разбит на 20 тактов.

В Pentium IV на ступени исполнения используется меньшее количество функциональных блоков процессора. Но каждый из них обладает более длинным и более коротким конвейером. Процессор Pentium IV может одновременно выполнять на разных ступенях по 126 инструкций. Кроме того, в Pentium IV кэш первого уровня разделен и его кэш команд находится фактически на препроцессоре. Он называется кэшем с отслеживанием (trace cache) и оказывает влияние и на конвейер, и на основной поток команд. Эта кэш - память содержит декодированные команды х86 (микрокоманды), что устраняет задержку на расшифровку кодов команд. Исполнительные устройства процессора получают непрерывный поток команд, а общее время восстановления работы при неправильном предсказании ветвления существенно сокращается.

В процессорах с микроархитектурой х86, таких как Pentium III или Athlon, команды поступают в декодер из кэша команд, где они разбиваются на меньшие части (микрокоманды). Эти микрокоманды применяются при внеочередном исполнении команд, исполнительное устройство выполняет их планирование, исполнение и сброс. Такое разбиение имеет место, когда процессор выполняет инструкцию.

КЭШ L1

v

Декодирование

инструкций

v

Планирование

v

Исполнение

v

Сброс

(обобщенная схема работы процессора х86)

Кэш команд Pentium IV принимает транслированные и декодированные микрокоманды, готовые к передаче на внеочередное исполнение, и формирует из них мини - программы («отслеживания» - traces).

Декодирование

инструкций

v

Тrace Сache

v

Планирование

v

Исполнение

v

Сброс

(схема работы процессора Pentium IV)

По мере выполнения препроцессором накопленных отслеживаний кэш с отслеживаниями посылает до трех микрокоманд за такт на внеочередное устройство исполнения. В этом случае команды не нужно транслировать или декодировать. И только в случае промаха кэше первого уровня (L1) препроцессор начнет выбирать и декодировать инструкции из кэша второго уровня (L2) - к основному конвейеру добавляется дополнительные 8 ступеней.

Кэш с отслеживаниями работает в двух режимах:

- исполнительном (execute mode);

- построения отслеживающих сегментов (trace segment build mode).

В режиме исполнения кэш L1 передает команды исполнительным устройствам. Когда наступает промах этого кэша, он переходит в режим отслеживающих сегментов. В этом режиме препроцессор выбирает команды из кэша L2, транслирует их в микрокоманды, создает отслеживающий сегмент, который затем перемещается в кэш с отслеживающими и далее выполняется. Кэш - память уровня L2 с улучшенной передачей данных объемом 256 Кб ускоряет обмен информацией между кэш - памятью уровня 2 и ядром процессора.

Улучшенная система динамического исполнения - сложное устройство предположительного исполнения, хранящие команды для исполнительных устройств. Эта система позволяет исполнительным устройствам выбирать команды из большого набора предстоящих операций.

Как было отмечено выше, процессор начинает декодирование лишь в случае промаха кэша L1. Поэтому он разработан таким образом, чтобы декодировать только одну х86 - команду за такт. Так как длинный х86 - команды декодируются в 2 или 3 микрокоманды, то чтобы не засорять кэш с отслеживаниями, поступают следующим образом. Как только при создании отслеживающего сегмента кэш с отслеживаниями встречает длинную х86 - инструкцию, он вставляет в отслеживающий сегмент метку, которая указывает ячейки оперативной памяти с последовательностью микрокоманд данной инструкции. В режиме исполнения, когда кэш с отслеживаниями будет передавать поток инструкций на ступень исполнения, при попадании на такую метку он приостановит работу и на время передаст управление потоком команд микрокоду оперативной памяти.

11. Кодовые названия

Кодовые названия процессоров Intel

Семейство 486.

Р24. Первый 32 - разрядный процессор. 1,25 млн. транзисторов; тактовая частота - 50 - 66 МГц; кэш - память L1 - 8 Кб; кэш - память L2 на матричной плате - до 512 Кб; шина данных 32 - разрядная (25 - 33 МГц); адресная шина 32 - разрядная; общая разрядность - 32.

Р24С. Последний 486 процессор с 16 Кб кэшем первого уровня; 1,6 млн. транзисторов; тактовая частота - 75 - 100 МГц; кэш первого уровня 16 Кб; кэш второго уровня на матричной плате - до 512 Кб; процессор 32 - разрядный; шина данных 32 - разрядная (25 - 33 МГц); адресная шина 32 - разрядная; общая разрядность - 32.

Семейство Pentium MMX.

Р5. Первый процессор с двухконвейерной структурой, выпускался под Socket 4; кэш - память - 16 Кб; 3,1 млн. транзисторов; технология производства - 0,8 мкм; тактовая частота - 60 - 66 МГц; L1 - 16 Кб; L2 на матричной плате - до 1 Мб; процессор 64 - разрядный; шина данных 64 - разрядная (60 - 66 МГц); адресная шина 32 - разрядная; общая разрядность - 32.

Р54. 3,3 млн. транзисторов; технология производства - 0,5 - 0,35 мкм; тактовая частота - 75 - 200 МГц; L1 - 16 Кб; L2 на матричной плате - до 1 Мб; процессор 64 - разрядный; шина данных 64 - разрядная (50 - 66 МГц); адресная шина 32 - разрядная; разъем Socket 5, позднее Socket 7.

Р55С. Расширение MMX (Multi Media eXtention), содержащее 57 команд для вычислений с плавающей точкой, увеличивающее производительность компьютера в мультимедиа приложениях; 4,5 млн. транзисторов; технология производства - 0,28 мкм; тактовая частота - 166 - 233 МГц; L1 - 32 Кб; L2 на матричной плате - до 1 Мб; процессор 64 - разрядный; шина данных 64 - разрядная (60 - 66МГц); адресная шина 32 - разрядная; общая разрядность - 32; разъем Socket 7.

Семейство Pentium Pro.

Pentium P6. Создавался как процессор для серверов и рабочих станций, имеет объединенный в одном корпусе L2 объемом 256Кб; 5,5 млн. транзисторов; технология производства - 0,35 мкм; тактовая частота - 150 - 200 МГц.

Klamath. Первый процессор линейки Pentium II и первая модель с разъемом Slot 1; технология - 0,35 мкм; тактовые частоты ядра - 233 - 300 МГц; частота шины - 66 МГц; L1 - 32 Кб; L2 - 512 Кб; конструктивное исполнение - картридж SECC.

Deschutes. Ядро процессор линейки Pentium II, сменившего Klamath; технология - 0,25 мкм; тактовые частоты ядра - 233 - 300 МГц; частота шины - 66 МГц; L1 - 32 Кб; L2 - 512 Кб; тактовая частота - 266 - 450 МГц; частота шины - 66 - 100 МГц; L2 на процессоре - 521 Кб. Разъем Slot 1; конструктивное исполнение - картридж SECC, который в старших моделях был сменен на SECC2.

Katmai. Ядро процессора Pentium III, пришедшего на смену Deschutes. Добавлен блок SSE (Streaming SIMD Extensions), расширен набор команд MMX, усовершенствован механизм потокового доступа к памяти. Технология - 0,25 мкм; тактовая частота - 450 - 600 МГц; L2 на процессоре - 512 Кб; частота шины - 100 МГц; разъем - Slot 1.

Coppermine. Ядро процессоров Pentium III и Celeron; технология - 0,18 мкм; 256 Кб L2 для Pentium III и 128 Кб - для Celeron. Частота - от533 МГц и выше. Наряду с FSB100 МГц версиями Pentium III выпущены и варианты FSB133 МГц. Последние процессоры, рассчитанные на Slot 1, постепенно были вытеснены изделиями в конструктивном исполнении FC - PGA 370, рассчитанными на разъем Socket 370. частота шины для процессоров Celeron - 66 МГц, а начиная с модели Celeron 800 - 100 МГц.

Tualatin - 256K. Кодовое наименование ядра и процессоров Socket 370 Pentium III, сделанных по технологии 0,13 мкм. Рабочая частота моделей для Desktop с частотой системной шины 100 МГц - 1,1 ГГц.

Семейство Celeron.

Covington. Первый процессор линейки Celeron. Построен на ядре Deschutes и выпускался по 0,25 - микронной технологии. Тактовая частота - 266 - 300 МГц; частота системной шины 66 МГц; L1 - 32 Кб; Slot 1.

Mendocino. L2 - 128 Кб, интегрированная на одном кристалле с ядром. Тактовая частота - 300 - 533 МГц; частота системной шины - 66 МГц; технология 0,25 мкм для Slot 1, 0,22 мкм - для Socket - 370.

Coppermine 128K. Начиная с частоты 533 МГц, у Celeron появилось ядро - Coppermine с урезанным до 128 Кб кэшем L2. по своим характеристикам этот процессор максимально близок к Pentium III, построенному на базе Coppermine, в том числе впервые для Celeron включает поддержку SSE. Частота процессора - 900 МГц и выше; технология 0,13 мкм; частота системной шины - 100 МГц.

Willamette - 128. Технология 0,18 мкм; тактовая частота - 1,6 - 2 ГГц; L1 - 8 Кб; L2 - 128 Кб; процессор 64 - разрядный; шина данных 64 - разрядная (400 МГц); разъем Socket 478.

Семейство Pentium IV.

Willamette 423. Процессор с гиперконвейеризацией (hyperpipelining) - с конвейером, состоящим из 20 ступеней. Технология 0,18 мкм; тактовая частота процессора - 1,3 - 2 ГГц; L1 - 8 Кб; L2 - 256 Кб; процессор 64 - разрядный; шина данных 64 - разрядная (400 МГц); разъем Socket 423.

Willamette 478. Технология 0,18 мкм; тактовая частота - 1,3 - 2 ГГц; L1 - 8 Кб; L2 - 256 Кб (полноскоростной); процессор 64 - разрядный; шина данных 64 - разрядная (400 МГц); разъем Socket 478.

Страницы: 1, 2, 3, 4



© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.