跳至主要内容

【转】《嵌入式系统》读书笔记(2):ARM体系结构(下)

文章说明:calmarrow(lqm)读毛德操的《嵌入式系统》所做笔记

文章引自:http://piaoxiang.cublog.cn

ARM指令系统
    系统的指令系统介绍这里就不罗列了,没有多大意义。这里只是总结一些小的知识点和经验,便于对ARM指令系统有更为深入的理解。


1、ARM处于用户态模式时,可见的通用寄存器是16个,即R0-R15。外加一个CPSR(Current Program Status Register,当前程序状态寄存器),总共是17个。其中3个有特殊用途:R15��程序计数器PC,R14��程序链接寄存器LR,R13��堆栈指针SP。

2、ARM有7中运行状态:usr、fiq、irq、sve、abt、und、sys。除用户状态外的6中均为系统状态(特权模式)。当CPU从用户状态进入系统状态时,或者发生系统状态间的切换时,都需要将CPSR的内容保存起来,以备将来恢复原来的运行状态,所以每个系统状态都有个"保存程序状态寄存器(Saved Program Status Register)"SPSR。CPSR和SPSR都是32位的,实际上只用了其中的一部分。

3、ARM体系结构中,每一条指令都可以条件执行。例如:

cmp r0, #0
addeq r0, r2, r5
addne r0, r0, r0, lsl #1

等价于:

if (r0 = = 0) {
 r0 = r2 + r5;
}
else {
 r0 = r0 * 3;
}

    可见,利用这种独特的条件执行可以得到很简洁的汇编代码,要不然就得在汇编代码中插入条件转移指令。不过,当if或else下面的条件执行部分较大时,插入条件转移指令更合适。有人做过分析,当一个条件执行部分的大小超过三条指令时,就还是以插入条件转移指令为好;反之则以条件执行指令为好。

    在条件转移的设计中,同时要注意程序的可读性。虽然程序都能得到正确的结果,但是安排合理的程序更具有可读性,也更加易于维护。宁肯牺牲一部分时间来完善,也不要在事后代码维护的时候才意识到。在EDUKIT-III的汇编实验中,提供的程序就存在可读性差的问题,经过修改后的程序如下:

 

/*
 * Filename   : asm_d
 * Description: Example for Condition Code and practice subroutine.
 * Version    : 1.0
 * Author     : Liu Qingmin
 * Date       : 2007-04-06
 * History     : None
 */
 
/* constant define */
.equ num, 4                /* the number of branch */
.global _start
 
/* code segment */
.text
_start:
  mov r0, #3              /* set three parameters of function "arithfunc" */
  mov r1, #5
  mov r2, #2
  bl arithfunc            /* jump to arithfunc, and put the value of R14 to LR */
 
stop:                     /* end with dead cycling */
  b stop
 
/*
 * Funcname   : arithfunc
 * Description: Execute add or sub and return result
 * Parameters : R0 -- function number that will be executed.If 0, execute the first
 *              branch;if 1, execute the second branch, and so on. However, If
 *              greater than number of branch, execute the first branch by
 *              default(this can be customized).
 *              R1 -- the first operand
 *              R2 -- the second operand
 * Return : R0 -- result of arithmetic operation
 */
arithfunc:
  cmp r0, #num
  bhs doadd                /* if >= branch number, jump to doadd by default */
  
  adr r3, jumptable        /* load address of jumptable */
  ldr pc, [r3, r0, lsl #2] /* jump to correct branch */
 
doadd:                     /* the first branch 0 */
  add r0, r1, r2           /* R1+R2 -> R0 */
  mov pc, lr               /* Return */
 
dosub:                     /* the second branch 1 */
 sub r0, r1, r2            /* R1-R2 -> R0 */
  mov pc, lr
doand:                     /* the third branch 2 */
 and r0, r1, r2            /* R1&R2 -> R0 */
 mov pc, lr
doorr:                     /* the fourth branch 3 */
 orr r0, r1, r2            /* R1|R2 -> R0 */
 mov pc, lr
 
/*
  * Jump Table
  * Please notice that this table saves the address of branch,
  * and the address is a 32bits word.Therefore, R0<<2 is the
  * offset of address. In fact, src and dst can be viewed as
  * table and be used as addressing in the experiment asm_c.
  */
jumptable:
  .long doadd, dosub, doand, doorr
.end


4、关于堆栈寻址
    堆栈是一块连续的内存,也可以说是存储区,不过因为作为特定的数据结构,它对数据存储顺序是有要求的,即先进后出(或者说是后进先出)。堆栈寻址时,使用SP指向一块存储区域,指针所指向的单元就是堆栈的栈顶。存储器堆栈可以分为两种:

一种是向上生长,就是向着高地址方向生长,称为递增堆栈。
一种是向下生长,就是向着低地址方向生长,称为递减堆栈。

    另外,堆栈指针指向最后压入的堆栈的有效数据项,称为满堆栈;堆栈指针指向下一个要放入的空位置,称为空堆栈。这样,就有四种组合:满递增、空递增、满递减、空递减。
(D代表Descending,A代表Ascending,F代表Full,E代表Empty)

    写程序通过分析结果来理解堆栈寻址是一种最好的方法,形象直观。现在根据汇编实验分析结果对上述堆栈寻址作出总结。

入栈规律:
(1)满堆栈操作先调整SP,然后存入数据。
(2)空堆栈操作先存入数据,然后调整SP。
(3)递增堆栈调整SP时,执行SP=SP+4
(4)递减堆栈调整SP时,执行SP=SP-4

出栈规律正好与入栈相反,也就是入栈的逆操作。
(1)空堆栈操作先调整SP,然后存入数据。
(2)满堆栈操作先存入数据,然后调整SP。
(3)递减堆栈调整SP时,执行SP=SP+4
(4)递增堆栈调整SP时,执行SP=SP-4

    明确了这四个规律,就很容易分析各种堆栈寻址方式对应的堆栈分布情况了。
stmfd sp!, {r4-r11}

    假设初始SP为0x0400,那么执行完毕后内存0x03E0-0x03FF保存寄存器R4-R11的内容。
stmed sp!, {r4-r11}

    假设初始SP为0x0400,那么执行完毕后内存0x03E4-0x0403保存寄存器R4-R11的内容。
实际应用中,只选用一种方式使用就可以了。最常用最典型的就是后缀为"FD"时的结构,这是人们熟悉的堆栈结构。
stmfd sp!, {r4-r11, lr}  /*入栈*/
ldmfd sp!, {r4-r11, lr}  /*出栈*/

5、关于转移指令
    ARM的转移指令是独特的,最简单最基本的转移指令是b,表示"branch",例如:
b reset

    这里"标签"是一段程序的入口,一般是一个函数,或者是汇编程序的一个标签。在基本的操作码b后面加上条件后缀EQ、NE、GT、LT等等,就成了条件转移指令。由于指令的长度只有32位,编码在指令中的就只能是一个相对于PC当前值的位移,而不可能是个32位的绝对地址。所以,这是一条"相对转移"指令。如果要做绝对转移,那么就得采用别的手段,例如,可以把转移的目标地址放到寄存器R4中,那么将它传递到PC中就可以完成转移。
mov pc, r4

    这就变成绝对转移了,但是,b指令不允许以寄存器的内容作为目标地址。

    事实上,子程序调用的返回指令mov pc,lr也是绝对转移。

    ARM处理器中有一条执行指令的流水线,不管是相对转移还是绝对转移,当CPU执行到引起转移时,即引起pc突变的指令时,其后面的几条指令已经被取入了流水线,甚至已经对指令解码了。程序计数器pc的突变迫使流水线舍弃这些已经在流水线中的指令,使流水线短暂断流,然后从新的地址取指令,并又逐步"灌满"流水线。在这个过程中,CPU可能会有一个短暂(例如几个时钟周期)的"无所事事"的空隙。在典型的RISC结构中,一般都把转移前的最后一条指令改放到转移指令后面,或者把转移目标处的第一条指令搬过来放到转移指令后面,称为指令调度。这样,把本来会浪费掉的几个时钟周期利用起来,效率当然提高了,但是对于代码的阅读、理解以及调试,都有不利的影响。所以常常受到来自CISC阵营的批评和攻击。ARM体系结构的设计者并没有紧跟RISC的潮流,仍然采用传统的方法,宁可浪费一点效率也要保证程序的简洁,所以不采用指令调度,而只是丢弃已经进入流水线的指令。毕竟,大多数情况下,因此而降低的效率只占很小的比例。

    相对转移指令b有个变形bl,意为"转移并连接(Branch and Link)",专门用于子程序调用。执行这条指令时CPU将pc的当前值(指向下一条指令)保存在寄存器lr中,即R14中,同时转向目标地址。这是,要从子程序返回时,只要把lr的内容写入pc就行了。例如:

bl uHALir_ReadMode

uHALir_ReadMode:
 mov pc, lr

    这里考虑为什么不像传统的做法那样自动把返回地址保存在堆栈中?原因前面提到过了,RISC的设计原则之一就是尽量少访问内存,而改用寄存器代替,这样可以有效的提高效率。堆栈是在内存中,把返回的地址放到堆栈意味着访问内存,而寄存器间的访问比访问内存操作要快得多。这样,先通过较快的方法进入到子程序,如果还需要进一步调用更深层的子程序,则可以到那时再把lr的内容保存("溅出")堆栈中,如果不需要访问深层子程序,则可以省去为返回地址而读/写内存的操作。程序在运行时会形成一颗"子程序调用树"。统计表明,对叶节点,即底层子程序的调用常常占很高的比例,这是因为对底层子程序的调用往往是在循环中进行的,而且,底层子程序本身往往是很小的,为调用本身很小的底层子程序访问内存两次,所占的比例就不小了。

评论

此博客中的热门博文

【转】AMBA、AHB、APB总线简介

AMBA 简介 随着深亚微米工艺技术日益成熟,集成电路芯片的规模越来越大。数字IC从基于时序驱动的设计方法,发展到基于IP复用的设计方法,并在SOC设计中得到了广泛应用。在基于IP复用的SoC设计中,片上总线设计是最关键的问题。为此,业界出现了很多片上总线标准。其中,由ARM公司推出的AMBA片上总线受到了广大IP开发商和SoC系统集成者的青睐,已成为一种流行的工业标准片上结构。AMBA规范主要包括了AHB(Advanced High performance Bus)系统总线和APB(Advanced Peripheral Bus)外围总线。   AMBA 片上总线        AMBA 2.0 规范包括四个部分:AHB、ASB、APB和Test Methodology。AHB的相互连接采用了传统的带有主模块和从模块的共享总线,接口与互连功能分离,这对芯片上模块之间的互连具有重要意义。AMBA已不仅是一种总线,更是一种带有接口模块的互连体系。下面将简要介绍比较重要的AHB和APB总线。 基于 AMBA 的片上系统        一个典型的基于AMBA总线的系统框图如图3所示。        大多数挂在总线上的模块(包括处理器)只是单一属性的功能模块:主模块或者从模块。主模块是向从模块发出读写操作的模块,如CPU,DSP等;从模块是接受命令并做出反应的模块,如片上的RAM,AHB/APB 桥等。另外,还有一些模块同时具有两种属性,例如直接存储器存取(DMA)在被编程时是从模块,但在系统读传输数据时必须是主模块。如果总线上存在多个主模块,就需要仲裁器来决定如何控制各种主模块对总线的访问。虽然仲裁规范是AMBA总线规范中的一部分,但具体使用的算法由RTL设计工程师决定,其中两个最常用的算法是固定优先级算法和循环制算法。AHB总线上最多可以有16个主模块和任意多个从模块,如果主模块数目大于16,则需再加一层结构(具体参阅ARM公司推出的Multi-layer AHB规范)。APB 桥既是APB总线上唯一的主模块,也是AHB系统总线上的从模块。其主要功能是锁存来自AHB系统总...

【转】C++/CLI程序进程之间的通讯

 现在,把大型软件项目分解为一些相交互的小程序似乎变得越来越普遍,程序各部分之间的通讯可使用某种类型的通讯协议,这些程序可能运行在不同的机器上、不同的操作系统中、以不同的语言编写,但也有可能只在同一台机器上,实际上,这些程序可看成是同一程序中的不同线程。而本文主要讨论C++/CLI程序间的通讯,当然,在此是讨论进程间通讯,而不是网络通讯。    简介   试想一个包含数据库查询功能的应用,通常有一个被称为服务端的程序,等待另一个被称为客户端程序发送请求,当接收到请求时,服务端执行相应功能,并把结果(或者错误信息)返回给客户端。在许多情况中,有着多个客户端,所有的请求都会在同一时间发送到同一服务端,这就要求服务端程序要更加高级、完善。   在某些针对此任务的环境中,服务端程序可能只是众多程序中的一个程序,其他可能也是服务端或者客户端程序,实际上,如果我们的数据库服务端需要访问不存在于本机的文件,那么它就可能成为其他某个文件服务器的一个客户端。一个程序中可能会有一个服务线程及一个或多个客户线程,因此,我们需小心使用客户端及服务端这个术语,虽然它们表达了近似的抽象含义,但在具体实现上却大不相同。从一般的观点来看,客户端即为服务端所提供服务的"消费者",而服务端也能成为其他某些服务的客户端。    服务端套接字   让我们从一个具体有代表性的服务端程序开始(请看例1),此程序等待客户端发送一对整数,把它们相加之后返回结果给客户端。   例1: using namespace System; using namespace System::IO; using namespace System::Net; using namespace System::Net::Sockets; int main(array<String^>^ argv) { if (argv->Length != 1) { Console::WriteLine("Usage: Server port"); Environment::Exit(1); } int port = 0; try { port = Int32::Parse(argv[0]); } catch (FormatException^ e) { Console::Wri...

【转】VxWorks入门

1.VxWorks开发方式:交叉开发,即将开发分为主机(host)和目标机(target)两部分。 类似于dos下C语言程序的开发。 合并开发的优点:简单 缺点:资源消耗量大,CPU支持,非标准体系的支持 host (Tornado) target(vxWork) 小程序模块 vxWorks实际采用开发模式 Tornado提供:编辑,编译,调试,性能分析工具,是vxWorks的开发工具 vxWorks:面向对象可以剪裁的实际运行操作系统 2.vxWorks启动方式 <1>Rom方式 (vxWork_rom) vxWorks直接烧入rom <2>Rom引导方式(bootrom+vxWorks) 其中bootrom烧入rom,vxWorks可以通过从串口,网口,硬盘,flash等下载!这里的bootrom不是开发环境中的bootable,在开发环境里bootable指的是vxWorks,downloadable指application 3.调试 <1>attachs/20060907_164540_564.rar 用来在多任务调试时将调试对象绑定到某个任务 <2>任务级调试(attachs/20060907_164540_564.rar taskName) 单个任务的调试不会影响到其他任务的运行,主要用来调用户的应用程序。 全局断点:在调另一任务或本任务时,系统运行本任务断点,则停下。各任务要配合使用。 任务断点:调本任务时,系统运行到本任务断点,则停下。如果没有attachs/20060907_164540_564.rar到本任务,不起作用。 一次性断点:跑到一次之后自动删除。 <3>系统级调试(attachs/20060907_164540_564.rar system) 把所有task和系统core、中断看成一个整体,可用于调试系统和中断。对中断调试,如果不是系统级调试,无论是那种断点都不起作用 !wdbAgent不在调试范围内,当任务级调试时工作在中断方式,系统级调试工作在轮询方式。 !可是使用命令行方式的调试,参看crossWind教程。 4.调度 优先级调度(无条件) 时间片:同优先级,如果时间片没有打开,任务采取先到先运行,运行完毕在交出cpu,如果打开,则轮流使用cpu。 !死循环使比它...