关于统计化学的主成份分析 (PCA)
关于统计化学的主成份分析 (PCA)现在有若干种天然植物油,每种油由50 多种化学成分。
现在我想做pca pricinple componets analysis
做完之后用分组结果,来对这些植物油做聚类分析(classification)
分析那些化学成份够成主成份。 这个教科书上有现成的例题和软件包。
更复杂一点的, 能不能把化学分子式之间的相关性也考虑进去作为聚类分析的依据?
比如 油A 是一种不饱和脂肪酸, 在长期存放的时候或者阳光充足的时候会完全转化为 饱和脂肪酸 B。 就是说那些 A+B 的数值高的植物油应该聚为一类。 关于统计化学的主成份分析 (PCA)
能不能把化学分子式之间的相关性也考虑进去作为聚类分析的依据
orionsnow 发表于 2010-2-1 15:16 http://www.dolc.de/forum/images/common/back.gif
根据经验,现实试验当中,这样搞意义一般不是太大。比如你举的A、B的例子,两个变量本身的相关性很大,往往只取其中一个变量加入到学习的feature里就够了。如果你做一些feature selection之类的预处理工作,往往就是把这些强相关的变量剔除掉。
不过强烈建议你试试。面对具体的应用,量性对比不同的方法还是最稳妥的。期待听到你的结果。 本帖最后由 orionsnow 于 2010-2-2 11:01 编辑
谢谢你的建议。
不过我们做的试验提前已经知道背景信息了,是在一个植物里头, 一个芳香族分子A,某些植物可以把它转化成另外一个同分异构体B,这样A和B 的含量都是随机变数,但是A+B 是一个方差很小的常数,所以聚类的时候必须把这个特殊的条件考虑进去,AB应该 是同一组很接近的两个位置才合理。
我目前的想法是直接把AB 项合并。然后重新做聚类分析。
芳香烃的分子一般就是互补关系 (相关系数, 0《 xxx《-1),
A 《-》B 单向或者可逆反应, 基本上就有这个规律
现在我在看还有没有你说的那种情况,相关系数+1,就是说一个多另外一个也多。
这个好像是催化酶和反应产物之间有这个关系吧? 或者A+B =》 C
当A 的含量特别低的时候, C 的含量会和 A 正比
另外我还有个问题,化学分析同素异构体的命名是怎么来得?
比如 Alpha-BetaThujone
有没有什么资料可以指导我,让我看到名字就可以手写分子式? 。。。。。。。。。。。。。。。。。 谢谢你的建议。
不过我们做的试验提前已经知道背景信息了,是在一个植物里头, 一个芳香族分子A,某些植 ...
orionsnow 发表于 2010-2-2 10:55 http://www.dolc.de/forum/images/common/back.gif
在化学里,有机物才有同分异构体,无机物叫做同素异形体.
同分异构体的命名有专门的手册,
通俗命名法又叫习惯命名法:以碳原子总数命名“某烷”,在某烷前面加正、异、新区别同分异构体(无同分异构体时,“正”去掉)。
有一些简单的规则,你可以大致了解一下:(从网上搜来,觉得讲得不错了)
1.“长”。即在命名时要选择烃分子中最长的碳链为主键,以主链上的碳原子数称为“某烷”。然而初学者在命名时,大多善于选择形式上的“长”链,而不会选实际上的长链,而不会观察拐弯相连的长链。 例如:在,一些同学常把主链误选为五个碳的主链,而实际上应为含有丙基和乙基的八个碳的主链;又如在 结构中,命名时一些同学常误认为主链的碳原子数为八个或九个或十个,而实际上,按最“长”原则主链碳原子数应为十一,如结构中标号所示。(注:该例只适宜在练习时供选主链用,中学阶段不适宜命名用)。
2.“多”。是指主链上含有的取代基要最多。在有多个等长碳链时,要选择含有支链最多的碳链作为主链,以便于命名时方便简单。例如:在 中,有三条等长碳链,但由于从左到右的碳链上取代基最多(四个),故主链应选从左到右的碳链作为主链。又如,在 中,主链不应选择从左到右的长链,而应选择向下拐弯的碳链为主链,因为这样主链上的取代基最多(5个)。
3.“近”。即在给主链上碳原子编号时,要从距取代基(支链)最近的一端编起,用以确定取代基在主链上的位置。例如:在 中,给主链碳原子编号应从右端编起,而不应从左端编起,即该烃名称应为:3,4—二甲基—5—乙基辛烷而不是5,6—二甲基—4—乙基辛烷。
4.“小”。是指按照上述三原则选择的主链,编号确定取代基在主链上的位置时,取代基的序数之和要最小,否则命名是错误的。例如: 其正确名称应为2,5—二甲基—3—乙基己烷(取代其序数和为2+5+3=10),而不是2,5—二甲基—4—乙基己烷(取代基序数和为2+5+4=11大于10)。再如: 其名称应为3,3,5—三甲基庚烷,而不是3,5,5—三甲基庚烷。 启示一:在主链两端等距离地出现相同的取代基时,按取代基所在位置序数之和较小的给取代基定位。即两端等距又同基,取代基序数和要最小。
5.“简”。是指靠近起点碳的取代基要最简单。例如,在 中,给主链碳原子编号时,起点碳应是右边而不是左边,即该烃名称为3—甲基—4—乙基己烷,而不是4—甲基—3—乙基己烷。 启示二:在主链两端等距离地出现不同的取代基时,从靠近简单取代基的一端给主链编号。即两端等距不同基,起点靠近简单基。 谢了。 我们做的那个东西是个碳链,末端有个苯环,苯环上可能挂羟基。 物质的分子式是一样的,但是空间结构是不一样的。
同素异型体好像是红磷白磷这种的吧?记得以前高中是定义的,由同样元素组成的化学结构和特性不相同的物质。
我说的这个肯定不是的。 晕阿,同素异构体居然是我自己打的,老糊涂了阿。 alpha,beta这种,在具体情况下要具体分析,大部分说的是萘,蒽等等多个苯环连接起来的环上官能团所在的不同位置. 汇报下结果,数据分析完了,发了垃圾文章两篇
页:
[1]